DeepMind新作生成查詢網(wǎng)絡(luò)GQN：無監(jiān)督渲染3D場景

LibraryPKU 2018-06-17

展開全文

給定立方體積木的幾個側(cè)面剪影，你能否「腦補」出它的整個 3D 形狀？這看起來像是行測中的圖形題，考驗人們從 2D 畫面到 3D 空間的轉(zhuǎn)換能力。在 DeepMind 最新發(fā)表在頂級期刊 Science 的論文《Neural scene representation and rendering》中，計算機通過「生成查詢網(wǎng)絡(luò) GQN」也擁有了這種空間推理能力。

理解視覺場景時，我們依賴的不僅僅是眼睛：我們的大腦利用已有知識來推理，并做出遠(yuǎn)遠(yuǎn)超過視線所及的推論。例如，當(dāng)?shù)谝淮芜M入一個房間時，你會立即認(rèn)出里面的物品以及它們的位置。如果你看到一張桌子的三條腿，你會推斷可能還有第四條腿，形狀和顏色相同，只不過在視線之外。即使你看不到房間里的所有東西，你也可以勾畫出它的布局，或者從另一個角度想象它的樣子。

這些視覺和認(rèn)知任務(wù)對人類來說似乎毫不費力，但對我們的人工智能系統(tǒng)來說卻是一個重大挑戰(zhàn)。如今，最先進的視覺識別系統(tǒng)需要使用由人類標(biāo)注的大量圖像數(shù)據(jù)來進行訓(xùn)練的。獲取這些數(shù)據(jù)是一個成本高昂且耗時的過程，需要人工對數(shù)據(jù)集中每個場景中每個對象的每個方面進行標(biāo)記。而實驗結(jié)果通常只能捕獲到整體場景內(nèi)容的一小部分，這限制了根據(jù)該數(shù)據(jù)訓(xùn)練的人工視覺系統(tǒng)。隨著我們開發(fā)出現(xiàn)實世界中更復(fù)雜的機器，我們希望它們可以充分理解周圍的環(huán)境：最近的地面在哪里？沙發(fā)是用什么材料做的？哪一個光源產(chǎn)生了所有的陰影？電燈開關(guān)可能在哪里？

DeepMind新提出的GQN，就是這樣一種新思路。 DeepMind 創(chuàng)始人（同時也是該論文的作者之一）戴密斯·哈薩比斯表示：「我們一直著迷于大腦是如何在意識中構(gòu)建空間圖像的，我們的最新《Science》論文引入了 GQN：它可以從一些 2D 快照中重建場景的 3D 表示，并可以通過任何新的視角不斷增強這一表示?！?

DeepMind的這套視覺系統(tǒng)，也即生成查詢網(wǎng)絡(luò)（GQN），使用從不同視角收集到的某個場景的圖像，然后生成關(guān)于這個場景的抽象描述，通過一個無監(jiān)督的表示學(xué)習(xí)過程，學(xué)習(xí)到了場景的本質(zhì)。之后，在學(xué)到的這種表示的基礎(chǔ)上，網(wǎng)絡(luò)會預(yù)測從其他新的視角看這個場景將會是什么樣子。這一過程非常類似人腦中對某個場景的想象。而理解一個場景中的視覺元素是典型的智能行為。

表示網(wǎng)絡(luò)與生成網(wǎng)絡(luò)

GQN模型由兩部分組成：一個表示網(wǎng)絡(luò)、一個生成網(wǎng)絡(luò)。

表示網(wǎng)絡(luò)將智能體觀察到的圖像作為輸入，然后生成一個描述潛在場景的表示（向量）。

生成網(wǎng)絡(luò)的任務(wù)是從一個之前沒有觀察到的角度，來預(yù)測（也可以叫“想象”）出這個潛在的場景。

表示網(wǎng)絡(luò)不知道生成網(wǎng)絡(luò)將被要求預(yù)測哪些視角，因此必須找到盡可能準(zhǔn)確描述場景真實布局的有效方法。表示網(wǎng)絡(luò)能通過簡明的分布式表示捕獲最重要的元素，例如目標(biāo)位置、顏色和房間布局。在訓(xùn)練過程中，生成器學(xué)習(xí)環(huán)境中的典型目標(biāo)、特征、關(guān)系和規(guī)律。這組共享的「概念」使表示網(wǎng)絡(luò)能夠以高度壓縮、抽象的方式來描述場景，讓生成網(wǎng)絡(luò)在必要時填寫細(xì)節(jié)。例如，表示網(wǎng)絡(luò)將把「藍色立方體」簡潔地表示為一個小的數(shù)值集合，生成網(wǎng)絡(luò)將知道從特定的角度來看，這是如何以像素的形式表現(xiàn)出來的。

四大特性

DeepMind研究人員在程序生成的虛擬3D環(huán)境中對GQN做了多次試驗，包括多種不同物體，被擺放在不同的位置，并且形狀、顏色、材質(zhì)都不相同，同時還改變了光線方向和遮擋程度。通過在這些環(huán)境上進行訓(xùn)練，他們用GQN的表示網(wǎng)絡(luò)去生成一個從未見過的場景。在實驗中人們發(fā)現(xiàn)GQN表現(xiàn)出的四個重要特性：

GQN 的生成網(wǎng)絡(luò)可以從新的視角非常精確地「想象」以前未見過視角下的場景。當(dāng)給定場景表征和新視角時，它會生成清晰的圖像，而不需要預(yù)先規(guī)定角度、遮擋或照明的規(guī)律。因此，生成網(wǎng)絡(luò)是從數(shù)據(jù)中學(xué)習(xí)的近似渲染器（renderer）：

GQN的表示網(wǎng)絡(luò)可以獨自學(xué)習(xí)算數(shù)、定位、分類物體。就算在小型表示上，GQN也能在具體視角上做出非常精準(zhǔn)的預(yù)測，和現(xiàn)實幾乎一模一樣。這說明了表示網(wǎng)絡(luò)觀察得非常仔細(xì)，例如下面這個由幾個方塊堆疊起來的場景：

GQN能夠表示、衡量和減少不確定性。即便內(nèi)容不是完全可見，GQN也能應(yīng)付場景中的不確定性，并將場景中的多個局部視圖組合起來，形成一個整體。這事兒挺難，人都不一定能做好。GQN能力如何？見下圖所示。有一類是第一人稱視角的預(yù)測：

GQN的表示允許穩(wěn)健的、數(shù)據(jù)有效（data-efficient）的強化學(xué)習(xí)。當(dāng)給定GQN的緊湊表示時，與無模型基線agent相比， state-of-the-art的深度強化學(xué)習(xí)agent能夠以更高的數(shù)據(jù)效率方式完成任務(wù)，如下圖所示。對于這些agent，生成網(wǎng)絡(luò)中編碼的信息可以被看作是對環(huán)境的“先天”知識：

未來研究

GQN 建立在最近大量多視角的幾何研究、生成式建模、無監(jiān)督學(xué)習(xí)和預(yù)測學(xué)習(xí)的基礎(chǔ)上，它展示了一種學(xué)習(xí)物理場景的緊湊、直觀表征的全新方式。重要的是，提出的這種方法不需要特定域的工程以及消耗時間對場景內(nèi)容打標(biāo)簽，使得同一模型能夠應(yīng)用到大量不同的環(huán)境。它也學(xué)習(xí)了一種強大的神經(jīng)渲染器，能夠產(chǎn)生準(zhǔn)確的、全新視角的場景圖像。

DeepMind 認(rèn)為，相比于更多傳統(tǒng)的計算機視覺技術(shù)，他們的方法還有許多缺陷，目前也只在合成場景下訓(xùn)練工作的。然而，隨著新數(shù)據(jù)資源的產(chǎn)生、硬件能力的發(fā)展，DeepMind 希望探索 GQN 框架應(yīng)用到更高分辨率真實場景圖像的研究。未來，探索 GQN 應(yīng)用到更廣泛的場景理解的工作也非常重要，例如通過跨空間和時間的查詢來學(xué)習(xí)物理和移動等常識概念，還有應(yīng)用到虛擬和增強現(xiàn)實等。