給定立方體積木的幾個側(cè)面剪影,你能否「腦補」出它的整個 3D 形狀?這看起來像是行測中的圖形題,考驗人們從 2D 畫面到 3D 空間的轉(zhuǎn)換能力。在 DeepMind 最新發(fā)表在頂級期刊 Science 的論文《Neural scene representation and rendering》中,計算機通過「生成查詢網(wǎng)絡(luò) GQN」也擁有了這種空間推理能力。 理解視覺場景時,我們依賴的不僅僅是眼睛:我們的大腦利用已有知識來推理,并做出遠(yuǎn)遠(yuǎn)超過視線所及的推論。例如,當(dāng)?shù)谝淮芜M入一個房間時,你會立即認(rèn)出里面的物品以及它們的位置。如果你看到一張桌子的三條腿,你會推斷可能還有第四條腿,形狀和顏色相同,只不過在視線之外。即使你看不到房間里的所有東西,你也可以勾畫出它的布局,或者從另一個角度想象它的樣子。 這些視覺和認(rèn)知任務(wù)對人類來說似乎毫不費力,但對我們的人工智能系統(tǒng)來說卻是一個重大挑戰(zhàn)。如今,最先進的視覺識別系統(tǒng)需要使用由人類標(biāo)注的大量圖像數(shù)據(jù)來進行訓(xùn)練的。獲取這些數(shù)據(jù)是一個成本高昂且耗時的過程,需要人工對數(shù)據(jù)集中每個場景中每個對象的每個方面進行標(biāo)記。而實驗結(jié)果通常只能捕獲到整體場景內(nèi)容的一小部分,這限制了根據(jù)該數(shù)據(jù)訓(xùn)練的人工視覺系統(tǒng)。隨著我們開發(fā)出現(xiàn)實世界中更復(fù)雜的機器,我們希望它們可以充分理解周圍的環(huán)境:最近的地面在哪里?沙發(fā)是用什么材料做的?哪一個光源產(chǎn)生了所有的陰影?電燈開關(guān)可能在哪里? DeepMind新提出的GQN,就是這樣一種新思路。 DeepMind 創(chuàng)始人(同時也是該論文的作者之一)戴密斯·哈薩比斯表示:「我們一直著迷于大腦是如何在意識中構(gòu)建空間圖像的,我們的最新《Science》論文引入了 GQN:它可以從一些 2D 快照中重建場景的 3D 表示,并可以通過任何新的視角不斷增強這一表示?!? DeepMind的這套視覺系統(tǒng),也即生成查詢網(wǎng)絡(luò)(GQN),使用從不同視角收集到的某個場景的圖像,然后生成關(guān)于這個場景的抽象描述,通過一個無監(jiān)督的表示學(xué)習(xí)過程,學(xué)習(xí)到了場景的本質(zhì)。之后,在學(xué)到的這種表示的基礎(chǔ)上,網(wǎng)絡(luò)會預(yù)測從其他新的視角看這個場景將會是什么樣子。這一過程非常類似人腦中對某個場景的想象。而理解一個場景中的視覺元素是典型的智能行為。 表示網(wǎng)絡(luò)與生成網(wǎng)絡(luò)GQN模型由兩部分組成:一個表示網(wǎng)絡(luò)、一個生成網(wǎng)絡(luò)。 表示網(wǎng)絡(luò)將智能體觀察到的圖像作為輸入,然后生成一個描述潛在場景的表示(向量)。 生成網(wǎng)絡(luò)的任務(wù)是從一個之前沒有觀察到的角度,來預(yù)測(也可以叫“想象”)出這個潛在的場景。 表示網(wǎng)絡(luò)不知道生成網(wǎng)絡(luò)將被要求預(yù)測哪些視角,因此必須找到盡可能準(zhǔn)確描述場景真實布局的有效方法。表示網(wǎng)絡(luò)能通過簡明的分布式表示捕獲最重要的元素,例如目標(biāo)位置、顏色和房間布局。在訓(xùn)練過程中,生成器學(xué)習(xí)環(huán)境中的典型目標(biāo)、特征、關(guān)系和規(guī)律。這組共享的「概念」使表示網(wǎng)絡(luò)能夠以高度壓縮、抽象的方式來描述場景,讓生成網(wǎng)絡(luò)在必要時填寫細(xì)節(jié)。例如,表示網(wǎng)絡(luò)將把「藍色立方體」簡潔地表示為一個小的數(shù)值集合,生成網(wǎng)絡(luò)將知道從特定的角度來看,這是如何以像素的形式表現(xiàn)出來的。 四大特性DeepMind研究人員在程序生成的虛擬3D環(huán)境中對GQN做了多次試驗,包括多種不同物體,被擺放在不同的位置,并且形狀、顏色、材質(zhì)都不相同,同時還改變了光線方向和遮擋程度。通過在這些環(huán)境上進行訓(xùn)練,他們用GQN的表示網(wǎng)絡(luò)去生成一個從未見過的場景。在實驗中人們發(fā)現(xiàn)GQN表現(xiàn)出的四個重要特性:
未來研究GQN 建立在最近大量多視角的幾何研究、生成式建模、無監(jiān)督學(xué)習(xí)和預(yù)測學(xué)習(xí)的基礎(chǔ)上,它展示了一種學(xué)習(xí)物理場景的緊湊、直觀表征的全新方式。重要的是,提出的這種方法不需要特定域的工程以及消耗時間對場景內(nèi)容打標(biāo)簽,使得同一模型能夠應(yīng)用到大量不同的環(huán)境。它也學(xué)習(xí)了一種強大的神經(jīng)渲染器,能夠產(chǎn)生準(zhǔn)確的、全新視角的場景圖像。 DeepMind 認(rèn)為,相比于更多傳統(tǒng)的計算機視覺技術(shù),他們的方法還有許多缺陷,目前也只在合成場景下訓(xùn)練工作的。然而,隨著新數(shù)據(jù)資源的產(chǎn)生、硬件能力的發(fā)展,DeepMind 希望探索 GQN 框架應(yīng)用到更高分辨率真實場景圖像的研究。未來,探索 GQN 應(yīng)用到更廣泛的場景理解的工作也非常重要,例如通過跨空間和時間的查詢來學(xué)習(xí)物理和移動等常識概念,還有應(yīng)用到虛擬和增強現(xiàn)實等。 論文原文原文地址:http://science./content/360/6394/1204.full |
|
|