电竞比分网-中国电竞赛事及体育赛事平台

分享

DeepMind新作生成查詢網(wǎng)絡(luò)GQN:無監(jiān)督渲染3D場景

 LibraryPKU 2018-06-17
給定立方體積木的幾個側(cè)面剪影,你能否「腦補」出它的整個 3D 形狀?這看起來像是行測中的圖形題,考驗人們從 2D 畫面到 3D 空間的轉(zhuǎn)換能力。在 DeepMind 最新發(fā)表在頂級期刊 Science 的論文《Neural scene representation and rendering》中,計算機通過「生成查詢網(wǎng)絡(luò) GQN」也擁有了這種空間推理能力。

理解視覺場景時,我們依賴的不僅僅是眼睛:我們的大腦利用已有知識來推理,并做出遠(yuǎn)遠(yuǎn)超過視線所及的推論。例如,當(dāng)?shù)谝淮芜M入一個房間時,你會立即認(rèn)出里面的物品以及它們的位置。如果你看到一張桌子的三條腿,你會推斷可能還有第四條腿,形狀和顏色相同,只不過在視線之外。即使你看不到房間里的所有東西,你也可以勾畫出它的布局,或者從另一個角度想象它的樣子。

這些視覺和認(rèn)知任務(wù)對人類來說似乎毫不費力,但對我們的人工智能系統(tǒng)來說卻是一個重大挑戰(zhàn)。如今,最先進的視覺識別系統(tǒng)需要使用由人類標(biāo)注的大量圖像數(shù)據(jù)來進行訓(xùn)練的。獲取這些數(shù)據(jù)是一個成本高昂且耗時的過程,需要人工對數(shù)據(jù)集中每個場景中每個對象的每個方面進行標(biāo)記。而實驗結(jié)果通常只能捕獲到整體場景內(nèi)容的一小部分,這限制了根據(jù)該數(shù)據(jù)訓(xùn)練的人工視覺系統(tǒng)。隨著我們開發(fā)出現(xiàn)實世界中更復(fù)雜的機器,我們希望它們可以充分理解周圍的環(huán)境:最近的地面在哪里?沙發(fā)是用什么材料做的?哪一個光源產(chǎn)生了所有的陰影?電燈開關(guān)可能在哪里?

DeepMind新提出的GQN,就是這樣一種新思路。  DeepMind 創(chuàng)始人(同時也是該論文的作者之一)戴密斯·哈薩比斯表示:「我們一直著迷于大腦是如何在意識中構(gòu)建空間圖像的,我們的最新《Science》論文引入了 GQN:它可以從一些 2D 快照中重建場景的 3D 表示,并可以通過任何新的視角不斷增強這一表示?!?

DeepMind的這套視覺系統(tǒng),也即生成查詢網(wǎng)絡(luò)(GQN),使用從不同視角收集到的某個場景的圖像,然后生成關(guān)于這個場景的抽象描述,通過一個無監(jiān)督的表示學(xué)習(xí)過程,學(xué)習(xí)到了場景的本質(zhì)。之后,在學(xué)到的這種表示的基礎(chǔ)上,網(wǎng)絡(luò)會預(yù)測從其他新的視角看這個場景將會是什么樣子。這一過程非常類似人腦中對某個場景的想象。而理解一個場景中的視覺元素是典型的智能行為。

表示網(wǎng)絡(luò)與生成網(wǎng)絡(luò)

GQN模型由兩部分組成:一個表示網(wǎng)絡(luò)、一個生成網(wǎng)絡(luò)。

表示網(wǎng)絡(luò)將智能體觀察到的圖像作為輸入,然后生成一個描述潛在場景的表示(向量)。

生成網(wǎng)絡(luò)的任務(wù)是從一個之前沒有觀察到的角度,來預(yù)測(也可以叫“想象”)出這個潛在的場景。




表示網(wǎng)絡(luò)不知道生成網(wǎng)絡(luò)將被要求預(yù)測哪些視角,因此必須找到盡可能準(zhǔn)確描述場景真實布局的有效方法。表示網(wǎng)絡(luò)能通過簡明的分布式表示捕獲最重要的元素,例如目標(biāo)位置、顏色和房間布局。在訓(xùn)練過程中,生成器學(xué)習(xí)環(huán)境中的典型目標(biāo)、特征、關(guān)系和規(guī)律。這組共享的「概念」使表示網(wǎng)絡(luò)能夠以高度壓縮、抽象的方式來描述場景,讓生成網(wǎng)絡(luò)在必要時填寫細(xì)節(jié)。例如,表示網(wǎng)絡(luò)將把「藍色立方體」簡潔地表示為一個小的數(shù)值集合,生成網(wǎng)絡(luò)將知道從特定的角度來看,這是如何以像素的形式表現(xiàn)出來的。

四大特性

DeepMind研究人員在程序生成的虛擬3D環(huán)境中對GQN做了多次試驗,包括多種不同物體,被擺放在不同的位置,并且形狀、顏色、材質(zhì)都不相同,同時還改變了光線方向和遮擋程度。通過在這些環(huán)境上進行訓(xùn)練,他們用GQN的表示網(wǎng)絡(luò)去生成一個從未見過的場景。在實驗中人們發(fā)現(xiàn)GQN表現(xiàn)出的四個重要特性:

  • GQN 的生成網(wǎng)絡(luò)可以從新的視角非常精確地「想象」以前未見過視角下的場景。當(dāng)給定場景表征和新視角時,它會生成清晰的圖像,而不需要預(yù)先規(guī)定角度、遮擋或照明的規(guī)律。因此,生成網(wǎng)絡(luò)是從數(shù)據(jù)中學(xué)習(xí)的近似渲染器(renderer):

  • GQN的表示網(wǎng)絡(luò)可以獨自學(xué)習(xí)算數(shù)、定位、分類物體。就算在小型表示上,GQN也能在具體視角上做出非常精準(zhǔn)的預(yù)測,和現(xiàn)實幾乎一模一樣。這說明了表示網(wǎng)絡(luò)觀察得非常仔細(xì),例如下面這個由幾個方塊堆疊起來的場景:

  • GQN能夠表示、衡量和減少不確定性。即便內(nèi)容不是完全可見,GQN也能應(yīng)付場景中的不確定性,并將場景中的多個局部視圖組合起來,形成一個整體。這事兒挺難,人都不一定能做好。GQN能力如何?見下圖所示。有一類是第一人稱視角的預(yù)測:



  • GQN的表示允許穩(wěn)健的、數(shù)據(jù)有效(data-efficient)的強化學(xué)習(xí)。當(dāng)給定GQN的緊湊表示時,與無模型基線agent相比, state-of-the-art的深度強化學(xué)習(xí)agent能夠以更高的數(shù)據(jù)效率方式完成任務(wù),如下圖所示。對于這些agent,生成網(wǎng)絡(luò)中編碼的信息可以被看作是對環(huán)境的“先天”知識:

未來研究

GQN 建立在最近大量多視角的幾何研究、生成式建模、無監(jiān)督學(xué)習(xí)和預(yù)測學(xué)習(xí)的基礎(chǔ)上,它展示了一種學(xué)習(xí)物理場景的緊湊、直觀表征的全新方式。重要的是,提出的這種方法不需要特定域的工程以及消耗時間對場景內(nèi)容打標(biāo)簽,使得同一模型能夠應(yīng)用到大量不同的環(huán)境。它也學(xué)習(xí)了一種強大的神經(jīng)渲染器,能夠產(chǎn)生準(zhǔn)確的、全新視角的場景圖像。

DeepMind 認(rèn)為,相比于更多傳統(tǒng)的計算機視覺技術(shù),他們的方法還有許多缺陷,目前也只在合成場景下訓(xùn)練工作的。然而,隨著新數(shù)據(jù)資源的產(chǎn)生、硬件能力的發(fā)展,DeepMind 希望探索 GQN 框架應(yīng)用到更高分辨率真實場景圖像的研究。未來,探索 GQN 應(yīng)用到更廣泛的場景理解的工作也非常重要,例如通過跨空間和時間的查詢來學(xué)習(xí)物理和移動等常識概念,還有應(yīng)用到虛擬和增強現(xiàn)實等。

論文原文

原文地址:http://science./content/360/6394/1204.full

    本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊一鍵舉報。
    轉(zhuǎn)藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多