谷歌的 AI 一直朝著超神的道路走去。自從在圍棋上擊敗李世石之后,谷歌的 DeepMind 小組并沒(méi)有停下,接下來(lái)他們要挑戰(zhàn)的內(nèi)容是 3D 導(dǎo)航和益智解謎游戲。
在 DeepMind 的挑戰(zhàn)中,最值得注意的是一款名為“螞蟻?zhàn)闱颉钡挠螒?。玩家需要控制一只螞蟻形狀的物體去追逐小球,然后帶球直至將其送進(jìn)球門得分。這種事對(duì)于人類來(lái)說(shuō)可謂易如反掌,就看 DeepMind 怎么做了。
根據(jù) DeepMind 小組 David Silver 說(shuō)法,AI 不僅完成了這個(gè)挑戰(zhàn),最令人驚訝的是它在整個(gè)過(guò)程中“完全不需要提前灌輸有關(guān)力學(xué)的任何知識(shí)”。這個(gè)結(jié)果表明,谷歌提出的強(qiáng)化學(xué)習(xí)(Reinforcement Learning)概念近來(lái)又有了巨大的突破。
為了得到這樣的結(jié)果,DeepMind 結(jié)合了強(qiáng)化學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)深度學(xué)習(xí)和 Deep Q-Network 于一體。專門有一個(gè)算法負(fù)責(zé)存儲(chǔ)機(jī)器人的經(jīng)驗(yàn)積累,以及在完成某個(gè)特定行為后它的獎(jiǎng)勵(lì)預(yù)期。其實(shí)這也的算法早在 DeepMind 完成 2D 游戲挑戰(zhàn)時(shí)就已經(jīng)得以應(yīng)用,不過(guò) Silver 說(shuō)它現(xiàn)在已經(jīng)得到改進(jìn),比以前好得太多。
舉個(gè)例子,該算法現(xiàn)在能夠允許單個(gè)神經(jīng)網(wǎng)絡(luò)去學(xué)習(xí)多個(gè)游戲。為此研究組打造了一個(gè)大型分布式深度強(qiáng)化學(xué)習(xí)系統(tǒng),能夠利用谷歌的云平臺(tái)來(lái)加速訓(xùn)練時(shí)間。值得注意的是,該技術(shù)已經(jīng)被運(yùn)用在谷歌的推薦系統(tǒng)中了。
不過(guò),真正能夠讓 DeepMind 學(xué)會(huì)玩這個(gè)“螞蟻?zhàn)闱颉钡年P(guān)鍵在于谷歌最新開(kāi)發(fā)出的所謂“異步 Actor-Critic 算法”,即 A3C。在解決電機(jī)控制和使用視覺(jué)在隨機(jī) 3D 迷宮中導(dǎo)航的問(wèn)題上,采用這個(gè)算法的話標(biāo)準(zhǔn)多核 CPU 較之 GPU 效率更高。
David Silver 表示,DeepMind 現(xiàn)在達(dá)到的成績(jī)可以說(shuō)是最尖端的了,這樣能夠在訓(xùn)練時(shí)間和資源消耗上達(dá)到一個(gè)平衡。
隨著 AI 技術(shù)的繼續(xù)發(fā)展,人類會(huì)受到威脅嗎?事實(shí)上谷歌也有類似的擔(dān)憂,DeepMind 小組曾表示他們擔(dān)心 AI 會(huì)自己發(fā)展出一套它們認(rèn)為可以達(dá)到目的,但卻不是人類想要的方案來(lái)完成目標(biāo)。
為此,DeepMind 小組已經(jīng)開(kāi)發(fā)出了一種機(jī)制,據(jù)說(shuō)可以無(wú)視 AI 的任何行動(dòng)直接使其失去作用。盡管并不清楚具體的原理,但我們似乎可以無(wú)需為此過(guò)分擔(dān)心了。關(guān)于 AI 會(huì)不會(huì)帶來(lái)毀滅性后果的問(wèn)題,業(yè)界中一直有著激烈的爭(zhēng)論。不過(guò)對(duì)于我們每個(gè)人來(lái)說(shuō),這似乎還不是值得去認(rèn)真憂慮的事情。



