电竞比分网-中国电竞赛事及体育赛事平台

分享

對話François:AI在游戲里打敗了人類就算大新聞?可能我們都錯了

 楚科奇0118 2020-03-20
大數(shù)據(jù)文摘出品
來源:theverge
編譯:lin、木槿、夏雅薇

衡量AI的智能程度是計算機科學領域中最為棘手和最重要的問題之一,如果你不知道自己建造的機器是否比昨天更聰明,那如何知道自己正在取得進展呢?

乍一看,這似乎不是一個問題。有人會說顯然人工智能正在變得更加智能,你只需要看該領域涌入的金錢和人才。歷史里程碑上記錄著人工智能在圍棋上擊敗人類,現(xiàn)如今滿大街都是可以解決十年前問題的應用程序,比如圖像識別。這難道不是進步嗎?

智能對于AI到底意味著什么?

還有人說這些成就并不是衡量智能化程度的好標準,在國際象棋和圍棋上擊敗人類確實令人印象深刻,但是如果最聰明的計算機只會解決小孩或者老鼠能解決的問題,這樣的成就又有什么意義呢?

這是一位叫做Fran?ois Chollet的AI研究人員提出的批評意見,他是谷歌的軟件工程師和機器學習社區(qū)中的知名人士,他創(chuàng)建了Keras,Keras是一種廣泛使用的程序,可用于開發(fā)神經(jīng)網(wǎng)絡(當代AI的精髓)。他還撰寫了許多有關機器學習的教科書,并維護了一個受歡迎的Twitter供稿,在其中分享他在該領域的觀點。

他在最近發(fā)表一篇題為“關于智能的度量”論文中提出一個觀點,人工智能領域需要重新關注什么是智能,什么不是智能;如果想在通用人工智能方面取得進步,研究人員需要分析諸如電玩游戲和棋盤游戲流行的原因,并且開始思考到底什么技能使人類變得更聰明,例如概括和適應能力。

論文鏈接:
https:///abs/1911.01547

在接受The Verge的電子郵件采訪時,他闡述了對這個主題的看法,并解釋為什么他堅信人工智能的成就被歪曲了,我們未來應該如何衡量智能以及為什么諸如馬斯克等人講述的超級智能AI的恐怖故事對公眾的影響力如此之大。

為了方便閱讀,我們對這次的采訪進行了不改變原意的編輯,和文摘菌一起來看看吧~


在你的論文中,你描述了兩種塑造AI領域的不同智能概念,第一種將智能表示為在各種任務中表現(xiàn)出色;另一種智能則將適應性和概括性作為優(yōu)先特質,這可以提升AI應對新挑戰(zhàn)的能力。哪種概念是目前的主流,對應的影響是什么?

人工智能領域的前三十年中,最有影響力的是前者,將智能作為一組靜態(tài)程序和明確的知識庫。目前,智能的概念已經(jīng)有偏向后者的趨勢,在AI社區(qū)中智能概念化的主導方式是“白板”,一個更加貼切的比喻是“新初始化的深度神經(jīng)網(wǎng)絡”。這個框架幾乎沒有受到挑戰(zhàn),甚至沒受到審查。這些問題有大概30年的學術歷史,而我對這個領域的了解也不是很多,大多數(shù)人都是在2016年以后才進入深度學習領域的。

擁有這樣的知識壟斷絕對不是一件好事,特別是對于沒有很好解決的科學問題。它限制了大家對這個問題的想象空間。研究人員現(xiàn)在才開始意識到這個問題。

在你的論文中,你還提到一個案例,在這個案例里,需要對智能更完善的定義,AI才能提升表現(xiàn),研究人員專注于研究諸如電玩游戲和棋盤游戲的靜態(tài)測試中的性能好壞。為什么你覺得這種衡量方法不夠智能?
 

關鍵在于,你一旦選擇了一個衡量標準,你就會使用一切可以使用的捷徑。比如說你選擇下棋作為智力的衡量標準(從70年代到90年代都是這樣做的),那么最終你得到的是一個會下棋的系統(tǒng)。這對其他事情就沒什么幫助,你最終會進行樹搜索和極大極小化,但是這并不能說明你對人工智能有多了解了。如今,在諸如dota或StarCraft之類的電玩游戲中,將游戲技能作為智能程度的指標也陷入了同樣的誤區(qū)。

對人類而言技能和智力是密切相關的。人腦可以利用智力來獲取特定任務的技能,一個真正擅長下國際象棋的人會被認為非常聰明,因為我們都假設他們是從零開始,必須利用他們的智力來學習下棋。他們不是天生就會下棋,所以我們知道他們可以將這種普遍的智能引導到其他任務上,并且同樣高效地完成其他任務,這就是一般性的意義。

機器沒有人的這種限制,機器完全可以被設計成專門用來下棋的。因此,我們對人類所做的推論(可以下棋,就是聰明的)就被推翻了,我們的擬人化假設不再適用。通常智能可以生成特定任務的技能,但是沒有從特殊到普遍的反向路徑。因此,在機器中技能與智能相互獨立,只要你獲取足夠和任務相關的數(shù)據(jù)或者足夠的工程資源就可以獲得處理任何任務的技能,但是這不會讓機器更接近一般智能。

所以問題的關鍵在于沒有任何一項任務可以使高技能成為智能的標志,除非該任務實際是一個元任務,這樣它就涉及到在處理相關未知問題時獲取新的技能,這正是我提出的智能衡量標準。


當前的這些衡量標準無法幫助我們開發(fā)更通用、靈活的AI,那為什么它們還如此受歡迎?

毫無疑問,在特定的知名電子游戲中擊敗人類冠軍的成就主要是這些項目背后的新聞報道推動的。如果公眾對這些令人影響深刻的里程碑不感興趣,那么研究人員也就不會花這么多時間在這些事上。

新聞報道讓我們關注電玩游戲中的AI。我對此表示悲哀,因為研究應該解決開放的科學問題,而不是過度關注公關。如果我打算使用深度學習以非常高的水平玩好魔獸爭霸Ⅲ,那么可以肯定的是,只要我有足夠的人才和計算能力就可以實現(xiàn),類似的任務大約花費幾千萬美元。

但是一旦完成,我將學到什么有關于智力或泛化的知識嘛?沒有,什么都沒有,充其量我會掌握有關拓展深度學習的工程知識。因此,我不會把這看作科學研究, 因為它不會教給我們新知識,也沒有回答尚未解決的問題。如果問題是“我們可以以超人的水平玩X嗎?”,答案是肯定的,只要可以生成足夠密集的訓練樣本并將其輸入到具有足夠計算力的深度學習模型中就可以,這是我們早就知道的事實(實際上,在Dota2和StarcraftⅡ比賽中,AI尚未奪冠的時候我就說過)。


你認為這些項目的實際成就是什么?項目成果多大程度被誤解或歪曲?

我看到的一個明顯的錯誤表述是,這些高技能的游戲系統(tǒng)代表著AI系統(tǒng)的真正進步,可以處理現(xiàn)實世界的復雜性和不確定性”問題,比如OpenAI在其Dota2機器人玩家OpenAI Five的新聞稿中聲稱的那樣。

事實上他們做不到, 如果他們做到了,那將是一個非常有價值的研究領域。以OpenAI Five為例:它一開始就無法處理Dota 2的復雜性,因為它只被訓練了16個角色,無法覆蓋擁有超過100個角色的游戲。它被訓練了超過45,000個游戲年,其次請注意訓練數(shù)據(jù)需求是如何與任務復雜性相結合而增長-然而最終的模型卻非常脆弱:在AI對公眾開放之后的幾天內(nèi),非頂級真人玩家就能夠找到了戰(zhàn)勝它的策略。

如果你希望有朝一日能夠處理現(xiàn)實世界的復雜性和不確定性,你需要開始問一些問題,例如什么是泛化?我們?nèi)绾魏饬亢妥畲蠡瘜W習系統(tǒng)的泛化能力?這與在大型神經(jīng)網(wǎng)絡中投入10倍以上的數(shù)據(jù)和計算才可以將其能力提高一點點完全呈正交性。那么什么方式可以更有效地衡量AI的智能程度呢?

簡而言之,我們需要停止對事先已知的任務(如國際象棋,Dota或《星際爭霸》)進行技能評估,而應開始評估技能習得能力。這意味著僅給機器未知的新任務,測量其相關領域的知識水平,并測量系統(tǒng)的采樣效率(即學會這個任務需要多少數(shù)據(jù))。為了達到給定的技能水平,所需的信息(先驗知識和經(jīng)驗)越少,系統(tǒng)就越智能。如今的AI系統(tǒng)實際上根本不那么智能。

另外,我認為我們對機器智能的測度應該更加明確它與人類智能的相似性,因為可能存在不同類型的智能,而當我們談論一般智能時,我們實際上就是在隱含地談論類人的智能。這涉及試圖了解人類天生具有哪些先驗知識。人類擁有著無與倫比的學習效率-只需要很少的經(jīng)驗就能掌握新技能-但人類不是從零開始學的。除了一生積累的技能和知識,他們還利用先天先驗知識。

我最近的論文提出了一個新的基準數(shù)據(jù)集ARC,它看起來很像IQ測試。ARC是一組推理任務,其中每個任務都是通過一小段演示序列(通常是三個)來解釋的,你應該從這幾個演示中學習如何完成任務。ARC的立場是,系統(tǒng)用于評估的每個任務都應該是全新的,并且只包含與人類先驗知識相適應的知識。例如,它不應使用語言。目前,ARC對于人來講是完全可解的,無需任何口頭解釋或事先培訓,但迄今為止我們嘗試過的任何AI技術都無法達成。這是一個明顯的信號,我們需要新的想法。


如果繼續(xù)在問題上投入更多算力,你覺得人工智能還有發(fā)展嗎?有人認為,從歷史上看,這是提高性能的最好方法。而其他人則認為,如果我們沿著這條路走下去,很快會看到收益遞減。

如果要執(zhí)行某個特定任務,算力這條路絕對是正確的。在垂直任務上投入更多的訓練數(shù)據(jù)和計算能力將提高機器解決該任務的性能。但它不會對如何實現(xiàn)人工智能的通用性有任何貢獻。

如果你有足夠大的深度學習模型,并且在任務的輸入-輸出跨空間的密集采樣中對其進行訓練,它將學會解決任務的方法-無論是Dota也好,或者StarCraft,你可以為其取名。這非常有價值。在機器感知問題中幾乎具有無限的應用。唯一的問題是,所需的訓練數(shù)據(jù)量是任務復雜度的組合函數(shù),因此,即使是略微復雜的任務也可能變得非常昂貴。

以自動駕駛汽車為例。數(shù)以百萬計的訓練情況不足以使端到端深度學習模型學會安全駕駛汽車。這就是為什么還沒有L5自動駕駛的原因。其次,最先進的自動駕駛系統(tǒng)主要是使用深度學習將這些人工設計的模型與傳感器數(shù)據(jù)相連接的符號模型。如果深度學習可以泛化,我們也許會在2016年就可以有L5自動駕駛,它會采用大型神經(jīng)網(wǎng)絡的形式。


最后,考慮到當前AI系統(tǒng)的局限性,似乎值得問一下有關超級智能的概念,有人擔心功能強大的AI可能在不久的將來對人類造成極大傷害的恐懼。你認為這種恐慌是合理的嗎?

我不覺得超級智能的敘述是有根據(jù)的。我們從未創(chuàng)建過一個自主的智能系統(tǒng)。也絕對沒有跡象表明我們可以在可預見的未來創(chuàng)建一個。(這不是當前AI的發(fā)展方向。)而且,即使我們最終在不久的將來創(chuàng)造出了一個,我們也無法推測它可能具有什么特征。打個比方,這有點像在1600年問:“彈道學發(fā)展這么快!如果我們擁有能消滅整個城市的大炮該怎么辦?我們?nèi)绾未_保它只會殺死壞人?” 這個問題本身就有問題,在缺乏對該系統(tǒng)基本了解的情況下討論這個問題,充其量只是哲學探討。

這些對于超級智能的恐懼,掩蓋了AI有可能在當今變得非常危險的事實。普通的人工智能已經(jīng)有很多隱患了。我寫過關于使用AI來實現(xiàn)算法推廣系統(tǒng)的文章。其他人寫過算法偏差的危害,以及在武器系統(tǒng)中使用AI或將AI作為極權主義控制工具。

有一個關于1453年君士坦丁堡被圍困的故事。這座城市在與奧斯曼帝國軍隊作戰(zhàn)時,其學者和統(tǒng)治者卻在爭論天使的性別。好吧,我們花越多的精力專注討論天使的性別或假設的超級智能AI的價值取向,我們用來處理當今AI技術所面臨的緊迫問題的精力就越少。一位著名的技術領導者喜歡將超智能AI描述為對人類的生存威脅。好吧,這些想法會成為頭條新聞,但你卻不討論因部署不夠準確,自動駕駛系統(tǒng)引起的撞車和人員傷亡等道德問題。

如果真像你所說的目前尚無科學依據(jù)支持這些言論,那為什么超級智能的說法這么受歡迎?

我認為這是一個好故事,人們?nèi)菀妆缓霉适挛?。它與末世論的宗教故事相似并非偶然,因為經(jīng)年累月的不斷發(fā)展和選擇淘汰,宗教故事已經(jīng)可以引起人們的強烈共鳴并形成有效傳播。出于同樣的原因,你也可以在科幻電影和小說中找到這種敘述。它被用在小說中的原因,類似于宗教敘事的原因,也可以用來解釋為什么這變成了AI的一種流行解讀:因為這是一個好故事。人們需要故事來理解世界。對此類故事的需求遠比了解智能的本質需求或了解什么推動技術進步的需求強得多。

    本站是提供個人知識管理的網(wǎng)絡存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導購買等信息,謹防詐騙。如發(fā)現(xiàn)有害或侵權內(nèi)容,請點擊一鍵舉報。
    轉藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多