电竞比分网-中国电竞赛事及体育赛事平台

分享

AlphaGo之父詳解“圍棋上帝”是怎樣煉成的

 timtxu 2017-05-24
摘要:

5月24日消息,烏鎮(zhèn)圍棋峰會(huì)進(jìn)入第二天論壇環(huán)節(jié)。昨天,AlphaGo取得了與柯潔對(duì)陣的首場(chǎng)勝利,再一次展示了人工智能在圍棋領(lǐng)域的非凡實(shí)力。今天,DeepMind創(chuàng)始人杰米斯·哈薩比斯(Demis Hassabis)和AlphaGo團(tuán)隊(duì)負(fù)責(zé)人Dave Silver便對(duì)外講述了AlphaGo研發(fā)背后的故事。

DeepMind于2010年在倫敦成立,2014年被谷歌以4億美元收購(gòu),目前有200多名員工。哈薩比斯說,DeepMind相當(dāng)于人工智能的阿波羅計(jì)劃,希望打造新的研發(fā)科學(xué)的方式。

所以,DeepMind所有的研究?jī)?nèi)容都圍繞智能。大致分為兩個(gè)步驟:一是要攻克智能,真正的掌握智能;二是用智能去解決問題。

如何實(shí)現(xiàn)這樣的目標(biāo)?DeepMind在努力打造一臺(tái)通用型的學(xué)習(xí)系統(tǒng)。在DeepMind的所有算法中,都有一個(gè)學(xué)習(xí)的機(jī)制,而不是預(yù)設(shè)的系統(tǒng)。

通用型的學(xué)習(xí)系統(tǒng)最大的特點(diǎn)是可以舉一反三,一個(gè)算法可以做一系列的事情。這很接近人類的大腦,從一個(gè)任務(wù)中學(xué)習(xí)到的經(jīng)驗(yàn),可以應(yīng)用到其他事情中去。

目前,絕大多數(shù)機(jī)器都無法做到這點(diǎn),DeepMind希望能夠打造出這樣的能力。

Deepmind創(chuàng)始人杰米斯·哈薩比斯(左)

哈薩比斯舉了一個(gè)例子,上世紀(jì)90年代,IBM 發(fā)明的深藍(lán)系統(tǒng)(Deep Blue)曾打敗了國(guó)際象棋冠軍加里·卡斯帕羅夫(Gary Kasporov)。但這并不是一個(gè)通用型學(xué)習(xí)系統(tǒng)的例子,深藍(lán)是一種弱人工智能,它通過機(jī)器暴力搜索,來搜索研發(fā)人員預(yù)設(shè)的數(shù)據(jù)。

所以,深藍(lán)不能說是一個(gè)聰明的機(jī)器,只能說背后的編程者很聰明。

那DeepMind在做的強(qiáng)人工智能是什么樣子?簡(jiǎn)單概括來說,機(jī)器需要掌握觀察和行動(dòng)兩個(gè)技能。假設(shè)有一個(gè)智能體,當(dāng)它獲得一個(gè)目標(biāo)信息,它首先需要去觀察自己所處的環(huán)境,這個(gè)環(huán)境可以是真實(shí)環(huán)境或者是虛擬環(huán)境,然后通過視覺、聽覺,甚至是感覺去熟悉環(huán)境。

然后就設(shè)定一個(gè)想法,針對(duì)環(huán)境去決定當(dāng)下應(yīng)該采取什么樣的行動(dòng)來實(shí)現(xiàn)目標(biāo)??此坪?jiǎn)單的兩個(gè)步驟,背后卻涉及了極其復(fù)雜的算法和原理。

為什么AlphaGo要下圍棋?

回到AlphaGo,哈薩比斯和他的團(tuán)隊(duì)為什么選擇圍棋,而不是象棋或者其他棋類?哈薩比斯表示,圍棋對(duì)計(jì)算機(jī)來說是最困難的,其復(fù)雜程度讓窮舉搜索都難以解決。

對(duì)機(jī)器來說,圍棋的困難主要在兩方面:一是,機(jī)器無法寫出評(píng)估程序來決定誰(shuí)贏了;二是,圍棋是一種直覺性的比賽。

輸贏的判斷對(duì)比賽來說非常重要,但是圍棋不像象棋,吃掉對(duì)方的“帥”或者“將”即可獲勝,這也導(dǎo)致圍棋的搜索空間非常龐大。

圍棋更像是一個(gè)筑防游戲,每走一步都需要盤算整個(gè)棋局,而象棋是所有棋子都擺在盤上。另外,圍棋選手都是依靠直覺在下棋,且圍棋中沒有等級(jí)概念,所有的棋子都一樣,小小的一子,就可以影響全局。

正因如此,AlphaGo在圍棋上取得的成績(jī),確實(shí)得來不易。哈薩比斯也說,去年戰(zhàn)勝李世石,讓他們整個(gè)團(tuán)隊(duì)都很激動(dòng)。為這一刻,等了十年。

AlphaGo是如何工作的?

Dave Silver稱,按照傳統(tǒng)的算法,每下一步棋計(jì)算出幾十種可能,然后每種可能又產(chǎn)生幾十種可能。這種窮舉式的搜索方法應(yīng)用在每一步都有上百種可能的圍棋上,會(huì)變得非常笨拙。

所以AlphaGo團(tuán)隊(duì)在研究時(shí),一直想辦法減少窮舉式搜索的寬度和深度。

他們結(jié)合了監(jiān)督學(xué)習(xí)和強(qiáng)化學(xué)習(xí)的優(yōu)勢(shì)。一方面形成一個(gè)策略網(wǎng)絡(luò)(policy network),用于學(xué)習(xí)棋盤;另一方面,形成一個(gè)價(jià)值網(wǎng)絡(luò),以-1(對(duì)手的絕對(duì)勝利)到1(AlphaGo的絕對(duì)勝利)的標(biāo)準(zhǔn),預(yù)測(cè)所有可行落子位置的結(jié)果。

這兩個(gè)網(wǎng)絡(luò)結(jié)合在一起,就形成了AlphaGo的樹搜索。在獲取棋局信息后,AlphaGo 會(huì)根據(jù)策略網(wǎng)絡(luò)探索哪個(gè)位置同時(shí)具備高潛在價(jià)值和高可能性,進(jìn)而決定最佳落子位置。

與柯潔對(duì)戰(zhàn)的AlphaGo自學(xué)成才

但這次與柯潔對(duì)戰(zhàn)的AlphaGo相較于去年的版本,進(jìn)行了很大的改變。今年的AlphaGo更強(qiáng)化了學(xué)習(xí),它通過自己與自己下棋,產(chǎn)生大量的棋局,然后學(xué)習(xí)、改進(jìn)。

這樣一來,AlphaGo就不需要依靠人類的數(shù)據(jù),而是自學(xué)成才。然后不斷給下一代版本提供更好的數(shù)據(jù),這是一個(gè)良性循環(huán)。

去年,與李世石對(duì)戰(zhàn)的AlphaGo在谷歌云商有50TPUs在運(yùn)作,每一步可以搜索50個(gè)棋步,并且可每秒搜索10000個(gè)位置。

昨天與柯潔對(duì)戰(zhàn)的AlphaGo,則是在單個(gè)TPU機(jī)器上進(jìn)行比賽,它擁有了更強(qiáng)大的策略和價(jià)值網(wǎng)絡(luò)。

哈薩比斯說,AlphaGo最酷是它不僅把圍棋當(dāng)做比賽,更是當(dāng)做一種藝術(shù),而且是非??捎^的藝術(shù)。

在與李世石對(duì)陣的第二局比賽中,它走出了令人驚嘆的第37步棋,這讓研發(fā)人員都感到驚訝。按照圍棋幾千年來的經(jīng)驗(yàn),人類是絕不會(huì)下出這一步。

李世石當(dāng)時(shí)在賽后也表示,AlphaGo給圍棋帶來了全新的體驗(yàn)和認(rèn)知,讓他有了繼續(xù)下棋的比賽。

柯潔在昨天比賽技術(shù)后也有著同樣的感受,AlphaGo讓圍棋有了更多的可能,似乎沒有哪一步是不能下的。

AlphaGo已經(jīng)展現(xiàn)出了它在圍棋方面的創(chuàng)造力,并給圍棋選手打開了新的世界的大門,圍棋的邊界遠(yuǎn)遠(yuǎn)超乎他們之前的認(rèn)知。

哈薩比斯說,他們會(huì)繼續(xù)打造AlphaGo,不斷彌補(bǔ)它知識(shí)方面的空白,讓它變得更完美。

對(duì)于未來,以AlphaGo為代表的人工智能也會(huì)成為人類的工具,就像望遠(yuǎn)鏡一樣,幫助人類探索更多未知的領(lǐng)域。比如在材料設(shè)計(jì)、新藥研制等方面,人工智能一旦有所突破,給人類帶來的影響也同樣超乎想象。

最后,哈薩比斯還強(qiáng)調(diào)一點(diǎn),當(dāng)人工智能真正來到人們身邊時(shí),正確恰當(dāng)?shù)氖褂萌斯ぶ悄芤卜浅V匾?/p>

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類似文章 更多