电竞比分网-中国电竞赛事及体育赛事平台

分享

關(guān)注 | 與柯潔一戰(zhàn)后,為什么說阿爾法狗是有“直覺”的?

 heaven張君峰 2024-05-16 發(fā)布于陜西

5 月 24 日,在新版本 AlphaGo 首戰(zhàn)以 1/4 子微弱優(yōu)勢(shì)戰(zhàn)勝中國(guó)圍棋職業(yè)九段棋手柯潔之后,“AlphaGo 之父”DeepMind 創(chuàng)始人兼 CEO Demis Hassabis、AlphaGo 團(tuán)隊(duì)負(fù)責(zé)人 David Silver 在人工智能高峰論壇上詳解了 AlphaGo 的研發(fā)并就“AlphaGo 意味著什么” 的問題進(jìn)行了詳細(xì)解答。

在了解Demis Hassabis與David Silver的專業(yè)觀點(diǎn)之前,AI與機(jī)器人(dnbai2017)先帶大家了解一下昨日AlphaGo 首戰(zhàn)以 1/4 子戰(zhàn)勝柯潔,到底是怎么一回事兒?

阿爾法狗是有直覺的

1/4子是中國(guó)規(guī)則下最小的勝負(fù)差,如果是人類對(duì)決,通??梢哉f是運(yùn)氣不佳,或者說是憾負(fù),因?yàn)槿绱诵〉膭儇?fù)差,在人類對(duì)決中,確實(shí)很多時(shí)候有一點(diǎn)運(yùn)氣的成分。但這次,真的不是,所以圍棋界也很清醒,沒有人會(huì)說阿法狗贏了1/4子很僥幸,沒有人會(huì)說柯潔只差了一點(diǎn)點(diǎn),因?yàn)槭聦?shí)不是這樣的。

圖片

實(shí)際上中盤結(jié)束,這個(gè)比賽的結(jié)果已經(jīng)沒有爭(zhēng)議了。(圍棋分序盤,中盤和官子三個(gè)階段,當(dāng)然并不是涇渭分明,但一般都會(huì)這樣形容對(duì)局進(jìn)程)。一個(gè)恐怖的事實(shí)是,在今年元旦master橫掃人類60盤棋譜中,人類無法判定,機(jī)器的官子實(shí)力到底如何,為什么呢?沒有一盤是官子定勝負(fù)的。

柯潔在官子階段的奮起直追,其實(shí)是alphago安全運(yùn)轉(zhuǎn),不斷退讓,在元旦的60盤棋中,這樣的場(chǎng)景也不斷出現(xiàn)過,計(jì)算機(jī)追求勝率,而不是勝差。所以領(lǐng)先較多的時(shí)候,寧可下?lián)p一點(diǎn)的棋,比如無棋自補(bǔ),也要把可能的風(fēng)險(xiǎn)扼殺掉。計(jì)算機(jī)的邏輯是,在保持領(lǐng)先的基礎(chǔ)上,減少了對(duì)手翻盤的可能。用專業(yè)人員的點(diǎn)評(píng)就是,領(lǐng)先越來越小,勝率越來越高,直到最后1/4子的優(yōu)勢(shì),但你卻絕對(duì)找不到任何翻盤的機(jī)會(huì)。

關(guān)于阿爾法狗“更追求勝率”下法,Demis Hassabis用了一個(gè)更有人情味的解釋:直覺。“AlphaGo 已經(jīng)展示出了創(chuàng)造力,也已經(jīng)可以模仿人類直覺了。在過去一年,我們繼續(xù)打造 AlphaGo,我們想打造完美的 AlphaGo,彌補(bǔ)它知識(shí)方面的空白。因?yàn)樵谂c李世石的比賽中,它是有缺陷的。在未來我們能看到人機(jī)合作的巨大力量,人類智慧將通過人工智能進(jìn)一步放大。強(qiáng)人工智能是人類研究和探尋宇宙的終極工具?!?/p>

聽到“直覺”這兩個(gè)字,我們也許會(huì)覺得玄乎,覺得在吹牛。但熟悉圍棋的朋友就知道:圍棋不像象棋等游戲靠計(jì)算,而是靠直覺。圍棋中沒有等級(jí)概念,所有棋子都一樣。圍棋是筑防游戲,因此需要盤算未來。小小一子可撼全局,“ 妙手 ” 如受天啟。

阿爾法狗已經(jīng)是“阿老師”

這么一想,這個(gè)“直覺”便是“預(yù)測(cè)未來”了。技術(shù)控們?cè)倏纯?nbsp;AlphaGo 如何進(jìn)行訓(xùn)練的吧,或許會(huì)有一些啟示:

圍棋對(duì)于機(jī)器的難點(diǎn)之一是評(píng)估程序的撰寫。而 AlphaGo 團(tuán)隊(duì)用兩種卷積神經(jīng)網(wǎng)絡(luò)去完成:策略網(wǎng)絡(luò)和估值網(wǎng)絡(luò)。策略網(wǎng)絡(luò)的卷積神經(jīng)網(wǎng)絡(luò)用于決定下一步落子可能的位置,價(jià)值網(wǎng)絡(luò)用于評(píng)估當(dāng)前棋局獲勝的概率。

圖片

為了應(yīng)對(duì)圍棋的巨大復(fù)雜性,AlphaGo 采用機(jī)器學(xué)習(xí)技術(shù),結(jié)合了監(jiān)督學(xué)習(xí)和強(qiáng)化學(xué)習(xí)的優(yōu)勢(shì)。通過訓(xùn)練形成一個(gè)策略網(wǎng)絡(luò)(policy network),將棋盤上的局勢(shì)作為輸入信息,并對(duì)所有可行的落子位置生成一個(gè)概率分布。

然后,訓(xùn)練出一個(gè)價(jià)值網(wǎng)絡(luò)(value network)對(duì)自我對(duì)弈進(jìn)行預(yù)測(cè),以 -1(對(duì)手的絕對(duì)勝利)到 1(AlphaGo 的絕對(duì)勝利)的標(biāo)準(zhǔn),預(yù)測(cè)所有可行落子位置的結(jié)果。這兩個(gè)網(wǎng)絡(luò)自身都十分強(qiáng)大,而 AlphaGo 將這兩種網(wǎng)絡(luò)整合進(jìn)基于概率的蒙特卡羅樹搜索(MCTS)中,實(shí)現(xiàn)了它真正的優(yōu)勢(shì)。

最后,新版的 AlphaGo 產(chǎn)生大量自我對(duì)弈棋局,為下一代版本提供了訓(xùn)練數(shù)據(jù),此過程循環(huán)往復(fù)。就是說,阿爾法狗其實(shí)是在自己“訓(xùn)練”自己,自己給自己當(dāng)老師。

圖片

“阿老師”與柯潔一戰(zhàn),柯潔表現(xiàn)出了很高的水準(zhǔn)。但四分之一子的劣勢(shì)并非說明他的實(shí)力與“阿老師”相當(dāng),而是“阿老師”見好就收——贏多少也是贏,索性贏你一點(diǎn)點(diǎn)即可。能把優(yōu)勢(shì)很長(zhǎng)時(shí)間內(nèi)控制成四分之一子,這是人類根本就達(dá)不到的水平。對(duì)此,“阿老師”給大家造成一個(gè)錯(cuò)覺,它似乎是一臺(tái)很通人性的機(jī)器,它懂得尊重對(duì)手。當(dāng)然前文已經(jīng)解釋,并不似這樣的。

“阿老師”的很多下法,顛覆了很多所謂的定式,極大地開拓了棋手的思維??聺嵎Q,他在圍甲聯(lián)賽中,看到絕大數(shù)人為了眼前可能受損的幾目棋的利益,而面對(duì)同一招棋用著同一個(gè)定式,著實(shí)感到乏味,甚至“想吐”。他說,“我寧愿損幾目棋,也要嘗試新的下法?!币搽y怪,柯潔在賽后稱“阿老師”為“圍棋上帝”,因?yàn)樗麄兊膰謇砟睢安恢\而合”。

阿老師”將在接下來將與人類棋手花式競(jìng)技

按照比賽日程,柯潔與“阿老師”另兩盤棋的爭(zhēng)奪,將于5月25日和27日進(jìn)行。而26日上午進(jìn)行的配對(duì)賽和下午的團(tuán)隊(duì)賽,變得更吸引人。

所謂配對(duì)賽,是兩位棋手分別與“阿老師”組隊(duì)進(jìn)行PK,挑戰(zhàn)棋手如何去理解人工智能的獨(dú)特風(fēng)格并與之合作。古力就是參與者之一,他說:“能通過親自對(duì)局,第一時(shí)間感受它的想法,和打譜是不一樣的。合作的心理感受將有所不同,希望能夠和它共同探索,突破棋手的思維慣性?!?/p>

相比之下,之后進(jìn)行的團(tuán)隊(duì)賽仍是人與人工智能的比拼,不同的是人類組團(tuán)上陣。幾名棋手一起研究如何應(yīng)戰(zhàn),相對(duì)個(gè)人而言會(huì)減少犯錯(cuò)誤的機(jī)率,但弊端也很明顯,就是難以形成統(tǒng)一的想法。不出意外,團(tuán)隊(duì)賽的時(shí)間會(huì)比較長(zhǎng),場(chǎng)面或許還很熱鬧,值得期待。

阿爾法狗除了會(huì)下棋,還能干嘛?

除了能解決圍棋問題外,DeepMind還用人工智能去解決了雅達(dá)利的“打磚塊”游戲。在人工智能學(xué)習(xí)300次游戲后,AI已經(jīng)能夠掌握游戲規(guī)則。在500次游戲后,AI已經(jīng)發(fā)現(xiàn)了這款游戲的最優(yōu)解決方案。

圖片

哈薩比斯說,為何計(jì)算機(jī)在解決圍棋問題時(shí)遇到困難,是因?yàn)閲宓膹?fù)雜度讓窮舉搜索難以解決。要解決圍棋需要克服兩大難題:一是很難寫出寫出評(píng)估程序以判定圍棋誰(shuí)贏,二是圍棋的搜索空間太過龐大。

哈薩比斯以上個(gè)世紀(jì)打敗國(guó)際象棋世界冠軍的卡斯帕羅夫的“深藍(lán)”作為對(duì)比,他認(rèn)為“深藍(lán)”屬于一種弱人工智能。圍棋和國(guó)際象棋的差距在于需要棋手的直覺,需要盤算未來,不能像象棋只要了解當(dāng)下的情況做出決定;而且圍棋的棋子沒有等級(jí),一個(gè)棋子可以牽動(dòng)全局。為此谷歌為AlphaGo開發(fā)出策略網(wǎng)絡(luò)和估值網(wǎng)絡(luò)來解決圍棋問題,策略網(wǎng)絡(luò)幫助AlphaGo減少搜索的空間,估值網(wǎng)絡(luò)用來判定計(jì)算機(jī)的勝率。

至于人工智能是否“殺死”了圍棋這項(xiàng)運(yùn)動(dòng),哈薩比斯用實(shí)際數(shù)據(jù)打消了這一疑慮。去年AlphaGo戰(zhàn)勝人類頂尖棋手李世石反而幫助了圍棋這項(xiàng)運(yùn)動(dòng)的普及,那場(chǎng)比賽吸引了全球2.8億觀眾,棋盤的銷量也增長(zhǎng)了10倍。

哈薩比斯認(rèn)為AI和人類不是競(jìng)爭(zhēng)關(guān)系,AI是人類的一種工具,就像望遠(yuǎn)鏡一樣可以幫助人類探索世界,人類的智慧在利用AI工具后將會(huì)被放大。

最后,哈薩比斯展望了AI在圍棋之外的應(yīng)用領(lǐng)域,比如在教育、醫(yī)療、智能手機(jī)等方面。實(shí)際上,DeepMind已經(jīng)用AI幫助谷歌解決了一些實(shí)際問題,他們的AI程序幫助谷歌的數(shù)據(jù)中心節(jié)約了15%的能源。

谷歌表示,2014年的用電量為4402836兆瓦時(shí),相當(dāng)于366903戶美國(guó)家庭的年平均耗電量。這些耗電量中的很大一部分來自數(shù)據(jù)中心,而數(shù)據(jù)中心是谷歌網(wǎng)絡(luò)服務(wù)和移動(dòng)應(yīng)用的基礎(chǔ)。

將耗電量減少幾個(gè)百分點(diǎn)對(duì)谷歌來說將在財(cái)務(wù)上帶來巨大幫助。根據(jù)美國(guó)能源信息管理局的數(shù)據(jù),在美國(guó),電價(jià)通常為每兆瓦時(shí)25至40美元。因此,如果數(shù)據(jù)中心能耗降低10%,那么在幾年時(shí)間里谷歌就可節(jié)約數(shù)億美元。

谷歌此前也曾在數(shù)據(jù)中心里應(yīng)用機(jī)器學(xué)習(xí)技術(shù)。2014年谷歌表示,正使用神經(jīng)網(wǎng)絡(luò)系統(tǒng)去預(yù)測(cè)能耗隨時(shí)間的改變,從而更有效地安排設(shè)備。

DeepMind的工作在此基礎(chǔ)上更進(jìn)一步。該公司的軟件能調(diào)節(jié)數(shù)據(jù)中心中設(shè)備的運(yùn)行方式,提高能耗效率。哈薩比斯表示:“這控制了數(shù)據(jù)中心里的約120個(gè)變量,包括風(fēng)扇、制冷系統(tǒng),以及窗戶和其他設(shè)備?!?/p>

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類似文章 更多