官方揭秘OpenAI Five打敗人類：遷移學(xué)習(xí)10個月訓(xùn)練4.5萬年

懶人葛優(yōu)癱 2019-04-16

展開全文

官方揭秘OpenAI Five打敗人類：遷移學(xué)習(xí)10個月訓(xùn)練4.5萬年

【新智元導(dǎo)讀】在上周末徹底攻陷了Dota人類頂級職業(yè)戰(zhàn)隊OG后，OpenAI站出來介紹了OpenAI Five是如何訓(xùn)練的、為什么選擇打Dota以及AI在打Dota的時候在想什么。

OpenAI Five是第一個在電子競技游戲中擊敗世界冠軍的人工智能，在上周末與2-0大敗世界冠軍Dota 2團(tuán)隊OG，這是AI第一次在直播中擊敗了電子競技專家。

官方揭秘OpenAI Five打敗人類：遷移學(xué)習(xí)10個月訓(xùn)練4.5萬年

OG和OpenAI開發(fā)組

本次比賽還得出了兩個驚人的發(fā)現(xiàn)：

盡管訓(xùn)練的時候?qū)Ｗ⒂趽魯∑渌偪耠娔X，但OpenAI Five在比賽中卻展現(xiàn)出和人類玩家的優(yōu)秀的團(tuán)隊協(xié)作意識。這意味著未來的AI系統(tǒng)可以從競爭型AI轉(zhuǎn)變?yōu)楹献餍虯I
總決賽讓OpenAI的科學(xué)家可以回答一個重要的研究問題：OpenAI Five在多大程度、以何種方式能夠被確定的打?。坎⑶铱赡苁怯惺芬詠碜畲笠?guī)模的、人們可以有意識地與之交互的高強(qiáng)度深層強(qiáng)化學(xué)習(xí)智能體的部署

徹底攻陷了人類頂級職業(yè)玩家后，OpenAI站出來介紹了OpenAI Five是如何訓(xùn)練的、為什么選擇打Dota以及AI在打Dota的時候在想什么。

為什么選擇Dota？

OpenAI Five的初衷是為了解決現(xiàn)有深度強(qiáng)化學(xué)習(xí)算法無法實現(xiàn)的問題。為此需要大幅增加工具的的能力、復(fù)雜的算法思想（例如分層強(qiáng)化學(xué)習(xí)）。

官方揭秘OpenAI Five打敗人類：遷移學(xué)習(xí)10個月訓(xùn)練4.5萬年

OpenAI Five將世界視為一堆必須破譯的數(shù)字。它使用相同的通用學(xué)習(xí)代碼，無論這些數(shù)字代表Dota游戲（約20,000個數(shù)字）或機(jī)器人手（約200個）的狀態(tài)

為了構(gòu)建OpenAI Five，研究人員創(chuàng)建了一個名為Rapid的系統(tǒng)，以前所未有的規(guī)模運行PPO。結(jié)果超出了研究人員最大的期望，產(chǎn)生出了世界級的Dota機(jī)器人，沒有觸及任何基本的性能限制。

當(dāng)今的監(jiān)督學(xué)習(xí)算法之所以能有如此強(qiáng)大功能，是以大量經(jīng)驗為代價的，這在游戲或模擬環(huán)境之外是不切實際的。研究人員認(rèn)為減少經(jīng)驗量是深度學(xué)習(xí)的下一個挑戰(zhàn)。

研究人員表示，從今天開始OpenAI Five將不會繼續(xù)打比賽，但取得的進(jìn)步和技術(shù)的發(fā)展將繼續(xù)推動未來的工作。研究人員認(rèn)為Dota對于監(jiān)督學(xué)習(xí)開發(fā)來說比現(xiàn)在使用的標(biāo)準(zhǔn)環(huán)境更具有內(nèi)在的趣味性和難度。

算力

OpenAI Five這次的勝利是由于一次重大變化：訓(xùn)練計算量增加了8倍。前期階段研究人員通過提高培訓(xùn)規(guī)模來推動進(jìn)一步的發(fā)展，之后將絕大部分算力用于培訓(xùn)單一的OpenAI Five模型，相當(dāng)于延長了訓(xùn)練時間。

總的來說，當(dāng)前版本的OpenAI Five已經(jīng)消耗了800 petaflop/s-days，并且在10個實時月內(nèi)獲得了45000年的游戲經(jīng)驗，平均每天獲得250年的模擬經(jīng)驗。OpenAI Five的總決賽版本與TI版本相比，勝率為99.9％。

遷移學(xué)習(xí)

盡管模型大小和游戲規(guī)則發(fā)生了變化，但目前版本的OpenAI Five自2018年6月以來一直在不斷訓(xùn)練。在每種情況下，研究人員都能夠?qū)⒛Ｐ娃D(zhuǎn)移并繼續(xù)培訓(xùn)，這對于其他領(lǐng)域的監(jiān)督學(xué)習(xí)來說是一個開放的挑戰(zhàn)。

據(jù)悉，這可能是監(jiān)督學(xué)習(xí)智能體第一次使用如此長期的訓(xùn)練課程進(jìn)行訓(xùn)練。