电竞比分网-中国电竞赛事及体育赛事平台

分享

官方揭秘OpenAI Five打敗人類:遷移學(xué)習(xí)10個月訓(xùn)練4.5萬年

 懶人葛優(yōu)癱 2019-04-16

官方揭秘OpenAI Five打敗人類:遷移學(xué)習(xí)10個月訓(xùn)練4.5萬年

【新智元導(dǎo)讀】在上周末徹底攻陷了Dota人類頂級職業(yè)戰(zhàn)隊OG后,OpenAI站出來介紹了OpenAI Five是如何訓(xùn)練的、為什么選擇打Dota以及AI在打Dota的時候在想什么。

OpenAI Five是第一個在電子競技游戲中擊敗世界冠軍的人工智能,在上周末與2-0大敗世界冠軍Dota 2團(tuán)隊OG,這是AI第一次在直播中擊敗了電子競技專家。

官方揭秘OpenAI Five打敗人類:遷移學(xué)習(xí)10個月訓(xùn)練4.5萬年

OG和OpenAI開發(fā)組

本次比賽還得出了兩個驚人的發(fā)現(xiàn):

  1. 盡管訓(xùn)練的時候?qū)W⒂趽魯∑渌偪耠娔X,但OpenAI Five在比賽中卻展現(xiàn)出和人類玩家的優(yōu)秀的團(tuán)隊協(xié)作意識。這意味著未來的AI系統(tǒng)可以從競爭型AI轉(zhuǎn)變?yōu)楹献餍虯I

  2. 總決賽讓OpenAI的科學(xué)家可以回答一個重要的研究問題:OpenAI Five在多大程度、以何種方式能夠被確定的打?。坎⑶铱赡苁怯惺芬詠碜畲笠?guī)模的、人們可以有意識地與之交互的高強(qiáng)度深層強(qiáng)化學(xué)習(xí)智能體的部署

徹底攻陷了人類頂級職業(yè)玩家后,OpenAI站出來介紹了OpenAI Five是如何訓(xùn)練的、為什么選擇打Dota以及AI在打Dota的時候在想什么。

為什么選擇Dota?

OpenAI Five的初衷是為了解決現(xiàn)有深度強(qiáng)化學(xué)習(xí)算法無法實現(xiàn)的問題。為此需要大幅增加工具的的能力、復(fù)雜的算法思想(例如分層強(qiáng)化學(xué)習(xí))。

官方揭秘OpenAI Five打敗人類:遷移學(xué)習(xí)10個月訓(xùn)練4.5萬年

OpenAI Five將世界視為一堆必須破譯的數(shù)字。它使用相同的通用學(xué)習(xí)代碼,無論這些數(shù)字代表Dota游戲(約20,000個數(shù)字)或機(jī)器人手(約200個)的狀態(tài)

為了構(gòu)建OpenAI Five,研究人員創(chuàng)建了一個名為Rapid的系統(tǒng),以前所未有的規(guī)模運行PPO。結(jié)果超出了研究人員最大的期望,產(chǎn)生出了世界級的Dota機(jī)器人,沒有觸及任何基本的性能限制。

當(dāng)今的監(jiān)督學(xué)習(xí)算法之所以能有如此強(qiáng)大功能,是以大量經(jīng)驗為代價的,這在游戲或模擬環(huán)境之外是不切實際的。研究人員認(rèn)為減少經(jīng)驗量是深度學(xué)習(xí)的下一個挑戰(zhàn)。

研究人員表示,從今天開始OpenAI Five將不會繼續(xù)打比賽,但取得的進(jìn)步和技術(shù)的發(fā)展將繼續(xù)推動未來的工作。研究人員認(rèn)為Dota對于監(jiān)督學(xué)習(xí)開發(fā)來說比現(xiàn)在使用的標(biāo)準(zhǔn)環(huán)境更具有內(nèi)在的趣味性和難度。

算力

OpenAI Five這次的勝利是由于一次重大變化:訓(xùn)練計算量增加了8倍。前期階段研究人員通過提高培訓(xùn)規(guī)模來推動進(jìn)一步的發(fā)展,之后將絕大部分算力用于培訓(xùn)單一的OpenAI Five模型,相當(dāng)于延長了訓(xùn)練時間。

總的來說,當(dāng)前版本的OpenAI Five已經(jīng)消耗了800 petaflop/s-days,并且在10個實時月內(nèi)獲得了45000年的游戲經(jīng)驗,平均每天獲得250年的模擬經(jīng)驗。OpenAI Five的總決賽版本與TI版本相比,勝率為99.9%。

遷移學(xué)習(xí)

盡管模型大小和游戲規(guī)則發(fā)生了變化,但目前版本的OpenAI Five自2018年6月以來一直在不斷訓(xùn)練。在每種情況下,研究人員都能夠?qū)⒛P娃D(zhuǎn)移并繼續(xù)培訓(xùn),這對于其他領(lǐng)域的監(jiān)督學(xué)習(xí)來說是一個開放的挑戰(zhàn)。

據(jù)悉,這可能是監(jiān)督學(xué)習(xí)智能體第一次使用如此長期的訓(xùn)練課程進(jìn)行訓(xùn)練。

更多Dota英雄

研究人員看到從訓(xùn)練5個英雄到訓(xùn)練18英雄速度并沒有減弱的很明顯,于是假設(shè)對更多英雄來說也是如此,隨后開始大量嘗試整合新英雄。

研究人員花了幾個星期的時間訓(xùn)練英雄池,最多達(dá)到了25個英雄。將這些英雄帶到大約5k MMR(大約95%的Dota玩家)。盡管在進(jìn)步,但學(xué)習(xí)速度還不夠快,無法在總決賽之前達(dá)到職業(yè)水平。

研究人員沒有太多時間調(diào)查原因,但他們認(rèn)為可能需要更好的匹配擴(kuò)展的英雄池,需要更多的訓(xùn)練時間讓新英雄達(dá)到老英雄的同等水平。想象一下當(dāng)你習(xí)慣了某個英雄后,學(xué)習(xí)新英雄的難度是多么大!

協(xié)同模式

它實際上感覺很好; 我的毒蛇在某些時候為我獻(xiàn)出了生命。 他試圖幫助我,想著“我確定她知道她在做什么”然后顯然我沒有。 但是,你知道,他相信我。 對于[人類]隊友,我并沒有那么多.-無論如何

官方揭秘OpenAI Five打敗人類:遷移學(xué)習(xí)10個月訓(xùn)練4.5萬年

在總決賽期間,研究人員展示了OpenAI Five與人類一起在團(tuán)隊中的表現(xiàn),兩隊的成員都是2個真人帶3個智能體

OpenAI Five與人類的協(xié)同作戰(zhàn)能力為人類與人工智能互動的未來提供了一個引人注目的愿景:人工智能系統(tǒng)能夠和人類協(xié)作并增強(qiáng)人類體驗。

玩家認(rèn)為從機(jī)器人隊友哪里感受到了戰(zhàn)友之情,并從這些先進(jìn)的系統(tǒng)中學(xué)到了很多東西,整體來說是一種有趣的體驗。

值得注意的是,OpenAI Five展示了zero-shot遷移學(xué)習(xí),與人類并肩作戰(zhàn)或者對抗人類。研究人員非常驚訝這一點和它一樣有效。事實上,研究人員考慮在國際上進(jìn)行協(xié)同作案韓比賽,但認(rèn)為需要專門的訓(xùn)練。

OpenAI Five Arena

目前研究人員還不知道OpenAI Five在多大程度上能夠通過更機(jī)智的策略被擊敗,所以研究人員推出了OpenAI Five Arena。這是一項公開的實驗,任何人都可以跟OpenAI Five組隊或者對戰(zhàn)。

競技場于4月18日星期四太平洋標(biāo)準(zhǔn)時間下午6點開放,并于4月21日星期日太平洋標(biāo)準(zhǔn)時間晚上11:59關(guān)閉。玩家需要注冊,所有游戲的結(jié)果將自動報告給競技場公共排行榜。

官方揭秘OpenAI Five打敗人類:遷移學(xué)習(xí)10個月訓(xùn)練4.5萬年

下一步干什么

一旦研究人員審查了OpenAI Five Arena的結(jié)果,研究人員將發(fā)布對OpenAI Five的更多技術(shù)分析,之后將繼續(xù)使用OpenAI中的Dota 2環(huán)境。

研究人員已經(jīng)看到過去兩年在監(jiān)督學(xué)習(xí)能力方面取得了快速進(jìn)展,并認(rèn)為Dota 2將在推進(jìn)無論是通過較少的數(shù)據(jù)還是真正的人工智能合作實現(xiàn)有能力的表現(xiàn)方面,持續(xù)提供幫助。

參考鏈接:How to Train Your OpenAI Five

注冊地址:OpenAI Five Arena

    本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊一鍵舉報。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多