电竞比分网-中国电竞赛事及体育赛事平台

分享

【好文推薦】基于深度強(qiáng)化學(xué)習(xí)的人機(jī)智能對抗綜述

 taotao_2016 2023-08-11 發(fā)布于北京


本文發(fā)表于《指揮信息系統(tǒng)與技術(shù)》2023年第2期
作者:劉瑋,張永亮,程旭
引用格式:劉瑋,張永亮,程旭. 基于深度強(qiáng)化學(xué)習(xí)的人機(jī)智能對抗綜述[J. 指揮信息系統(tǒng)與技術(shù),2023142):28-37.

摘要

人機(jī)對抗是人工智能的熱門領(lǐng)域,同時也為探索機(jī)器智能的內(nèi)在原理與發(fā)展提供了途徑?;谏疃葟?qiáng)化學(xué)習(xí),討論了人機(jī)智能對抗技術(shù),并分析了人機(jī)對抗的內(nèi)涵與機(jī)理。首先,簡化了感知-判斷-決策-行動(OODA)模型,總結(jié)了適用于深度強(qiáng)化學(xué)習(xí)的人機(jī)對抗框架,并歸納了態(tài)勢認(rèn)知、決策與優(yōu)化以及協(xié)同與通信等關(guān)鍵技術(shù);然后,闡述了態(tài)勢特征提取與神經(jīng)網(wǎng)絡(luò)選擇、策略制定與策略優(yōu)化以及多智體訓(xùn)練模型與通信等技術(shù)內(nèi)容;最后,列舉了當(dāng)前人機(jī)對抗的應(yīng)用與挑戰(zhàn),并對人機(jī)對抗的未來發(fā)展做出了展望。

1

問題的提出

近年來,深度學(xué)習(xí)(DL)迅速發(fā)展,已在自然語言處理、圖像識別和目標(biāo)檢測等領(lǐng)域取得了巨大成就。DL通過組合低層特征來形成更抽象的高層表示、屬性類別或特征,同時給出數(shù)據(jù)的分層特征表示。強(qiáng)化學(xué)習(xí)(RL)作為機(jī)器學(xué)習(xí)的一個分支,其本質(zhì)是為了解決時序決策問題,已廣泛用于圍棋、機(jī)器人控制、車輛駕駛、動態(tài)調(diào)度和游戲博弈等領(lǐng)域。隨著深度Q網(wǎng)絡(luò)(DQN)算法的提出,人工智能領(lǐng)域誕生了新的研究方向,即深度強(qiáng)化學(xué)習(xí)(DRL)。DRL將DL的抽象能力與RL的決策能力進(jìn)行了融合,通過神經(jīng)網(wǎng)絡(luò)感知高維度特征,從而實現(xiàn)端到端輸出,并極大降低了問題的復(fù)雜程度。

人工智能的發(fā)展一直受到廣泛關(guān)注,而如何衡量一個智能體的智能程度則取決于人與智能體之間的對抗。隨著Deep Blue、AlphaGo系列、Libratus和AlphaStar在國際象棋、圍棋、德州撲克以及星際爭霸中不斷戰(zhàn)勝人類,人工智能的勝利將“智能化”熱潮推向了新的頂峰。上述人機(jī)對抗實例中,DRL扮演了重要角色,對智能體的勝利起到了關(guān)鍵作用。當(dāng)今世界仍處在由弱人工智能邁向強(qiáng)人工智能的階段,而將DRL與人機(jī)智能對抗進(jìn)行有機(jī)融合可為挖掘并培育強(qiáng)人工智能提供技術(shù)準(zhǔn)備,因此開發(fā)出一種真正有著自我意識且能進(jìn)行推理和解決問題的智能機(jī)器尤為重要。本文從DRL出發(fā),對人機(jī)智能對抗進(jìn)行了闡述。基于DRL的人機(jī)智能對抗原理圖如圖1所示。

圖片

圖1  基于DRL的人機(jī)智能對抗原理圖 

盡管DRL與人機(jī)智能對抗表現(xiàn)出了高度契合性以及廣闊的應(yīng)用前景,但是目前基于DRL的人機(jī)智能對抗仍面臨以下問題與挑戰(zhàn):1)態(tài)勢認(rèn)知信息復(fù)雜多變,難以全面有效地抽取態(tài)勢特征,故不利于深度神經(jīng)網(wǎng)絡(luò)感知;2)在不完全信息對抗局勢中,由于缺少全局態(tài)勢信息,DRL做出的決策存在魯棒性差以及陷于局部最優(yōu)等問題;3)不同對抗中的DRL模型難以進(jìn)行遷移,缺乏泛用性。

2

人機(jī)對抗的內(nèi)涵及其機(jī)理分析

2.1  基本內(nèi)涵

人工智能(AI)必然離不開人工智能之父——阿蘭·圖靈,對于機(jī)器是否能夠思考的問題,他提出了著名的圖靈測試,即讓1個人和1臺機(jī)器作為2個受試者(多在暗處),與他們隔離的測試者向他們提各種問題,由2個受試者回答,若測試者分辨不出2個受試者中誰是人誰是機(jī)器,那么認(rèn)定該機(jī)器能夠思考。人機(jī)對抗從廣義上說也是圖靈測試的一個重要手段,可看作智能體性能的驗金石。

人機(jī)對抗是一種人與機(jī)器相互博弈的方式,人機(jī)對抗涉及人、機(jī)器(智能體AI)和環(huán)境等要素。其中,人指人類;機(jī)器指AI或人創(chuàng)造的機(jī)器;環(huán)境指人機(jī)對抗中的規(guī)則和對局形式等信息,如在德州撲克中,己方和對方的牌均為環(huán)境的一部分。根據(jù)人機(jī)對抗中獲得的環(huán)境信息,可將對弈分為完全信息博弈、不完全信息博弈(指沒有參與者能夠獲得其他參與者的行動信息)和不完全信息多智體博弈。其中,完全信息博弈包括Deep Blue和AlphaGO等棋類游戲,游戲?qū)碾p方均能清楚地觀察到棋盤上所有棋子的位置以及對手的動作決策;不完美信息博弈則包括了麻將和德州撲克等牌類游戲,這類游戲最大特點是擁有隱藏信息,且隨著隱藏信息數(shù)量不斷增加,做出正確決策的難度也呈指數(shù)級增加;不完全信息多智體博弈更復(fù)雜,如在王者榮耀與Dota等即時戰(zhàn)略游戲中,每個獨立的智能體不僅需考慮隱藏信息的干擾,還需準(zhǔn)確分析對局形式,在競爭與合作、作戰(zhàn)與撤退以及獲取資源與轉(zhuǎn)化資源的復(fù)雜情況下做出最優(yōu)決策。

2.2  內(nèi)在機(jī)理

人機(jī)對抗的最終目的是為了實現(xiàn)機(jī)器在性能上對人類的超越,而其本質(zhì)則是為了探索機(jī)器超越人類這一過程中的內(nèi)在機(jī)理與技術(shù)原理。黃凱奇等從博弈的角度對人機(jī)對抗進(jìn)行了分析,根據(jù)人機(jī)物要素分析法將對抗分為一元博弈、二元博弈和三元博弈,并從博弈學(xué)習(xí)角度將人機(jī)對抗智能的科學(xué)問題概括為可建模、可計算和可解釋。周雷等提出了人機(jī)對抗中的博弈學(xué)習(xí)研究框架,將人機(jī)對抗劃分為輸入對抗任務(wù)、構(gòu)建博弈模型、定義博弈可行解、計算博弈解和輸出策略組合等步驟,將一類人機(jī)對抗任務(wù)的解決近似或等價轉(zhuǎn)換為對某一類博弈問題的求解。

與從博弈角度出發(fā)的人機(jī)智能對抗相比,本文以DRL的視角看待對抗問題,將求解人機(jī)對抗任務(wù)視為求解最優(yōu)DRL模型,實質(zhì)上是從值出發(fā),通過值來衡量對抗任務(wù)的完成質(zhì)量和完成度,因為DRL的學(xué)習(xí)過程是累計獎勵的期望最大化的過程。從值的角度看,人機(jī)智能對抗問題可概括為以下3個方面內(nèi)容:1)態(tài)勢可提?。褐缚蓮娜藱C(jī)對抗模型中提取關(guān)鍵信息,并能有效輸入神經(jīng)網(wǎng)絡(luò);2)最大值可計算:指提供的獎勵反饋信號需擁有一定的梯度,能夠使神經(jīng)網(wǎng)絡(luò)進(jìn)行梯度更新從而優(yōu)化參數(shù),并最終使全局獎勵最大化;3)策略可輸出:指訓(xùn)練過程中DRL模塊能有效輸出正確動作,而正確動作既可以是離散動作又可以是連續(xù)動作。本文將DRL引入人機(jī)對抗過程中,其機(jī)理如圖2所示。

圖片

圖2  基于DRL的人機(jī)對抗機(jī)理

人機(jī)對抗與人機(jī)交互緊密相關(guān),后者為前者提供了媒介,使得單獨的人與獨立的機(jī)器相互關(guān)聯(lián),為后續(xù)對抗研究提供基礎(chǔ);前者對后者進(jìn)行評判與改進(jìn),可從眾多交互方式中挑選出更合適且更高效的種類,并對此不斷完善。特定環(huán)境中,人與機(jī)器可以通過語音、視覺和姿態(tài)等方式進(jìn)行交互,環(huán)境將交互所得的對抗信息分別傳遞給人與機(jī)器。機(jī)器可與DRL模塊進(jìn)行綁定,DRL模塊內(nèi)嵌于機(jī)器中,在外界看來二者是一個整體,而在內(nèi)部則進(jìn)行了分化,機(jī)器將獎勵和狀態(tài)等信息傳遞給DRL模塊,由其決策下一步的行動。

人類獲得對抗信息后,經(jīng)由人腦進(jìn)行運算推理,并結(jié)合以往經(jīng)驗和認(rèn)識水平等因素做出決策;將決策反饋給環(huán)境,環(huán)境對這些決策做出相應(yīng)的推演與改變,即進(jìn)行了一次人機(jī)對抗;在循環(huán)的對抗中實現(xiàn)機(jī)器對人類的超越,以及DRL模塊對人腦的超越。

3

基于DRL的人機(jī)對抗技術(shù)

為了使人機(jī)對抗過程更具規(guī)范性、可解釋性和推廣性,美國空軍上校John Boyd在20世紀(jì)70年代提出了著名的作戰(zhàn)指揮模型,即將對抗過程抽象為感知-判斷-決策-行動(OODA)環(huán)。黃凱奇等則將OODA環(huán)歸納為感知-推理-決策-控制,其中感知是對對抗態(tài)勢的理解,推理是在感知基礎(chǔ)上對態(tài)勢進(jìn)行預(yù)測分析,決策和控制是在感知與推理后下達(dá)策略指令,并進(jìn)行方案的實施與調(diào)控。通過不斷迭代整個決策環(huán)路,智能體的決策水平與對抗能力得以持續(xù)提升。DRL利用深度神經(jīng)網(wǎng)絡(luò)將感知與推理進(jìn)行聯(lián)合抽象,因此本文將基于DRL的人機(jī)智能對抗決策流程簡化為感知-決策-控制,并將對抗技術(shù)歸納為態(tài)勢認(rèn)知-決策與優(yōu)化-協(xié)同與通信,最終在迭代完成后得到最優(yōu)策略以及訓(xùn)練好的DRL模型,為后續(xù)研究與分析提供參考。

3.1  態(tài)勢認(rèn)知

態(tài)勢認(rèn)知的概念是美國著名心理學(xué)家M. Endsley在研究飛行員空戰(zhàn)任務(wù)時提出的,一般分為感知、理解和預(yù)測3個層次。朱豐等給出了聯(lián)合作戰(zhàn)背景下戰(zhàn)役級作戰(zhàn)態(tài)勢的概念,雖然態(tài)勢從廣義來說包含了環(huán)境要素,但比環(huán)境要素多了許多看不見的信息,如戰(zhàn)場態(tài)勢中對抗雙方的力量對比以及對敵方戰(zhàn)略的預(yù)測分析等。

胡曉峰提出了態(tài)勢認(rèn)知速度將決定智能化作戰(zhàn)的勝負(fù)的觀點,未來的人機(jī)對抗將會是高智能的、高數(shù)量級的和高強(qiáng)度的。在這種情況下,人發(fā)揮的作用是有限的,如在AlphaGo與李世石的圍棋對弈中,由于人腦的感知限制,使人對棋盤局勢和棋子走向的預(yù)測始終存在局限性,充滿了主觀色彩,這說明人類難以勝任復(fù)雜的感知活動。而AlphaGo憑借監(jiān)督學(xué)習(xí)和強(qiáng)化學(xué)習(xí)生成的策略網(wǎng)絡(luò),對棋局表現(xiàn)出了強(qiáng)大的感知力,獲得了超越人類的棋感,最終以4:1戰(zhàn)勝李世石。因此,為了加快認(rèn)知速度,態(tài)勢認(rèn)知必然會向著智能化方向發(fā)展。本文將態(tài)勢認(rèn)知分為態(tài)勢特征提取和神經(jīng)網(wǎng)絡(luò)選用2個步驟,而最終得到的特征向量則是DL對態(tài)勢的一種抽象認(rèn)知。態(tài)勢認(rèn)知圖如圖3所示。

圖片

圖3  態(tài)勢認(rèn)知圖

3.1.1  態(tài)勢特征提取

為了將神經(jīng)網(wǎng)絡(luò)應(yīng)用于態(tài)勢認(rèn)知,關(guān)鍵的特征提取是必不可少的。特征提取包括以下內(nèi)容:1)先驗特征提?。喝缭诒鍖怪袑?zhàn)場環(huán)境(包括地形和氣象等)、部隊當(dāng)前任務(wù)及行動、裝備設(shè)施的當(dāng)前狀態(tài)、路徑信息(運動目標(biāo)的軌跡)和動態(tài)信息(交火和位置變化等)提取為先驗特征;2)圖像特征提取:對于一些難以提取的特征,則可采用圖像提取方式,如在圍棋和麻將等對抗中,想要從復(fù)雜對局中抽象出關(guān)鍵的信息則十分困難,因此采用圖像感知形式將整個對局盤面?zhèn)魅肷窠?jīng)網(wǎng)絡(luò),由神經(jīng)網(wǎng)絡(luò)進(jìn)行推理分析,避免人為的過度解讀。

3.1.2  神經(jīng)網(wǎng)絡(luò)選用

對于一些簡單的對抗,普通的人工神經(jīng)網(wǎng)絡(luò)(ANN)可有效解決感知問題,而面對狀態(tài)空間和動作空間中更復(fù)雜的對抗,簡單網(wǎng)絡(luò)就顯出了弊端,而循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)與卷積神經(jīng)網(wǎng)絡(luò)(CNN)則能有效解決上述問題。RNN網(wǎng)絡(luò)可以實現(xiàn)信息的時間轉(zhuǎn)移,擁有記憶能力,可將當(dāng)前對抗信息傳遞到下一階段對抗中,為智能體后續(xù)博弈選擇提供依據(jù)。AlphaStar、斗地主AI DouZero和Dota2均采用了RNN的變體長短期記憶網(wǎng)絡(luò)(LSTM),提高了智能體對態(tài)勢的理解,并通過整合歷史信息做出更優(yōu)判斷。CNN憑借對人類直覺的模擬,在AlphaGo上取得了巨大成功,使其成功模擬了人類的棋感。徐佳樂等提出一種基于CNN的戰(zhàn)術(shù)機(jī)動策略模型學(xué)習(xí)方法,采用了基礎(chǔ)態(tài)勢特征融合與網(wǎng)絡(luò)參數(shù)共享方式來提取更多深層次的態(tài)勢特征。此外,王者榮耀AI將CNN與LSTM同時應(yīng)用于模型訓(xùn)練,通過CNN提取圖像特征,將游戲狀態(tài)信息傳遞給LSTM網(wǎng)絡(luò),并結(jié)合目標(biāo)注意力機(jī)制對每個單位的動作進(jìn)行預(yù)測。

3.2  決策與優(yōu)化

決策表明根據(jù)對抗環(huán)境信息與當(dāng)前自身狀態(tài)制定策略, 并選擇合適的行動方案,具有實時性、時序性和反饋滯后性。智能體做出的決策均基于當(dāng)前態(tài)勢下的選擇,且決策與決策之間擁有先后關(guān)系,而影響智能體決策的最大因素是反饋滯后,很多情況下只有在對局結(jié)束時才能得到反饋,不利于智能體進(jìn)行學(xué)習(xí)和改進(jìn)。

智能體做出的決策決定了對局走向,而決策質(zhì)量則是影響勝負(fù)的關(guān)鍵。人類的決策具有主觀性和片面性,帶有經(jīng)驗主義色彩,通常只能在當(dāng)前局勢下取得一定優(yōu)勢,難以對最終勝利做出貢獻(xiàn)。與人類決策相比,DRL實現(xiàn)了端到端的輸出,通過神經(jīng)網(wǎng)絡(luò)直接給出決策結(jié)果,并通過對抗來優(yōu)化網(wǎng)絡(luò)參數(shù),不斷增強(qiáng)決策質(zhì)量,提升智能體的決策水平。本文從策略制定和策略優(yōu)化2個方面討論智能體的決策。決策與優(yōu)化如圖4所示,其中,DDQN為雙重深度Q網(wǎng)絡(luò);DRQN為深度循環(huán)Q網(wǎng)絡(luò);DDPG為深度確定性的策略梯度;PPO為近端策略優(yōu)化;A3C為異步優(yōu)勢動作評價。

圖片

圖4 決策與優(yōu)化

3.2.1  策略制定

目前,DRL主要分為基于值函數(shù)與基于策略梯度2類算法。基于值函數(shù)DRL算法的典型代表為DQN,以及在DQN基礎(chǔ)上提出的DUEL、DRQN和DDQN等一系列變體。DQN不直接輸出策略,而是計算當(dāng)前態(tài)勢下每個動作的Q值,Q值反映了選取該動作后的未來累計獎勵的期望值,因此Q值代表了對未來的評估與預(yù)期,Q值越大表明智能體越有可能在對局中取勝。陳希亮等提出基于DQN的陸軍分隊?wèi)?zhàn)術(shù)決策求解框架,采用自然DQN算法對策略進(jìn)行求解。DouZero則采用了深度蒙特卡羅方法,其本質(zhì)也是為了求得Q值,實現(xiàn)策略的準(zhǔn)確評估。為了使策略收斂到最優(yōu)策略,基于策略梯度的DRL算法通過計算期望總獎勵關(guān)于策略參數(shù)的梯度來更新策略參數(shù),最后以端到端的方式直接輸出最優(yōu)策略,省去了許多中間繁瑣步驟,因此基于策略梯度的DRL算法比DQN更受青睞?;诓呗蕴荻鹊乃惴òㄐ袆诱咴u論家(AC)方法、DDPG算法、循環(huán)確定性的策略梯度(RDPG)算法和A3C算法等。在兵棋對抗方面,李琛等構(gòu)建了基于Actor-Critic框架的多算子分布執(zhí)行集中訓(xùn)練的行動決策模型;張振等提出了使用監(jiān)督學(xué)習(xí)訓(xùn)練智能體,研究了基于PPO的對抗算法。此外,AlphaGo與AlphaStar均采用了AC框架輸出策略,先采用監(jiān)督學(xué)習(xí)方式訓(xùn)練一個監(jiān)督學(xué)習(xí)網(wǎng)絡(luò),再在該網(wǎng)絡(luò)基礎(chǔ)上通過自博弈進(jìn)行策略網(wǎng)絡(luò)訓(xùn)練,從而有效提高了訓(xùn)練效率。

3.2.2  策略優(yōu)化

策略優(yōu)化能使智能體免于次優(yōu)結(jié)果帶來的策略劣化,跳脫出局部最優(yōu)的困境,使得最終的策略性能得以改善,其原理如圖5所示。DRL的最終目標(biāo)是使全局獎勵最大化,獎勵反饋很大程度上決定了決策質(zhì)量,通過正反饋獎勵與負(fù)反饋獎勵,智能體可以知道在接下來的任務(wù)中如何決策,即選擇獎勵值大的動作而避免選擇獎勵值小的動作。因此,獎勵值設(shè)置尤為重要,在面對對局時間長、獎勵反饋稀疏的對抗中,智能體由于長時間未得到反饋,收斂到最優(yōu)決策的效率較低,甚至可能會陷于局部最優(yōu)解狀態(tài)。為了解決獎勵稀疏問題,文獻(xiàn)對獎勵函數(shù)進(jìn)行了重塑,獎勵函數(shù)根據(jù)算子和目標(biāo)奪控點的距離變化而變化;文獻(xiàn)根據(jù)奪控點情況、算子血量和殲敵數(shù)量等進(jìn)行獎勵函數(shù)設(shè)計;文獻(xiàn)采用逆向強(qiáng)化學(xué)習(xí)方式,運用既有的大量高質(zhì)量范例數(shù)據(jù)來擬合獎勵函數(shù);文獻(xiàn)使用加權(quán)時序差分(TD(λ))算法結(jié)合學(xué)習(xí)的評論家(critic)網(wǎng)絡(luò)來減小方差,利用人類數(shù)據(jù)構(gòu)造偽獎賞,引導(dǎo)策略模仿人類行為,緩解稀疏獎賞問題,加速策略訓(xùn)練;文獻(xiàn)引入全局獎勵預(yù)測模塊,采用門控循環(huán)單元(GRU)建模一局中前若干個回合對整局的貢獻(xiàn),利用人類高手的數(shù)據(jù)進(jìn)行價值預(yù)測網(wǎng)絡(luò)的監(jiān)督學(xué)習(xí),并通過計算相鄰兩回合的獎勵差來確定當(dāng)前回合的獎勵。除了在獎勵函數(shù)上的優(yōu)化,AlphaGo為了提高勝率,采用蒙特卡羅搜索樹實現(xiàn)了總體策略選擇,并對策略空間進(jìn)行了搜索,最終確定了方案。文獻(xiàn)提出了一種引入了神經(jīng)網(wǎng)絡(luò)的強(qiáng)化學(xué)習(xí)方法神經(jīng)虛擬自我對弈(NFSP)算法,在自我博弈中近似均衡求解,雖然在大規(guī)模多人博弈穩(wěn)定性較差,但在小規(guī)模博弈問題和簡化的德州撲克游戲中表現(xiàn)突出。

圖片

圖5  策略優(yōu)化原理

3.3  協(xié)同與通信

策略的實施離不開各個智能體之間的配合,為了應(yīng)對復(fù)雜多變的對抗情形,智能體需學(xué)會協(xié)作,跳出局部最優(yōu)策略的陷阱。星際爭霸中,智能體們需要分工合作、共同完成建筑建造以及戰(zhàn)斗配合等關(guān)鍵性戰(zhàn)略任務(wù),同時還需要對各自戰(zhàn)場職能進(jìn)行分類,實現(xiàn)行動細(xì)化,如讓智能體在對戰(zhàn)過程中根據(jù)各自角色進(jìn)行戰(zhàn)術(shù)配合,或在建造采礦方面學(xué)會有序合作。智能體們想要實現(xiàn)上述群體協(xié)同控制的目標(biāo),需要通過信息共享、資源交換和聯(lián)合對抗等手段,但目前多智體協(xié)同仍面臨智能體數(shù)量增多帶來的狀態(tài)空間與動作空間維數(shù)爆炸、智能體之間采取不同動作的相互影響以及個體利益與團(tuán)體利益協(xié)調(diào)等問題。為解決上述問題,實現(xiàn)多智能體協(xié)同,本文對多智能體訓(xùn)練方式和多智能體通信技術(shù)2個方面進(jìn)行分析。多智能體通信如圖6所示,其中,RIAL為增強(qiáng)智能體間學(xué)習(xí);DIAL可微分智能體間學(xué)習(xí)。

圖片

圖6  多智能體通信

3.3.1  多智能體訓(xùn)練方式

目前,多智能體強(qiáng)化學(xué)習(xí)訓(xùn)練分為全通信集中決策架構(gòu)、全通信自主決策架構(gòu)和欠通信自主決策架構(gòu)3大類。本文以優(yōu)勢動作評價(A2C)算法在多智能體上的簡單拓展為例,分別介紹了3種訓(xùn)練方式的實現(xiàn)。全通信集中決策架構(gòu)如圖7所示,中央決策單元先將所有智能體對環(huán)境的局部觀測進(jìn)行統(tǒng)籌,以此整合得到全局觀測的信息,再訓(xùn)練聯(lián)合價值網(wǎng)絡(luò)與策略網(wǎng)絡(luò),從而集中決策產(chǎn)生聯(lián)合動作,最后以通信方式將動作信息傳遞給每個智能體。該方式的優(yōu)點是擁有全局觀測信息,避免了局部觀測導(dǎo)致的噪聲,其決策更優(yōu),且可更好實現(xiàn)智能體的協(xié)同控制,但同時不可避免地對通信的時效性提出了挑戰(zhàn)。

圖片

圖7  全通信集中決策架構(gòu)

全通信自主決策架構(gòu)如圖8所示。中央決策單元只訓(xùn)練聯(lián)合價值網(wǎng)絡(luò),并將價值網(wǎng)絡(luò)的輸出反饋給各智能體的本地決策單元,每個智能體均擁有獨立的策略網(wǎng)絡(luò),為了提高訓(xùn)練時決策的準(zhǔn)確性,各智能體間通過通信實現(xiàn)信息交換并整合得到全局的信息,以此做出最優(yōu)決策,當(dāng)訓(xùn)練完成后,智能體通過本地決策單元進(jìn)行決策。由于訓(xùn)練時采用了全局信息,已經(jīng)包含了對其他智能體的推斷信息,因此在本地決策時涌現(xiàn)出了協(xié)同合作的能力。該框架由于應(yīng)用了本地決策,對通信時效性要求較低,在訓(xùn)練完成后減少了信息收集流程,因此得到了廣泛應(yīng)用。

圖片

圖8  全通信自主決策架構(gòu)

欠通信自主決策架構(gòu)如圖9所示。相比于前2種框架,欠通信自主決策架構(gòu)放棄了對全局信息的整合,每個智能體擁有單獨的價值網(wǎng)絡(luò)與策略網(wǎng)絡(luò),訓(xùn)練過程中僅依靠自身的局部觀測信息進(jìn)行決策,以期涌現(xiàn)出協(xié)調(diào)合作的能力并最終完成任務(wù)。由于減少了通信流程,欠通信自主決策架構(gòu)可以適用于任何一個多智體環(huán)境,但也產(chǎn)生了因信息缺失與觀測噪聲導(dǎo)致的不穩(wěn)定因素。

圖片

圖9  欠通信自主決策架構(gòu) 

3.3.2  多智能體通信技術(shù)

多智能體交流不是真正意義上的交流,而只是顯式假設(shè)智能體之間存在信息的交互,并通過訓(xùn)練來學(xué)習(xí)如何根據(jù)對抗形式生成信息,或者確定是否要和其他智能體進(jìn)行通信。訓(xùn)練完成后,若要運行,仍需要來自其他智能體的信息。Foerster等在多智能體強(qiáng)化學(xué)習(xí)中引入通信概念,采用了全通信自主決策架構(gòu)訓(xùn)練模型,提出了RIAL算法,從而對智能體之間傳輸可學(xué)習(xí)的信息進(jìn)行展示,此外,為了使智能體對收到信息進(jìn)行反饋,F(xiàn)oerster等在RIAL的基礎(chǔ)上又提出了DIAL算法,通過通信信道將梯度信息從信息接收方傳回到信息發(fā)送方,形成反饋循環(huán)。Sukhbaatar等提出了CommNet算法,采用廣播形式傳遞信息,由于采用了全通信集中決策架構(gòu),因此在大規(guī)模環(huán)境下網(wǎng)絡(luò)維度過大且訓(xùn)練困難。Jiang等為了使智能體能夠自主通信,提出了基于注意力機(jī)制的AtoC模型,該模型采用了全通信自主決策架構(gòu)與DDPG算法,同時為了提高可擴(kuò)展性,所有智能體之間共享了通信信道、策略網(wǎng)絡(luò)和注意力單元等參數(shù)。另外,采用注意力機(jī)制進(jìn)行通信的還有個性化控制連續(xù)通信模型(IC3Net)算法和目標(biāo)化多智能體通信(TarMac)算法。

4

應(yīng)用與挑戰(zhàn)

人機(jī)對抗技術(shù)自其誕生起就受到了廣泛關(guān)注,人與機(jī)器的較量角逐自此拉開了帷幕,從深藍(lán)到AlphaGo系列,機(jī)器表現(xiàn)出的強(qiáng)大學(xué)習(xí)能力吸引著人們持續(xù)地探索這一片領(lǐng)域。尤其是AlphaGo在圍棋領(lǐng)域取得的巨大突破,進(jìn)一步推動了人機(jī)對抗技術(shù)的發(fā)展,使得DRL與人機(jī)對抗相結(jié)合的方式成為可能。

4.1  棋牌類游戲?qū)?/strong>

棋牌類游戲一直以來都是進(jìn)行人機(jī)對抗測試的平臺,棋牌類游戲?qū)故疽鈭D如圖10所示。2016年,谷歌Deepmind公司開發(fā)了AlphaGo系列,成功將DRL與人機(jī)對抗進(jìn)行了結(jié)合,并以4∶1戰(zhàn)勝了韓國棋手李世石,次年又以3∶0戰(zhàn)勝了我國棋手柯潔。AlphaGo系列在圍棋方面表現(xiàn)出的強(qiáng)大的想象力從側(cè)面反映了DRL的能力。同年,文獻(xiàn)提出的神經(jīng)虛擬博弈是基于DRL自我博弈優(yōu)化方法的典型代表,并在簡化德州撲克游戲中取得不錯表現(xiàn)。2020年,微軟亞洲研究院發(fā)布了麻將AI suphx,采用分布式強(qiáng)化學(xué)習(xí),對關(guān)于打牌策略的決策模型進(jìn)行訓(xùn)練,Suphx和其他玩家對戰(zhàn)了5 000多場,達(dá)到了最高段位10段,超過了平臺上另外2個知名AI以及頂級人類選手的平均水平。2021年發(fā)布的斗地主AI DouZero,通過引入深度神經(jīng)網(wǎng)絡(luò),提出了深度蒙特卡羅算法。需說明的是,由于在傳統(tǒng)斗地主游戲中存在運氣成分,因此無法像圍棋一樣完勝人類,但已可達(dá)到人類玩家水平,且與已知斗地主AI相比具有明顯優(yōu)勢。

圖片

圖10  棋牌類游戲?qū)故疽鈭D 

4.2  多人戰(zhàn)略游戲?qū)?/strong>

與棋牌類游戲相比,多人戰(zhàn)略游戲的狀態(tài)空間和行動空間更復(fù)雜,且隱藏信息更豐富,因此對于智能體來說是一個巨大挑戰(zhàn),多人戰(zhàn)略游戲?qū)故疽鈭D如圖11所示。

多人戰(zhàn)略游戲的代表有Dota 2和星際爭霸等。通常情況下,智能體不會只控制1個單位,而是需操縱多個單位進(jìn)行對抗活動,如在星際爭霸中需要控制單位進(jìn)行采礦、戰(zhàn)斗和建造,在Dota 2中需要控制英雄進(jìn)行技能配合、線上補(bǔ)刀和裝備購買。智能體不僅需要學(xué)習(xí)如何決策,還要學(xué)習(xí)如何協(xié)調(diào)競爭與合作的關(guān)系。即時戰(zhàn)略游戲一直以來均受到DeepMind、Facebook和OpenAI等機(jī)構(gòu)的關(guān)注,2019年OpenAI開發(fā)的Dota 2 AI OpenAI Five在和Dota2世界冠軍戰(zhàn)隊的對局中獲勝,在DRL算法的選擇上,OpenAI Five使用的是近端策略優(yōu)化+廣義優(yōu)勢估計器(PPO+GAE)的標(biāo)準(zhǔn)設(shè)定,采用了單層4 096個單元的LSTM網(wǎng)絡(luò)。同年,DeepMind推出了AlphaStar,采用優(yōu)先虛擬自博弈和聯(lián)盟訓(xùn)練等方法在與星際爭霸2人類職業(yè)選手的挑戰(zhàn)賽中,以10∶1的比分戰(zhàn)勝人類選手。騰訊人工智能實驗室針對多玩家在線競技場開發(fā)了Moba 1v1 AI,且達(dá)到了99.81%的勝率。DeepMind于2019年發(fā)布了基于雷神之錘3的For the win奪旗AI,在奪旗任務(wù)中取得了高于人類的勝率。盡管DRL在即時策略游戲中表現(xiàn)突出,但仍需提高模型的可解釋性和可泛化性,從而增強(qiáng)算法穩(wěn)定性和算法性能,以便實現(xiàn)對人類的再次超越。

圖片

圖11  多人戰(zhàn)略游戲?qū)故疽鈭D

4.3  兵棋推演

兵棋推演作為戰(zhàn)爭研究和訓(xùn)練的手段,正逐漸從早期的手工兵棋演變?yōu)橛嬎銠C(jī)兵棋。圖12給出了兵棋推演示意圖。兵棋推演具有非對稱性、隨機(jī)性和高風(fēng)險性。與星際爭霸不同,兵棋推演的對抗雙方實力不均等,如在奪控戰(zhàn)中,紅方兵力配置一般弱于藍(lán)方,但紅方在視野方面則擁有更多優(yōu)勢,并可使用遠(yuǎn)程飛彈打擊,而藍(lán)方則配備了更多的地面武裝,擁有更強(qiáng)的進(jìn)攻能力。

隨機(jī)性與高風(fēng)險性體現(xiàn)在游戲的判決規(guī)則中,如武器打擊時存在偏離目標(biāo)概率而導(dǎo)致打擊失敗,同時一方兵力受損后未進(jìn)行彌補(bǔ)導(dǎo)致風(fēng)險增加,可能會使一方直接潰敗。為了改善兵棋推演面臨的困境,文獻(xiàn)將分布式執(zhí)行集中化訓(xùn)練的AC框架引入了兵棋推演,并通過簡化想定進(jìn)行了驗證;文獻(xiàn)提出了一種層次化和模塊化DRL方法框架,將網(wǎng)絡(luò)壓縮優(yōu)化與遷移學(xué)習(xí)應(yīng)用其中;文獻(xiàn)提出了一種融合知識數(shù)據(jù)和強(qiáng)化學(xué)習(xí)的空戰(zhàn)編組對抗智能決策方法,并在典型作戰(zhàn)場景中對方法的實用性與可行性進(jìn)行了驗證。此外,中科院自動化所搭建了人機(jī)對抗智能門戶網(wǎng)站,可實現(xiàn)兵棋的機(jī)機(jī)對抗、人機(jī)對抗以及人及混合對抗,同時發(fā)布了兵棋推演AI AlphaWar,并于2020年通過了圖靈測試,促進(jìn)了兵棋推演的智能化發(fā)展。2017全國首屆兵棋推演大賽中,中科院自動化所研制的人工智能程序CASIA-先知V1.0,在“賽諸葛”兵棋推演人機(jī)大戰(zhàn)中與全國決賽階段軍隊個人賽4強(qiáng)和地方個人賽4強(qiáng)的8名選手激烈交鋒,以7∶1的戰(zhàn)績大勝。盡管DRL在兵棋推演方面取得了不錯的效果,但隨著推演的進(jìn)一步升級以及推演規(guī)模的不斷擴(kuò)大,現(xiàn)有算法將會受到狀態(tài)空間巨大、收斂困難和局部最優(yōu)等問題的挑戰(zhàn),因此需通過提高神經(jīng)網(wǎng)絡(luò)的感知力與算法魯棒性來提升對抗水平。

圖片

圖12  兵棋推演示意圖

5

問題與展望

本文從DRL角度出發(fā),對人機(jī)對抗智能技術(shù)進(jìn)行了討論,闡述了人機(jī)對抗的內(nèi)涵與機(jī)理,并在OODA環(huán)的基礎(chǔ)上對框架進(jìn)行了簡化,即感知-決策-控制,并就人機(jī)對抗智能技術(shù)的分類與最新發(fā)展進(jìn)行了歸納。從應(yīng)用領(lǐng)域、前沿技術(shù)和面臨挑戰(zhàn)等方面對基于DRL的人機(jī)智能對抗進(jìn)行了介紹。雖然基于DRL的人機(jī)智能對抗近年來蓬勃發(fā)展,在不同領(lǐng)域均取得了成果,但仍需解決以下關(guān)鍵問題:1)構(gòu)建更高效快速的態(tài)勢感知網(wǎng)絡(luò);2)提高網(wǎng)絡(luò)魯棒性,在不完全信息環(huán)境中保持穩(wěn)定決策;3)實現(xiàn)網(wǎng)絡(luò)可遷移,可針對不同對抗場景進(jìn)行簡化開發(fā)。

回顧人機(jī)對抗的歷史,DRL對其發(fā)展起到了巨大的推動作用,本文對基于DRL的人機(jī)智能對抗研究進(jìn)行了以下展望:1)條件對稱/非對稱的種群間人機(jī)智能對抗;2)條件對稱/非對稱的個體間人機(jī)智能對抗;3)條件非對稱的種群與個體間人機(jī)智能對抗。通過研究同等條件下的種群與種群、個體與個體間的對抗,可以在公平的前提下分析對抗算法的性能,提高個體的競爭力與種群的協(xié)作性。通過研究非對稱條件下的對抗,讓智能體可以實現(xiàn)以少勝多和以弱勝強(qiáng)的戰(zhàn)略目標(biāo)。

6

結(jié)束語

人工智能的快速發(fā)展,不僅為DRL的產(chǎn)生奠定了基礎(chǔ),也為人機(jī)對抗智能化帶來了契機(jī)。將兩者有機(jī)結(jié)合并進(jìn)行研究與分析,掌握內(nèi)在原理,使得人與機(jī)器之間架起了溝通的橋梁,最終通過人機(jī)對抗實現(xiàn)人機(jī)協(xié)作、人機(jī)互助和共同進(jìn)步的目標(biāo),使社會在政治、經(jīng)濟(jì)和生活等領(lǐng)域邁向智能化。

相關(guān)文獻(xiàn)推薦:

  • 汪霜玲,李宇飛,黃凱鵬,等. 指揮信息系統(tǒng)智能化水平評估方法[J]. 指揮信息系統(tǒng)與技術(shù),2022,13(5):55-59.

  • 吳云超,傅琛,張寧馨. 面向數(shù)字孿生戰(zhàn)場的智能體建模框架構(gòu)建[J]. 指揮信息系統(tǒng)與技術(shù),2022,13(4):19-25.

  • 陳新中,曹罡,郭曉鴻. 人工智能在美俄核武器系統(tǒng)現(xiàn)代化建設(shè)中的應(yīng)用[J]. 指揮信息系統(tǒng)與技術(shù),2022,13(3):12-16.

  • 劉小峰,王歡,王子洋. 基于生成對抗網(wǎng)絡(luò)的無人機(jī)博弈對抗技術(shù)[J]. 指揮信息系統(tǒng)與技術(shù),2021,12(5):1-5.

  • 賀嘉璠,汪慢,方峰,等. 深度強(qiáng)化學(xué)習(xí)技術(shù)在智能空戰(zhàn)中的運用[J]. 指揮信息系統(tǒng)與技術(shù),2021,12(5):6-13.

  • 陳希亮,李清偉,孫彧. 基于博弈對抗的空戰(zhàn)智能決策關(guān)鍵技術(shù)[J]. 指揮信息系統(tǒng)與技術(shù),2021,12(2):1-6.

  • 孫彧,李清偉,徐志雄,等. 基于多智能體深度強(qiáng)化學(xué)習(xí)的空戰(zhàn)博弈對抗策略訓(xùn)練模型[J]. 指揮信息系統(tǒng)與技術(shù),2021,12(2):16-20.

  • 軒書哲,周昊,柯良軍. 無人機(jī)集群對抗博弈綜述[J]. 指揮信息系統(tǒng)與技術(shù),2021,12(2):27-31.

  • 鄭健,陳建,朱琨. 基于多智能體強(qiáng)化學(xué)習(xí)的無人集群協(xié)同設(shè)計[J]. 指揮信息系統(tǒng)與技術(shù),2020,11(6):26-31.

  • 南英,蔣亮. 基于深度強(qiáng)化學(xué)習(xí)的彈道導(dǎo)彈中段突防控制[J]. 指揮信息系統(tǒng)與技術(shù),2020,11(4):1-9.

    本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊一鍵舉報。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多