电竞比分网-中国电竞赛事及体育赛事平台

分享

強(qiáng)化學(xué)習(xí)遭遇瓶頸!分層RL將成為突破的希望

 漢無為 2019-03-24

策劃編輯|蔡芳芳
作者|Yannis Flet-Berliac
譯者|Maglish
編輯|Debra
AI 前線導(dǎo)讀:本文作者是法國里爾大學(xué) Inria SequeL 團(tuán)隊(duì)的博士生,Yannis Flet-Berliac,他在本文中對分層強(qiáng)化學(xué)習(xí)(HRL)的研究進(jìn)行了總結(jié),文章首先回顧了強(qiáng)化學(xué)習(xí)(RL)的基本原理,并闡述了其目前所面對的局限性。隨后介紹了 HRL 如何解決 RL 的局限,包括其動機(jī)、主要框架和自身的局限性。最后,討論了這一領(lǐng)域當(dāng)前和未來的研究。


假設(shè)你的朋友剛烤好一個蛋糕,端來給你嘗嘗,很好吃,于是你想知道它的配方。讓你的朋友告訴你如何烤好一個蛋糕似乎是件很容易的事情,他應(yīng)該能把做法講清楚。但這是一個比你想象的更加微妙的任務(wù),他應(yīng)該講到多詳細(xì)?他需要把每一個微小的動作都詳細(xì)地解釋給你嗎?

應(yīng)該是不需要的。

舉個例子來說,勃艮第牛排,需要把“4 根胡蘿卜切成薄片”。在我們給別人介紹做法時,沒有必要說:“拿起刀子,萬一它切不好,就把它磨平。拿一塊木板,把 4 根胡蘿卜放在上面。把刀握在你的手上,收縮肌肉來切第一片胡蘿卜。”

因此,讓一個系統(tǒng)完成某個動作時,需要考慮相關(guān)的粒度級別。這種粒度很難在數(shù)學(xué)上集成到復(fù)雜的自學(xué)習(xí)系統(tǒng)中。

 

菜譜的不同粒度級別

此外,在發(fā)育心理學(xué)中有越來越多的證據(jù)表明新生兒、靈長類動物、兒童和成人的基礎(chǔ)知識依賴的是相同的認(rèn)知系統(tǒng)。這些認(rèn)知系統(tǒng)包括實(shí)體、代理、動作、空間、社會結(jié)構(gòu)和直覺理論。在開放式游戲中,如把積木堆成穩(wěn)定的結(jié)構(gòu),幼兒會使用這些知識來設(shè)置子目標(biāo)。

為了實(shí)現(xiàn)這些目標(biāo),幼兒似乎在他們的基礎(chǔ)知識的空間中產(chǎn)生了子目標(biāo),進(jìn)行時間抽象。以勃艮第牛排的配方為例,洋蔥的切割過程是一個時間延長的動作,并且可以根據(jù)所需的切割細(xì)度采用不同的步驟數(shù)來完成。這種時間抽象的概念,結(jié)合強(qiáng)化學(xué)習(xí)(Reinforcement Learning,RL),就轉(zhuǎn)化為分層強(qiáng)化學(xué)習(xí)(Hierarchical Reinforcement Learning,HRL)。

在下面的文章中,我們對 HRL 研究進(jìn)行了總結(jié)(https:///2017/research-debt/)。我們首先回顧一下 RL 的基本原理,然后再闡述其目前的局限性。然后,我們將介紹 HRL 如何對抗 RL 的局限,包括其動機(jī)、主要框架和自身的局限性。最后,我們將討論這一領(lǐng)域當(dāng)前和未來的研究。

強(qiáng)化學(xué)習(xí)(RL)基本原理介紹

近來,強(qiáng)化學(xué)習(xí)(RL)方法在許多領(lǐng)域都取得了較好的研究結(jié)果,包括在 圍棋 中擊敗人類的最佳棋手,從像素中學(xué)習(xí)玩雅達(dá)利游戲,以及在 模擬 或 現(xiàn)實(shí)世界 中教計算機(jī)控制機(jī)器人。這些成就是 20 世紀(jì) 50 年代以來試錯學(xué)習(xí)和最優(yōu)控制的研究的巔峰。從這兩個領(lǐng)域中誕生了強(qiáng)化學(xué)習(xí)的領(lǐng)域,從那時起,它一直在發(fā)展,產(chǎn)生了令人難以置信的影響。

Csaba Szepesvári 在他的書中寫道:“強(qiáng)化學(xué)習(xí)既是學(xué)習(xí)問題,也是機(jī)器學(xué)習(xí)的子領(lǐng)域?!?/p>簡而言之,學(xué)習(xí)問題與軟件代理有關(guān),該軟件在一個環(huán)境中通過試錯來學(xué)習(xí)有目標(biāo)導(dǎo)向的行為,而環(huán)境對代理的行為給出反饋,當(dāng)代理的行為是朝著實(shí)現(xiàn)目標(biāo)的方向時則給予獎勵。

 

強(qiáng)化學(xué)習(xí)問題

學(xué)習(xí)問題的設(shè)置非常簡單。

有兩個主角:一個代理和一個環(huán)境。環(huán)境是代理“生活”的地方,是它與之互動的地方。在每一個互動點(diǎn),代理會對當(dāng)前狀態(tài)進(jìn)行觀察,然后決定要采取的動作。當(dāng)代理對環(huán)境進(jìn)行更改時,環(huán)境也會發(fā)生變化,但也可以自行改變。代理會從環(huán)境收到獎勵信號,可以是一個數(shù)字(或一個分布),告訴它這個動作對代理的目標(biāo)產(chǎn)生了好的還是壞的作用。

你或許會疑問,為什么 RL 不是直接監(jiān)督學(xué)習(xí)(從數(shù)據(jù)樣本(狀態(tài),動作)得到獎勵)?Alex Graves 在 NeurIPS 2018 的無監(jiān)督學(xué)習(xí) 報告 中提到了這一點(diǎn):

  1. 有了監(jiān)督學(xué)習(xí)設(shè)置,我們將需要大量的數(shù)據(jù),這是很難獲得的,而且定義起來也很復(fù)雜。

  2. 我們從孩子們發(fā)現(xiàn)世界的過程中所學(xué)到的是,不依賴大量數(shù)據(jù)的學(xué)習(xí)感覺更像人類。

  3. RL 可以在各種復(fù)雜的真實(shí)環(huán)境中更好地泛化,例如內(nèi)在動機(jī)和輔助任務(wù)。

第三點(diǎn)對 HRL 來說更有意義,HRL 的目標(biāo)是高效,特別是在學(xué)習(xí)的泛化和遷移方面。

所以 RL 的主要問題是:我們?nèi)绾巫畲蠡磥淼幕貓螅?/p>

回答這個問題實(shí)際上需要回答其他的子問題,包括:

  • 我們應(yīng)該學(xué)習(xí)什么(模型、狀態(tài)工具、策略等)?

  • 我們應(yīng)該如何學(xué)習(xí)(TD 學(xué)習(xí),Monte Carlo 等)?

  • 我們?nèi)绾伪硎疚覀兯鶎W(xué)的知識(深度神經(jīng)網(wǎng)絡(luò),表格等等)?

  • 如何使用我們所學(xué)的知識?(這通常是第一個要回答的問題)

    強(qiáng)化學(xué)習(xí)的難點(diǎn)

在 Warneken 和 Tomasello 的著名實(shí)驗(yàn)中,一個 18 個月大的幼兒在沒有提前看過該如何做的情況下,他可以理解正在發(fā)生的事情,以及如何與環(huán)境互動。幼兒必須有一些常識才能做到這一點(diǎn):理解物理、動作、限制和計劃。

我們想用現(xiàn)有的 RL 方法建立這樣一個有能力的系統(tǒng),仍然有很長的路要走。一個原因是因?yàn)?RL 存在各種各樣的缺陷,這些缺陷阻礙了學(xué)習(xí)過程,也讓它無法被應(yīng)用到更復(fù)雜的環(huán)境中。HRL 旨在通過分解學(xué)習(xí)的特定部分來減輕學(xué)習(xí)的復(fù)雜性。與分層強(qiáng)化學(xué)習(xí)的優(yōu)勢相比,強(qiáng)化學(xué)習(xí)的主要弱點(diǎn)可以被分解如下:

  • 樣本效率:數(shù)據(jù)生成常常是瓶頸,當(dāng)前的 RL 方法的數(shù)據(jù)效率較低。使用 HRL,子任務(wù)和抽象動作可以用于同一域上的不同任務(wù)(遷移學(xué)習(xí))。

  • 擴(kuò)展:將傳統(tǒng)的 RL 方法應(yīng)用于具有大的動作或狀態(tài)空間的問題是不可行的(維數(shù)災(zāi)難)。HRL 的目標(biāo)是將大問題分解成更小的問題(高效學(xué)習(xí))。

  • 泛化:訓(xùn)練有素的代理可以解決復(fù)雜的任務(wù),但是如果我們希望他們將經(jīng)驗(yàn)遷移到新的(甚至相似的)環(huán)境中,即使最先進(jìn)的 RL 算法也會失敗(由于過度專業(yè)化而導(dǎo)致脆性)。

  • 抽象:狀態(tài)和時間抽象可以簡化問題,因?yàn)樽尤蝿?wù)可以通過 RL 方法(更好的知識表示)得到有效解決。

此外,所有強(qiáng)化學(xué)習(xí)的基本算法都是所謂的“平坦”方法。他們把狀態(tài)空間視為一個巨大的、平坦的搜索空間,這意味著從起始狀態(tài)到目標(biāo)狀態(tài)的路徑非常長。如果我們用食譜的例子來解釋,狀態(tài)空間是動作序列,這些動作完全是由一系列肌肉微收縮組成的。此外,這些路徑的長度決定了學(xué)習(xí)的成本,因?yàn)槲磥淼莫剟钚畔⒈仨氀刂@些路徑反向傳播??傊?,獎勵信號既微弱,又會延遲。

也許我們可以后退一步,看看我們在 20 世紀(jì) 70 年代的研究:在規(guī)劃領(lǐng)域的研究表明,層次化的方法,例如分層任務(wù)網(wǎng)絡(luò)、宏觀動作和狀態(tài)抽象方法,可以讓找到正確規(guī)劃的計算成本以指數(shù)降低,但是我們?nèi)匀蝗狈ν耆行У姆椒?,將分層結(jié)構(gòu)集成到目前有效的 RL 算法中。

分層強(qiáng)化學(xué)習(xí)

正如我們剛才看到的,強(qiáng)化學(xué)習(xí)問題存在嚴(yán)重的擴(kuò)展問題。而分層強(qiáng)化學(xué)習(xí)(HRL)通過學(xué)習(xí)在不同程度的時間抽象上進(jìn)行操作,可以解決這些問題。

為了真正理解學(xué)習(xí)算法中層次結(jié)構(gòu)的必要性,并且在 RL 和 HRL 之間建立聯(lián)系,我們需要記住我們要解決的問題:馬爾科夫決策過程(MDP)。HRL 方法學(xué)習(xí)的策略由多層組成,每層負(fù)責(zé)在不同程度的時間抽象中進(jìn)行控制。事實(shí)上,HRL 的關(guān)鍵創(chuàng)新是擴(kuò)展可用動作集,使得代理現(xiàn)在不僅可以選擇執(zhí)行基本動作,而且還可以執(zhí)行宏動作,即低級動作的序列。因此,隨著時間的推移,我們必須考慮到?jīng)Q策時刻之間所花費(fèi)的時間。幸運(yùn)的是,MDP 規(guī)劃和學(xué)習(xí)算法可以很容易地擴(kuò)展以適應(yīng) HRL。

為了做到這一點(diǎn),我們首先介紹半馬爾可夫決策過程(SMDP)。在這種情況下,p(s’|s,a) 變成了 p(s’,τ|s,a)。

 

分層學(xué)習(xí)原理

上圖說明了 SMDP 的范式:a 是一個原始動作,σ是子程序或宏操作,π是動作策略,πσ是子程序特定的動作策略。V 和 Va 是狀態(tài)值。

HRL 的希望在于:

  1. 長期信度分配:更快的學(xué)習(xí)和更好的泛化

  2. 結(jié)構(gòu)化探索:用子策略探索而不是原始動作

  3. 遷移學(xué)習(xí):不同級別的層次可以包含不同的知識,并允許更好的遷移。

下面我們對 1993 以來出現(xiàn)的基本方法進(jìn)行概述。

HRL 基本方法
封建等級式學(xué)習(xí)(Feudal Learning)

 封建層級制度

受中世紀(jì)歐洲封建制度的啟發(fā),這一 HRL 方法演示了如何創(chuàng)建一個管理學(xué)習(xí)層次,其中領(lǐng)主(或管理者)學(xué)會把任務(wù)(或子目標(biāo))分配給他們的奴隸(或子管理者),而這些人反過來學(xué)習(xí)滿足他們。子管理者在命令的環(huán)境中學(xué)習(xí)最大化它們的增強(qiáng),如下面的圖中黑色圓圈所示。

標(biāo)準(zhǔn)迷宮任務(wù)中的封建系統(tǒng)圖解

在實(shí)踐中,封建學(xué)習(xí)利用了兩個概念:

  • 信息隱藏:管理層次結(jié)構(gòu)在不同分辨率下觀察環(huán)境

  • 獎勵隱藏:目標(biāo)是管理者和“工作者”之間的溝通內(nèi)容,為了實(shí)現(xiàn)目標(biāo)則要給予獎勵。

信息隱藏和獎賞隱藏的一個值得注意的效果是管理者只需要知道他們自己選擇的任務(wù)所在粒度的系統(tǒng)狀態(tài)。他們也不知道他們的工人做出了怎樣的選擇來滿足他們的命令,因?yàn)橄到y(tǒng)設(shè)置不需要學(xué)習(xí)這些。

不過,封建 Q- 學(xué)習(xí)算法主要針對特定類型的問題,并沒有收斂到任何明確定義的最優(yōu)策略。但它為許多其他貢獻(xiàn)鋪平了道路。

選項(xiàng)框架(Option Framenwork)

HRL 中最著名的公式應(yīng)該就是選項(xiàng)框架了。A(馬爾可夫)選擇是一個三元組 o=<Io,πo,βo>:

  • Io:起始狀態(tài)

  • πo:選項(xiàng)的策略

  • βo:終止條件

 

理解動作原語和選項(xiàng)之間的區(qū)別

一個人可以用上面的例子來理解這個框架的思想,其中選項(xiàng)可以概括為“去走廊”,動作(或原始選項(xiàng))包括“向北、南、西或東”。選項(xiàng)可以被認(rèn)為是在更高抽象程層次上的個體動作,因此可以抽象成技能。

與封建學(xué)習(xí)不同,如果動作空間由原始動作和選項(xiàng)組成,遵循選項(xiàng)框架的算法就可以收斂到最優(yōu)策略。否則,它雖然會收斂,但到是收斂到分層最優(yōu)的策略。

 

理解 SMDP 中的選項(xiàng)

由此產(chǎn)生的想法是一個選項(xiàng)框架由兩個層次組成:

  • 底層是一個次級策略:

    • 進(jìn)行環(huán)境觀測

    • 輸出動作

    • 運(yùn)行到終止

  • 頂層是用于選擇 option 的高級策略(policy-over-option):

    • 進(jìn)行環(huán)境觀測

    • 輸出子策略

    • 運(yùn)行到終止

選項(xiàng)是很容易實(shí)現(xiàn)的,并且在定義高級能力方面是有效的,反過來又提高了收斂速度。此外,選項(xiàng)本身可以用來定義選項(xiàng)層次結(jié)構(gòu)。然而,作為一個自然的結(jié)果,選項(xiàng)增加了 MDP 的復(fù)雜性。他們也沒有明確地解決任務(wù)分割的問題。

層次抽象機(jī)(Hierarchical Abstract Machines,HAM)

HAM 由非確定性有限狀態(tài)機(jī)組成,其轉(zhuǎn)換可以調(diào)用較低級別的機(jī)器(最佳動作尚未決定或?qū)W習(xí))。機(jī)器是由有限狀態(tài)自動機(jī)(FSA)表示的部分策略。有四種機(jī)器狀態(tài):

  • 動作狀態(tài),在環(huán)境中執(zhí)行動作

  • 調(diào)用狀態(tài),將另一個機(jī)器作為子程序執(zhí)行。

  • 選擇狀態(tài),非確定性地選擇下一個機(jī)器狀態(tài)

  • 停止?fàn)顟B(tài),停止機(jī)器的執(zhí)行,并將控制返回到之前的調(diào)用狀態(tài)。

我們可以將策略視為程序。對于 HAM,學(xué)習(xí)發(fā)生在機(jī)器內(nèi),因?yàn)闄C(jī)器只是部分定義的。該方法是將所有機(jī)器平鋪,并考慮問題的狀態(tài)空間<s,m>,其中 m 是機(jī)器狀態(tài),s 代表底層 MDP 的狀態(tài)。

 

論文中使用的網(wǎng)格世界環(huán)境

當(dāng)機(jī)器遇到調(diào)用狀態(tài)時,它以確定方式執(zhí)行應(yīng)該調(diào)用的機(jī)器。當(dāng)遇到停止?fàn)顟B(tài)時,它只需要將命令發(fā)送回上級機(jī)器。MDP 中的每個狀態(tài)都進(jìn)行動作的學(xué)習(xí),學(xué)習(xí)直接發(fā)生在 MDP 中。與 MDP 不同的是,在 HAM 框架中學(xué)習(xí)只發(fā)生在選擇狀態(tài)。因此,學(xué)習(xí)存在的狀態(tài)空間可以小于實(shí)際狀態(tài)空間。

 

網(wǎng)格世界環(huán)境中的 FSA 實(shí)例

在上述示例中,每次遇到障礙物時,機(jī)器進(jìn)入選擇狀態(tài),其中要么選擇跟隨墻壁機(jī)器(沿著某個方向持續(xù)地跟隨墻),要么選擇退避機(jī)器(它向后移動,然后執(zhí)行繼續(xù))。

因此,學(xué)習(xí)機(jī)器的策略是決定要調(diào)用哪一臺機(jī)器,以及以什么概率調(diào)用。

基于上述原因,HAM 框架通過限制可實(shí)現(xiàn)策略的種類,為我們提供了簡化 MDP 的能力。與選項(xiàng)框架類似,它的最優(yōu)性也有理論支持。主要問題是 HAM 的設(shè)計和實(shí)現(xiàn)比較復(fù)雜,并且沒有很多重要的應(yīng)用可用。

MAXQ
 

MAXQ 層次結(jié)構(gòu)示意

MAXQ 是一種分層學(xué)習(xí)算法,一項(xiàng)任務(wù)的層次結(jié)構(gòu)是通過將狀態(tài)動作對的 Q 值分解成兩個分量的和而得到的:Q(p,s,a)=V(a,s)+C(p,s,a),其中 V(a,s) 是在狀態(tài) s(典型 Q 學(xué)習(xí))中執(zhí)行動作 a 獲得的總期望獎勵,C(p,s,a) 是執(zhí)行動作 a 后,父任務(wù) p 的表現(xiàn)所獲得的總期望獎勵。實(shí)際上,動作 a 或許不僅包含原始動作,還包含動作序列。

從本質(zhì)上講,可以將 MAXQ 框架理解為將 MDP 的值函數(shù)分解為更小的 MDP 值函數(shù)的組合,這種更小的 MDP 是子任務(wù)的有限集合,其中每個子任務(wù)可以表示為 1、終止語句,2、一組動作和 3、偽獎勵。在這個特定方面,MAXQ 框架與封建 Q 學(xué)習(xí)相關(guān)。

然而,MAXQ 相對于其他框架的優(yōu)勢在于它學(xué)習(xí)的是遞歸最優(yōu)策略,這意味著在子任務(wù)的學(xué)習(xí)策略確定后,父任務(wù)的策略是最優(yōu)的。也就是說,任務(wù)的策略是上下文無關(guān)的:每個子任務(wù)在沒有所執(zhí)行環(huán)境的參考時,都能得到最佳地解決。雖然這并不意味著它將找到一個最優(yōu)策略,但它打開了狀態(tài)抽象和更好的遷遞學(xué)習(xí)的大門,并且可以向許多其他任務(wù)提供共同的宏動作。

狀態(tài)抽象有助于減少內(nèi)存。想一想:你的目標(biāo)是要到一個門前,那么門是什么顏色,或者它是由木頭還是金屬制成的是無所謂的。狀態(tài)抽象應(yīng)該有助于表示相似的狀態(tài),并拒絕無關(guān)的狀態(tài)變量。此外,隨著狀態(tài)抽象,必要的探索減少,并且它們的可重用性增加(因?yàn)樗鼈儾灰蕾囉谒鼈兊纳霞壐改福?。事?shí)上,抽象狀態(tài)是一個狀態(tài)變量較少的狀態(tài):世界上不同的狀態(tài)對應(yīng)于相同的抽象狀態(tài)。因此,如果我們可以減少一些狀態(tài)變量(只有幾個變量與任務(wù)相關(guān)),那么我們可以顯著地減少學(xué)習(xí)時間。最后,我們將針對不同的宏觀動作使用不同的抽象狀態(tài)。

簡而言之,MAXQ 框架對任務(wù)做到了真正的層次分解(與選項(xiàng)框架相反),它有助于子策略的重用,并允許時間和空間抽象。然而其中一個問題是,MAXQ 的結(jié)構(gòu)非常復(fù)雜,遞歸最優(yōu)的策略很有可能并不是最理想的策略。

近期工作

受到這些 HRL 基礎(chǔ)想法(封建學(xué)習(xí)、選項(xiàng)框架、HAM、MAXQ)的啟發(fā),近期發(fā)表的許多文章取得了相當(dāng)令人鼓舞的結(jié)果。

分層強(qiáng)化學(xué)習(xí) FeUdal 網(wǎng)絡(luò)(FuN)

論文鏈接:https:///abs/1703.01161

FeUdal 網(wǎng)絡(luò)提出了模塊化的結(jié)構(gòu)。受到 Hinton 的封建強(qiáng)化學(xué)習(xí)思想的啟發(fā),系統(tǒng)的管理者選擇一個方向進(jìn)入隱狀態(tài)空間,而工人學(xué)會通過環(huán)境中的動作來實(shí)現(xiàn)這個方向。這意味著 FuN 代表子目標(biāo)作為隱狀態(tài)空間中的方向,然后轉(zhuǎn)化為有意義的行為原語。論文介紹了一種方法,能獲得更好的長期信度分配,使記憶更易于追蹤。

FuN 結(jié)構(gòu)

選項(xiàng) - 評測體系結(jié)構(gòu)(Option-Critic)

論文鏈接:https:///abs/1609.05140

雖然早期的工作使用預(yù)先指定的選項(xiàng)策略,但是最近在發(fā)現(xiàn)選項(xiàng)方面取得了成功,該論文展示了一個端到端可訓(xùn)練的系統(tǒng),它可以通過子策略擴(kuò)展到非常大的域,通過把策略梯度理論擴(kuò)展到選項(xiàng),用高級策略(policy-over-option)聯(lián)合學(xué)習(xí)選項(xiàng)的理論概率。與 FuN 相反,這里管理者的輸出由直接來自工人的梯度訓(xùn)練,并且不使用內(nèi)在獎勵。

 

有 4 種選項(xiàng)的選項(xiàng) - 批評代理學(xué)習(xí)到的終止概率

如上圖所示,終止事件更可能發(fā)生在門附近,直觀地說,這意味著“到達(dá)那些門”被系統(tǒng)認(rèn)為是有意義的子目標(biāo)。

HIRO(數(shù)據(jù)高效分層強(qiáng)化學(xué)習(xí))

論文鏈接:https:///abs/1805.08296

該論文使用新的策略無關(guān)校正方法,并且學(xué)習(xí)算法直接使用狀態(tài)觀測作為目標(biāo),與以前的方法相比該方法樣本效率較高。由于沒有目標(biāo)表示,因此不需要目標(biāo)表示訓(xùn)練。這意味著較高級別的策略一開始就從任務(wù)獎勵中接收到有意義的監(jiān)督信號。

 

HIRO 的設(shè)計和基礎(chǔ)訓(xùn)練過程

HAC(利用后見之明學(xué)習(xí)多級層次)

論文鏈接:https:///forum?id=ryzECoAcY7

“我們引入了一種新的 HRL 框架,通過采用分層代理共同學(xué)習(xí)策略的層次結(jié)構(gòu),可以顯著加速學(xué)習(xí)。我們的框架主要由兩個部分組成:(i)一個特定的分層體系結(jié)構(gòu),(ii)一種用于在給定的稀疏獎勵下并行學(xué)習(xí)多個層次的策略的方法。由我們的框架產(chǎn)生的層次體系有一個特定的結(jié)構(gòu),包括一套嵌套的、目標(biāo)條件的策略,這些策略使用狀態(tài)空間作為將任務(wù)分解成子任務(wù)的機(jī)制。HIRO 與我們的方法是同時提出的,使用相同的分層體系結(jié)構(gòu),但由于他們不使用任何形式的后見之明,因此在稀疏報酬任務(wù)中學(xué)習(xí)多層次的策略是低效的?!?/p>

HAC 與 HIRO 在 3 個連續(xù)任務(wù)中的比較

運(yùn)動控制器(Locomotor Controllers)

論文鏈接:https:///abs/1610.05182

“我們研究了一種用于運(yùn)動任務(wù)的新的結(jié)構(gòu)和訓(xùn)練程序。具有本體感受器的高頻、低級“脊柱”網(wǎng)絡(luò)通過對簡單任務(wù)的訓(xùn)練來學(xué)習(xí)感覺運(yùn)動原語。這個預(yù)先訓(xùn)練的模塊是固定的,并連接到低頻的、高級別的“皮層”網(wǎng)絡(luò)上,可以訪問所有的傳感器,通過調(diào)整“脊柱”網(wǎng)絡(luò)的輸入來驅(qū)動動作。在一個整體的端到端架構(gòu)完全失敗的情況下,用預(yù)先訓(xùn)練的脊柱模塊學(xué)習(xí)在多個高層次任務(wù)中取得了成功,并且能夠獲得從稀疏獎勵中學(xué)習(xí)所需要的有效探索。

本文介紹了一種訓(xùn)練運(yùn)動控制器的 HRL 方法,有效地提高了樣本效率,實(shí)現(xiàn)了不同任務(wù)之間的遷換。作者的想法是根據(jù)任務(wù)獲得不變的低級別的策略,然后,通過循環(huán)和重新訓(xùn)練控制低級策略的元策略,不同的技能可以通過較少的樣本獲得,而不用從頭開始訓(xùn)練。

模擬人在遷移任務(wù)中接近虛擬門的截圖

全長星際游戲的強(qiáng)化學(xué)習(xí)

論文鏈接:https:///abs/1809.09095

在本文中,作者主要研究 SC2LE,DeepMind 提出的星際研究學(xué)習(xí)環(huán)境。他們開發(fā)了一種用于全長游戲?qū)W習(xí)的方法,其中控制器在每個相對較大的時間間隔(8 秒),根據(jù)當(dāng)前觀測選擇子策略。然后,在每個相對較短的時間間隔(1 秒),子策略選擇一個未經(jīng)大量人類專家的游戲訓(xùn)練就已掌握的宏觀動作。星際爭霸是一個非常有挑戰(zhàn)性的環(huán)境,狀態(tài)和動作空間非常大。該方法利用分層結(jié)構(gòu)來減少這些空間。此外,策略運(yùn)動的執(zhí)行步驟的數(shù)量隨著控制器提供的時間抽象而減少。最后,每個子策略可以有它自己的特定獎勵函數(shù),它有助于將復(fù)雜的問題分成幾個更容易的子問題。

 

星際爭霸 II 環(huán)境截圖

h-DQN

論文鏈接:https:///abs/1604.06057

“我們提出分層 DQN(h-DQN)的框架,是一個結(jié)合分層值函數(shù),在不同的時域尺度運(yùn)作,有內(nèi)部激勵的深度強(qiáng)化學(xué)習(xí)。在最高層的值函數(shù)通過內(nèi)部目標(biāo)學(xué)習(xí)策略,較低層的函數(shù)通過原子動作學(xué)習(xí)策略來滿足目標(biāo)。h-DQN 允許靈活的目標(biāo)指定,例如實(shí)體和關(guān)系的函數(shù)。這為復(fù)雜環(huán)境的探索提供了一個高效的空間。我們通過兩個反饋稀疏、延遲的問題證明我們的方法:(1)一種復(fù)雜的離散隨機(jī)決策過程,(2)雅達(dá)利經(jīng)典游戲“蒙特蘇馬的復(fù)仇”。

 

元控制器選擇目標(biāo)(用紅色表示),控制器試圖通過一系列低級動作滿足目標(biāo)

元學(xué)習(xí)共享層次結(jié)構(gòu)(MLSH)

論文鏈接:https:///abs/1710.09767

“在這項(xiàng)工作中,我們提出一種分層策略的端到端元學(xué)習(xí)方法。我們提出了一個模型將共享信息表示為一組子策略。然后,我們提供了一個框架,在環(huán)境分布中訓(xùn)練這些模型。即使我們沒有對真正的目標(biāo)進(jìn)行優(yōu)化,學(xué)習(xí)速度得到了顯著的提升。此外,我們不需要手工工程就能自然發(fā)現(xiàn)不同的子策略?!?/p>

從迷宮中學(xué)習(xí)的向下、右和上移動的子策略

調(diào)制策略層次(MPH)

論文鏈接:https:///abs/1710.09767

“我們引入了調(diào)制策略層次結(jié)構(gòu)(MPH)來應(yīng)對可被分解成子任務(wù)的稀疏獎勵的環(huán)境。通過結(jié)合豐富的調(diào)制信號、時間抽象、內(nèi)在動機(jī),MPH 受益于更好的探索過程和訓(xùn)練穩(wěn)定性的提高。此外,與許多先進(jìn)的方法相反,MPH 不需要預(yù)訓(xùn)練、多個訓(xùn)練階段或手動設(shè)計獎勵。我們在兩個模擬機(jī)器人操作任務(wù)中測試 MPH:推東西和堆積木。在這兩種任務(wù)中,MPH 優(yōu)于基線表現(xiàn),和最近提出的 MLSH 算法,這表明我們的方法可能是未來研究的一個有前景的方向。

 

訓(xùn)練選項(xiàng)基線和 MPH 在堆積木任務(wù)的調(diào)制信號

學(xué)習(xí)宏動作的策略性注意力作家(STRAW)

論文鏈接:https:///abs/1606.04695

“我們提出了一種新的深度遞歸神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),它采用強(qiáng)化學(xué)習(xí)的設(shè)置,與環(huán)境進(jìn)行純粹的交互,以一種端到端的方式學(xué)習(xí)構(gòu)建隱式計劃。網(wǎng)絡(luò)建立一個內(nèi)部計劃,通過觀察來自環(huán)境的下一個輸入不斷進(jìn)行更新。它還可以通過學(xué)習(xí)計劃可以保證多長時間(不進(jìn)行重新規(guī)劃)來將這個內(nèi)部表示劃分給到相鄰的子序列。結(jié)合這些特性,所提出策略注意力作家(STRAW)模型可以學(xué)習(xí)不同長度的高水平、時間抽象的宏動作,只從數(shù)據(jù)中學(xué)習(xí),不需要任何先驗(yàn)信息。這些宏動作實(shí)現(xiàn)了結(jié)構(gòu)化探索,降低了計算成本。實(shí)驗(yàn)證明,STRAW 通過采用時間延長的規(guī)劃策略,在幾個雅達(dá)利游戲(如 Ms.Pacman 和 Frostbite)中取得了很大的進(jìn)步。同時它也是一個可以應(yīng)用于任何序列數(shù)據(jù)的通用算法?!?/p>

 

STRAW 進(jìn)行迷宮導(dǎo)航游戲示意圖

H-DRLN

論文鏈接:https:///abs/1604.07255

“我們提出了一個終身學(xué)習(xí)系統(tǒng),它能將知識從一個任務(wù)遷移或重新利用到另一個,同時有效地保留先前學(xué)到的知識庫。該系統(tǒng)通過學(xué)習(xí)可重用的技能來遷移知識,完成 Minecraft 中的任務(wù)。這些可重用的技能,我們稱之為深度技能網(wǎng)絡(luò),隨后通過兩種技術(shù):(1)深度技能陣列,(2)技能蒸餾(策略蒸餾(Rusu 等人)的變體),整合到我們提出的分層深度強(qiáng)化學(xué)習(xí)網(wǎng)絡(luò)(H-DRLN)的結(jié)構(gòu)中學(xué)習(xí)技能。

抽象馬爾可夫決策過程(AMDP)

論文鏈接:https:///ocs/index.php/ICAPS/ICAPS17/paper/view/15759

“我們提出抽象馬爾可夫決策過程(AMDP)層次結(jié)構(gòu),作為推理子目標(biāo)網(wǎng)絡(luò)的方法。AMDP 是一種特殊的 MDP,其狀態(tài)為底層環(huán)境狀態(tài)(地面 MDP)的抽象表示。AMDP 的動作要么是來自環(huán)境 MDP 的動作原語,要么是要解決的子目標(biāo)。MAXQ 的一個主要限制是層次結(jié)構(gòu)的值函數(shù)是通過在最低級別處理狀態(tài) - 動作空間,并將值備份到抽象的子任務(wù)節(jié)點(diǎn)(自下而上過程)來發(fā)現(xiàn)的。AMPD 對每個子任務(wù)的過渡和獎勵函數(shù)局部建模,能夠更快的規(guī)劃,因?yàn)榭缭蕉鄠€層次結(jié)構(gòu)的備份是不必要的。這種自上而下的規(guī)劃方法首先決定什么是一個好的子目標(biāo),再計劃如何實(shí)現(xiàn)它。

 

左:開始位置的烏龜機(jī)器人;中間:烏龜機(jī)器人到達(dá)指定區(qū);右:把方塊放進(jìn)目標(biāo)區(qū)域

錯誤指定問題的迭代分層優(yōu)化(IMHOP)

論文鏈接:https:///abs/1602.03348

“對于復(fù)雜的高維馬爾可夫決策過程(MDP),有必要用函數(shù)逼近來表示策略。當(dāng)表示不能代表任何可行策略時,都會錯誤指定問題。我們引入一個元算法,錯誤指定問題的迭代分層優(yōu)化(IHOMP),使用 RL 算法作為“黑匣子”,反復(fù)學(xué)習(xí)能夠修復(fù)錯誤指定問題的選項(xiàng)。為了使選項(xiàng)專門化,IHOMP 使用狀態(tài)空間的分區(qū),并為分區(qū)中的每個類訓(xùn)練一個選項(xiàng)?!?/p>

 

具有 S 形狀態(tài)空間和目標(biāo)區(qū)域的情節(jié) MDP(1)平鋪方法,(2)分層方法

HSP

論文鏈接:https:///abs/1811.09083

“在訓(xùn)練分層模型之前,我們的方法使用無監(jiān)督非對稱的自我博弈作為低層策略的預(yù)訓(xùn)練。在自我博弈中,代理通過目標(biāo)嵌入為自己設(shè)計任務(wù),然后試圖解決這些任務(wù)。隨后,高級策略可以通過生成連續(xù)子目標(biāo)矢量序列來指導(dǎo)低級策略。這些矢量序列可以在分層 RL 框架中使用,以加快對具有稀疏獎勵的復(fù)雜任務(wù)的探索。在 AntGather 上的實(shí)驗(yàn)表明,與非分層策略梯度法不同,所產(chǎn)生的分層控制器能夠移動 Ant 長距離以獲得獎勵。我們的自我博弈方法的一個限制是 D(距離函數(shù),用于決定是否自我博弈任務(wù)已經(jīng)成功完成)的選擇需要一些領(lǐng)域知識。”

 

HSP 方法結(jié)構(gòu)

無模型 HRL 中的學(xué)習(xí)表示

論文鏈接:https:///abs/1810.10096

“我們提出并實(shí)現(xiàn)了一種新的無模型方法,用于子目標(biāo)發(fā)現(xiàn),該方法利用增量無監(jiān)督學(xué)習(xí)在代理最近的經(jīng)驗(yàn)的小內(nèi)存上進(jìn)行。當(dāng)結(jié)合內(nèi)在動機(jī)學(xué)習(xí)機(jī)制時,該方法基于環(huán)境中的經(jīng)驗(yàn)一起學(xué)習(xí)子目標(biāo)和技能。因此,我們提供了一個原始的方法,不需要獲取環(huán)境模型,適用于大規(guī)模應(yīng)用。我們在大規(guī)模的 RL 問題上進(jìn)行了實(shí)驗(yàn),例如難度很大的雅達(dá)利 2600 蒙特蘇馬復(fù)仇游戲的一部分。”

 

從左到右:雅達(dá)利 2600 游戲蒙特蘇馬復(fù)仇的樣本截圖;控制器值函數(shù)的 CNN 結(jié)構(gòu);元控制器值函數(shù)的 CNN 結(jié)構(gòu);無監(jiān)督子目標(biāo)發(fā)現(xiàn)算法的結(jié)果

HRL 的未來

長期以來,認(rèn)知科學(xué)領(lǐng)域的研究人員認(rèn)為人類和動物行為是基于層次結(jié)構(gòu)的。當(dāng)然,現(xiàn)實(shí)世界和復(fù)雜環(huán)境必然需要我們采取一種轉(zhuǎn)變。這也是 HRL 主要吸引人的方面之一:使用技能來減少問題的搜索復(fù)雜性。

“停止學(xué)習(xí)任務(wù),開始學(xué)習(xí)技能。”——Satinder Singh,NeurIPS 2018

然而,根據(jù)所使用的框架,人工指定一個良好的層次結(jié)構(gòu)需要特定領(lǐng)域的知識和細(xì)致的工程技巧,激發(fā)自動學(xué)習(xí)技能的需要。本質(zhì)上,為了選擇適當(dāng)?shù)膶哟谓Y(jié)構(gòu)框架,需要知道域知識的可用程度(三者的組合也是可以想象的):

  • 如果行為是完全指定的:選項(xiàng)框架

  • 如果行為被部分指定:HAM 框架

  • 如果較少的域知識可用:MAXQ、學(xué)習(xí)選項(xiàng)框架

在下面的表中,列方向分別表示:

  • 時間抽象:允許表示在不同的時間尺度上發(fā)生的動作方案的知識。我們討論的是時間延長的動作。

  • 狀態(tài)抽象:當(dāng)子任務(wù)忽略環(huán)境狀態(tài)的某些方面時,它要求以終止語句的形式指定子任務(wù),而不是使用選項(xiàng)或部分策略方法。

  • “子任務(wù):程序員提供的固定策略”意味著給定一組選項(xiàng),系統(tǒng)通過這些選項(xiàng)學(xué)習(xí)策略。

  • “子任務(wù):非確定性有限狀態(tài)控制器”意味著給定部分策略的層次結(jié)構(gòu),系統(tǒng)學(xué)習(xí)整個問題的策略。

  • “子任務(wù):終止語句和局部獎勵函數(shù)”意味著給定一組子任務(wù),系統(tǒng)學(xué)習(xí)整個問題的策略。

  • 分層最優(yōu)策略是一種策略,它在給定層次結(jié)構(gòu)的所有可表達(dá)的策略中是最優(yōu)的。

  • 遞歸最優(yōu)策略是指每個 SMDP(半馬爾科夫決策過程)的策略最優(yōu),對應(yīng)于分解中的每個子任務(wù)。

從根本上講,HRL 的優(yōu)勢在于:通過解決擴(kuò)展問題而更快的學(xué)習(xí)、通過減少維數(shù)災(zāi)難解決大的狀態(tài) - 動作空間問題的強(qiáng)大能力、在不同的抽象狀態(tài)任務(wù)上使用子目標(biāo)和抽象的動作,使用多層次的時間抽象,更真實(shí)和更好的泛化能力,從之前的任務(wù)中遷移知識,這些似乎已經(jīng)觸手可及,但還沒有完全實(shí)現(xiàn)。

有很多很棒的想法和算法,但到目前為止還沒有產(chǎn)生很大的影響,或廣泛采用。坦率地說,RL 社區(qū)仍然存在合理的懷疑主義。一方面,例如通過更新層次代理的級別所產(chǎn)生的非平穩(wěn)性等挑戰(zhàn),需要在實(shí)現(xiàn)上做出更多的努力,還需要引入額外的超參數(shù)。另一方面,我們還遠(yuǎn)沒有達(dá)到合理的樣本效率,正如 Fruit 等人在論文《Regret Minimization in MDPs with Options without Prior Knowledge》中所指出的:在選項(xiàng)框架中,選項(xiàng)是原子相互獨(dú)立的宏動作。因此,我們失去了考慮選項(xiàng)之間的相互作用的潛在好處,而它可以顯著提高樣本效率。此外,如 OpenAI 博客文章中所述:“RL 研究者(包括我們自己)普遍認(rèn)為,長期的發(fā)展還需要本質(zhì)上的進(jìn)展,如分層強(qiáng)化學(xué)習(xí)。 我們的結(jié)果表明,我們沒有給予如今的算法合適的評價——至少在他們有足夠的規(guī)模和合理的探索方式的情況下。

除非 HRL 框架具有更強(qiáng)的用戶友好性和更好的技術(shù)規(guī)范,HRL 將不會成為 RL 問題的標(biāo)準(zhǔn)。

也就是說,這些缺陷是與 HRL 的主要研究方向一致的已知問題,包括但不限于:

  • 高階狀態(tài)遷移函數(shù)非平穩(wěn)性的更好管理

  • 自動學(xué)習(xí)層次結(jié)構(gòu)

  • 更有效的探索

  • 豐富稀疏獎賞環(huán)境下有效分解的信號

  • 提高穩(wěn)定性

我們已經(jīng)發(fā)現(xiàn)深度網(wǎng)絡(luò)中出現(xiàn)的分層結(jié)構(gòu)可應(yīng)用于感知任務(wù),如計算機(jī)視覺中的卷積神經(jīng)網(wǎng)絡(luò),但這些是感知層面上的分層。如果我們可以以同樣的方式在 RL 中構(gòu)建層次化的時間和行為系統(tǒng),這將像卷積神經(jīng)網(wǎng)絡(luò)一樣產(chǎn)生重大影響。目前仍有許多工作要做,并且還需要一個堅實(shí)的基礎(chǔ)。

我們能做什么?

如果你已經(jīng)看到現(xiàn)在,這意味著你對 HRL 有著不錯的興趣。這篇文章的目標(biāo)是概述主要的框架流,作為 HRL 后續(xù)貢獻(xiàn)的啟發(fā),(希望)增強(qiáng)你對該領(lǐng)域的興趣,并鼓勵大家在該主題上進(jìn)一步討論。

正如我們所看到的,選項(xiàng)框架和 MAXQ 分解都為算法設(shè)計者提供了強(qiáng)有力的工具來分解問題。如果你對這項(xiàng)研究感興趣,你可以選擇你認(rèn)為對你最有用的方法,或者你認(rèn)為從改進(jìn)中可獲益最大的方法。然后,你可以使用開源代碼(例如 HIRO、HAC、MLSH、HSP),在其基礎(chǔ)上打造新的思想,為基準(zhǔn)測試開發(fā)新的假設(shè),或者通過上面提到的許多工作中汲取靈感來自己實(shí)現(xiàn)一個系統(tǒng)。

從一個更普遍的觀點(diǎn)來看,如果不能正確地評價這些發(fā)展,就不能對其進(jìn)行量化,而且我認(rèn)為目前仍然缺乏有效的工具來評測 HRL 的進(jìn)展,甚至整個 RL 領(lǐng)域的進(jìn)展。幸運(yùn)的是,研究人員也在積極地研究這些問題。當(dāng)然,我們有責(zé)任意識到該領(lǐng)域固有的問題,這些問題不會表現(xiàn)出短期的困難,但會阻礙我們長期的進(jìn)步。我們有責(zé)任參與解決這些問題,以可復(fù)現(xiàn)的方式為領(lǐng)域進(jìn)步作出貢獻(xiàn)。


    本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點(diǎn)擊一鍵舉報。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多