电竞比分网-中国电竞赛事及体育赛事平台

分享

從2019 AI頂會(huì)最佳論文,看深度學(xué)習(xí)的理論基礎(chǔ)

 taotao_2016 2020-01-27

機(jī)器之心原創(chuàng)

作者:思源

如同物理大時(shí)代尋求統(tǒng)一的量子力學(xué),深度學(xué)習(xí)也許也需要一個(gè)統(tǒng)一的理論框架。
如果能有一種理論告訴我們什么樣的模型架構(gòu)、運(yùn)算方式能最好地表示某種數(shù)據(jù),什么樣的損失函數(shù)、迭代方式能最高效地學(xué)習(xí)到某種能力,什么樣的設(shè)置又使這種能力能處理各種意外情況。那么,這樣的深度學(xué)習(xí),乃至機(jī)器學(xué)習(xí),才是理論基礎(chǔ)圓潤的大學(xué)科。

令人驚喜的是,我們可以看到近來很多前沿研究都越來越系統(tǒng),越來越有洞見。最明顯的是近年舉行的 AI 頂會(huì),我們可以看到很多獲獎(jiǎng)?wù)撐亩紘L試從更基礎(chǔ)、更深刻的角度為 DL 打下地基。本文將從 2019 年人工智能頂會(huì)的獲獎(jiǎng)?wù)撐某霭l(fā),為你介紹深度學(xué)習(xí)的理論基礎(chǔ)到底是什么樣的,當(dāng)前又有哪些新發(fā)現(xiàn)。


數(shù)學(xué)基礎(chǔ) ≠ 理論基礎(chǔ)

在入門深度學(xué)習(xí)的過程中,我們經(jīng)常會(huì)聽到各種數(shù)學(xué)名詞,線性代數(shù)和矩陣微分、概率論與隨機(jī)過程,似乎要想理解各種模型,首先必須理解這些數(shù)學(xué)概念。那么這些數(shù)學(xué)描述不正是深度學(xué)習(xí)的「理論基礎(chǔ)」嗎?

這里我們需要明確的是,數(shù)學(xué)是一種語言、一種工具,使用它描述深度學(xué)習(xí)并不一定等于構(gòu)建 DL 的理論基礎(chǔ)。這是一種數(shù)學(xué)基礎(chǔ),而不是整理領(lǐng)域的理論基礎(chǔ)。很多深度模型確實(shí)都是從數(shù)學(xué)推導(dǎo)出發(fā),然后得出某些很好的性質(zhì),但這只能說明模型是有理論保證的,它們并不能組成深度學(xué)習(xí)的理論基礎(chǔ)。

比如說圖卷積網(wǎng)絡(luò)或變分自編碼器,它們最開始都是從數(shù)學(xué)的角度推導(dǎo)某些性質(zhì),后來才根據(jù)這樣的性質(zhì)構(gòu)建整個(gè)模型。我們可以說這些模型的理論基礎(chǔ)非常堅(jiān)實(shí),如果我們需要理解它們,同樣也需要對(duì)應(yīng)的數(shù)學(xué)基礎(chǔ)。此外,在實(shí)際建模時(shí),我們并不一定完全遵循理論推導(dǎo),可以稍微修改以獲得更強(qiáng)的計(jì)算效果。


在深度學(xué)習(xí)中,有很多模型的數(shù)學(xué)推導(dǎo)都非常優(yōu)美。也有很多模型從實(shí)驗(yàn)與直觀概念出發(fā),描述整個(gè)學(xué)習(xí)過程的數(shù)學(xué)表達(dá)。它們都非常重要,但并不能解決深度學(xué)習(xí)最基本的疑問:為什么深度模型能夠高效學(xué)習(xí)?為什么深度模型要比淺層模型的性質(zhì)好?為什么深度學(xué)習(xí)泛化性也不錯(cuò)?

就像上個(gè)世紀(jì)初發(fā)現(xiàn)各種量子現(xiàn)象與解釋,物理大時(shí)代艱難地尋求統(tǒng)一的「量子力學(xué)」。現(xiàn)在深度學(xué)習(xí)也有各種非常高效的模型,各種驚艷的結(jié)構(gòu),我們也許也需要一種統(tǒng)一的底層理論框架。

DL 的理論基礎(chǔ)知多少

談到深度學(xué)習(xí)的理論基礎(chǔ),可能讀者首先想到的就是通用近似定理(Universal approximation theorem),其表示擁有無限神經(jīng)元的單層前饋網(wǎng)絡(luò)能逼近緊致實(shí)數(shù)子集上的任意連續(xù)函數(shù)。通俗來說,只要神經(jīng)元足夠多,單層前饋神經(jīng)網(wǎng)絡(luò)「有潛力」逼近任意復(fù)雜的連續(xù)函數(shù)。

在 1989 年提出通用近似定理以來,至少我們有了最基本的一個(gè)理論基礎(chǔ),即神經(jīng)網(wǎng)絡(luò)有潛力解決各種復(fù)雜的現(xiàn)實(shí)問題。

MIT 教授 Tomaso Poggio 曾在他的系列研究中 [1] 表示深度學(xué)習(xí)理論研究可以分為三大類:

  • 表征問題(Representation):為什么深層網(wǎng)絡(luò)比淺層網(wǎng)絡(luò)的表達(dá)能力更好?

  • 最優(yōu)化問題(Optimization):為什么梯度下降能找到很好的極小值解,好的極小值有什么特點(diǎn)?

  • 泛化問題(Generalization):為什么過參數(shù)化仍然能擁有比較好的泛化性,不過擬合?


對(duì)于表征問題,我們想要知道深度神經(jīng)網(wǎng)絡(luò)這種「復(fù)合函數(shù)」,它的表達(dá)能力到底怎么確定,它的復(fù)合機(jī)制又是什么樣的。我們不再滿足于「能擬合任意函數(shù)」這樣的定性描述,我們希望知道是不是有一種方法能描述 50 層 ResNet、12 層 Transformer 的擬合能力,能不能清楚地了解它們的理論性質(zhì)與過程。

有了表征能力,那也只是具備了擬合潛力,深度學(xué)習(xí)還需要找到一組足夠好的極值點(diǎn),這就是模型的最優(yōu)解。不同神經(jīng)網(wǎng)絡(luò)的「最優(yōu)化 Landscape」是什么樣的、怎樣才能找到這種高維復(fù)雜函數(shù)的優(yōu)秀極值點(diǎn)、極值點(diǎn)的各種屬性都需要完善的理論支持。

最后就是泛化了,深度模型泛化到未知樣本的能力直接決定了它的價(jià)值。那么深度模型的泛化邊界該怎樣確定、什么樣的極值點(diǎn)又有更好的泛化性能,很多重要的特性都等我們確定一套理論基準(zhǔn)。

總而言之,談到深度學(xué)習(xí)理論基礎(chǔ),我們總是少不了聽到這些關(guān)鍵詞:


19 年頂會(huì)關(guān)于理論的研究

在 2019 年中,我們會(huì)看到人工智能頂會(huì)選了很多理論性研究作為最佳或杰出論文。它們并不一定是在架構(gòu)或算法上做出新的貢獻(xiàn),相反,它們很多都希望從數(shù)學(xué)及理論的角度理解深度學(xué)習(xí),理解它的行為與邊界。正因?yàn)轫敿庋芯砍晒虻讓?,所以我們?huì)發(fā)現(xiàn)它們的閱讀難度越來越高。

我們查閱了 2019 年 AI 頂會(huì)論文的獲獎(jiǎng)情況,這里我們確定「頂會(huì)」主要是根據(jù) CCF 推薦的 A 類會(huì)議(人工智能領(lǐng)域),再加上 CCF 沒有收錄的 ICLR。我們將獲獎(jiǎng)?wù)撐姆譃槠P退惴ㄅc偏理論研究兩部分,其中理論研究可能是關(guān)于深度學(xué)習(xí)的理論研究,也可能是模型算法的理論理解。

統(tǒng)計(jì)數(shù)據(jù)可見附錄A:https://www./articles/2020-01-01-20。

一般偏算法或模型的論文,閱讀起來還是非常友好的,論文會(huì)介紹直觀想法、形式化過程及最終結(jié)果。但偏理論的論文會(huì)要求很多領(lǐng)域知識(shí),尤其是堅(jiān)實(shí)的數(shù)學(xué)基礎(chǔ)。文章后面會(huì)具體介紹幾項(xiàng)代表性研究,但現(xiàn)在,我們還是先看看整體都是什么樣的。

深度學(xué)習(xí)的理論基礎(chǔ)

DL 的理論基礎(chǔ)其實(shí)還是比較窄的領(lǐng)域,表征、最優(yōu)化和泛化三大問題也是最重要與基礎(chǔ)的方向。在今年的頂會(huì)論文中,NeurIPS 2019 的新方向杰出論文[2]就特別關(guān)注深度學(xué)習(xí)的泛化問題。

從理論上來說,目前深度學(xué)習(xí)大多都根據(jù)一致性收斂推導(dǎo)出泛化上界,但 CMU 的研究者表示,這種泛化邊界是有問題的。研究者通過一系列實(shí)驗(yàn)與理論分析,證明不論一致性收斂邊界如何精煉,它都不能被證明可解釋泛化性。因此由一致性收斂推出的一大族泛化邊界都是有問題的。

在 ICLR 2019 最佳論文 [3] 中,MIT 的研究者提出的 Lottery Ticket Hypothesis 非常有意思,它表示如果某些參數(shù)在模型中很重要,那么開始訓(xùn)練之前就是重要的。換而言之,神經(jīng)網(wǎng)絡(luò)初始化后就有個(gè)子網(wǎng)絡(luò),訓(xùn)練這個(gè)子網(wǎng)絡(luò)能獲得整個(gè)網(wǎng)絡(luò)相近的性能,這樣的子結(jié)構(gòu)可以稱為 winning tickets。這種特殊子結(jié)構(gòu),同樣展示了神經(jīng)網(wǎng)絡(luò)表征能力的新特性。

除此之外,收斂性分析也有新發(fā)現(xiàn),ICML 最佳論文 [4] 就分析了變分高斯過程的收斂率,并提出了計(jì)算更便捷的方式。


模型的理論性理解

在理論基礎(chǔ)之外,有更多的偏理論研究關(guān)注從理論上理解模型算法,并借此提出新的方案。最顯著的是 NeurIPS 2018 年最佳論文 ODENet [5],它將殘差網(wǎng)絡(luò)理解為常微分方程,從而擁有新的解決思路。在 2019 年的頂會(huì)獲獎(jiǎng)?wù)撐闹?,即使偏算法類研究成果,也?huì)有一些理論性理解,只不過本文關(guān)注理論成分更多的研究。

首先 AAAI 最佳論文 [6] 從迭代算法的角度出發(fā)解信息不完美博弈,從而進(jìn)一步構(gòu)建更強(qiáng)的智能體。這種將復(fù)雜游戲抽象為簡(jiǎn)單博弈問題,并從博弈論的角度出發(fā)構(gòu)建新算法,具有很優(yōu)秀的理論屬性。

在 NeurIPS 2019 的杰出論文 [7] 中,CMU 的研究者從理論上分析了大型損失函數(shù)族,探討 GAN 的損失函數(shù)到底怎么樣。同樣在 ACL 2019 的杰出論文 [8] 中,研究者認(rèn)為建立自動(dòng)文本摘要的理論模型能加深我們對(duì)任務(wù)的理解,也有助于改進(jìn)文本摘要系統(tǒng)。為此,港科大等研究者對(duì)文本摘要的一些概念進(jìn)行了嚴(yán)格定義,并提出了理論性建??蚣?。

所有這些頂尖研究成果,都離不開理論的支持,下面我們從理論基礎(chǔ)與理論理解,具體介紹新研究都是什么樣的。

有問題的泛化性

什么樣的模型泛化性比較好?難道測(cè)試集上表現(xiàn)好的模型泛化能力真的好嗎?

之前很多模型采用在測(cè)試集上的誤差作為泛化誤差,先不管到底有沒有「偷窺」測(cè)試數(shù)據(jù),這種誤差也只是一種經(jīng)驗(yàn)性的指標(biāo)。深度學(xué)習(xí)需要從理論上對(duì)學(xué)習(xí)方法的泛化能力進(jìn)行分析。我們先看看泛化誤差的定義是什么樣的:


其實(shí)上面的表達(dá)式并不復(fù)雜,它描述的是,泛化誤差應(yīng)該是模型在所有未知數(shù)據(jù)上的「平均」預(yù)測(cè)誤差,即所有誤差的數(shù)學(xué)期望。注意,我們是無法獲取「所有未知數(shù)據(jù)」的,因此這只是一個(gè)定義。

走向衰落的傳統(tǒng)泛化理論

之前的理論研究,主要靠分析泛化誤差的概率上界來進(jìn)行,也就是我們常聽到的泛化誤差上界。傳統(tǒng)機(jī)器學(xué)習(xí)會(huì)認(rèn)為,泛化誤差上界是樣本容量的函數(shù),當(dāng)樣本數(shù)增加時(shí),泛化誤差上界趨向于 0;同時(shí),泛化誤差上界也是模型能力的函數(shù),模型能力越強(qiáng),它就越難學(xué)習(xí),泛化誤差上界就越大。

例如大名鼎鼎的傳統(tǒng)理論 VC 維,它通過考慮模型函數(shù)族的一致性收斂邊界,來探討函數(shù)族的表達(dá)能力有多強(qiáng)。在 NeurIPS 2019 新方向杰出論文中,研究者表示這種考慮一致性收斂邊界的方法,是行不通的。傳統(tǒng)泛化誤差大致可以表示為如下:


我們認(rèn)為,測(cè)試誤差不能超過訓(xùn)練誤差再加上某個(gè)邊界。這個(gè)邊界隨著訓(xùn)練集的增加而減少,隨著模型參數(shù)量(depth×width)的增加而增加。

但問題在于,傳統(tǒng)泛化誤差上界并沒有考慮深度神經(jīng)網(wǎng)絡(luò)「過參數(shù)化」這一神奇的現(xiàn)象。并不是說所有參數(shù)對(duì)最終的預(yù)測(cè)是起作用的,深度模型存在著大量冗余參數(shù)。因此 depth×width 并不能正確描述深度模型的學(xué)習(xí)難度,過參數(shù)化會(huì)讓學(xué)習(xí)變得更簡(jiǎn)單。

現(xiàn)代泛化理論的革新之路

既然傳統(tǒng)泛化理論已經(jīng)不行了,深度學(xué)習(xí)研究者也就開始探索新的出路。近來的研究者在思考:「我們能不能確定底層的數(shù)據(jù)分布、算法如何共同約束深度神經(jīng)網(wǎng)絡(luò),從而構(gòu)建成一種『簡(jiǎn)單的』函數(shù)族。」因此,通過范數(shù)約束函數(shù)族,也許我們可以將一致性收斂應(yīng)用到更簡(jiǎn)潔與準(zhǔn)確的邊界:


這一類方法看上去非常不同,但本質(zhì)上仍是一致性收斂的不同表示。在 CMU 的這篇論文中,他們發(fā)現(xiàn),一致性收斂邊界實(shí)際上并不能全面解釋深度學(xué)習(xí)的泛化問題,我們應(yīng)該在一致性收斂之上來討論泛化邊界。

一致性收斂到底有什么問題?

首先我們需要確定,機(jī)器學(xué)習(xí)中的一致收斂性,簡(jiǎn)單來說就是回答「為什么降低訓(xùn)練損失能降低測(cè)試損失」這個(gè)問題。如果函數(shù)族的經(jīng)驗(yàn)風(fēng)險(xiǎn)能與總體風(fēng)險(xiǎn)一致地收斂,那么這個(gè)問題就是可以學(xué)習(xí)的。

論文 [2] 一作 Vaishnavh Nagarajan 說:「之前的研究大多數(shù)都基于一致性收斂考慮泛化邊界,但我們的研究表明這類問題很可能是局限的?!鼓壳?Rademacher Complexity、Covering Numbers 和 PAC-Bayes 等眾多前沿泛化邊界分析都可能存在問題。


Vaishnavh 表示一致性收斂邊界會(huì)隨著參數(shù)量的增長而增大,因此這樣的邊界對(duì)于深度網(wǎng)絡(luò)來說太大了,而且行為也不像真實(shí)泛化邊界。但也有可能一致性收斂邊界會(huì)非常緊致,只不過它并不是原始神經(jīng)網(wǎng)絡(luò)的邊界,很可能是通過模型壓縮等技術(shù)精煉的新邊界。

為了進(jìn)一步了解為什么一致收斂性不能提供堅(jiān)實(shí)的理論基礎(chǔ),研究者做了很多實(shí)驗(yàn)與推導(dǎo),并最終發(fā)現(xiàn)主要問題體現(xiàn)在兩方面。

首先,泛化邊界竟然隨著訓(xùn)練集的增長而增長,這是非常有問題的。因?yàn)榘凑瘴覀兊闹庇^理解,當(dāng)數(shù)據(jù)集無窮大時(shí),訓(xùn)練誤差和測(cè)試誤差之間差距應(yīng)該減少到零。Vaishnavh 說:「即使我們觀察到隨著數(shù)據(jù)集的增加,測(cè)試誤差是正常減少的,但泛化邊界卻反常地?cái)U(kuò)大。


之所以出現(xiàn)這樣的問題,在于之前我們通過參數(shù)量來度量模型的復(fù)雜度,后來修正方法也是通過權(quán)重范數(shù)來度量復(fù)雜度。但問題在于,權(quán)重范數(shù)會(huì)隨著數(shù)據(jù)集的增加而顯著增加,并抵消分母數(shù)據(jù)集的增長速度。「參數(shù)依賴性只是泛化問題的一部分,我們同樣要特別關(guān)注數(shù)據(jù)集的依賴性」,Vaishnavh 說。

其次對(duì)于第二個(gè)問題,研究者們調(diào)查了所有泛化邊界的理論分析,并表示任何一致性收斂邊界,不論它們的推導(dǎo)與應(yīng)用如何嚴(yán)格,它們都不能解釋 SGD 訓(xùn)練的神經(jīng)網(wǎng)絡(luò)泛化性問題。正如 Vaishnavh 所說,在深度學(xué)習(xí)中,不論一致性收斂邊界如何精煉,它都不能被證明可解釋泛化性。


正如上式所示,即使再精煉,一致性收斂邊界可能推導(dǎo)出約等于 1,但真實(shí)的泛化差距可能接近于 0。這樣的結(jié)果是非常虛的,它并起不到什么作用。


Vaishnavh 最后表示,在過參數(shù)化的深度學(xué)習(xí)中,決策邊界是異常復(fù)雜的。如上所示,決策邊界在每一個(gè)訓(xùn)練數(shù)據(jù)點(diǎn)上都可能有一些小的彎曲,這種邊界會(huì)影響一致性收斂,但并不影響泛化性。因此,也許我們需要數(shù)學(xué)工具來描述深度神經(jīng)網(wǎng)絡(luò)復(fù)雜的決策邊界,需要在一致性收斂之上的一些理論來討論深度學(xué)習(xí)。

有些參數(shù)生而不平等

深度學(xué)習(xí)存在很強(qiáng)的過參數(shù)化現(xiàn)象,其參數(shù)量遠(yuǎn)遠(yuǎn)超過了數(shù)據(jù)量。而且重要的一點(diǎn)是,并不是所有參數(shù)都是平等的,有的參數(shù)根本不重要,刪掉它們也不會(huì)有影響。那么為什么會(huì)有權(quán)重剪枝這些模型壓縮方法呢,在 ICLR 2019 最佳論文 [3] 中,MIT 的研究者從底層機(jī)制做出理論假設(shè),并通過實(shí)驗(yàn)驗(yàn)證這樣的假設(shè)。


上面表達(dá)的是,如果神經(jīng)網(wǎng)絡(luò)完成了隨機(jī)初始化,那么它就包含了一個(gè)子網(wǎng)絡(luò)。該子網(wǎng)絡(luò)從頭開始訓(xùn)練相同的迭代次數(shù),就能獲得與整體網(wǎng)絡(luò)相媲美的效果。這樣的假設(shè)似乎是反直覺的,因?yàn)槲覀円恢庇幸粋€(gè)概念「剪枝后的子網(wǎng)絡(luò)從頭學(xué)習(xí)肯定效果要差于整體網(wǎng)絡(luò)」。

但研究者提出這樣的新假設(shè),認(rèn)為只要完成初始化,有效的子結(jié)構(gòu),也就是「winning tickets」也就確定了。要想確定這樣的假設(shè)到底真不正確,當(dāng)然還是需要實(shí)驗(yàn)。

實(shí)驗(yàn)做起來

因?yàn)槟P图糁μ焐蜆?gòu)建了一個(gè)子網(wǎng)絡(luò),因此研究者首先驗(yàn)證了這種子網(wǎng)絡(luò)是不是有效子結(jié)構(gòu)。研究者發(fā)現(xiàn),固定這樣的子網(wǎng)絡(luò)不變,并重新初始化權(quán)重,這樣訓(xùn)練出來的結(jié)果并不能匹配之前的效果。因此,這也證明了初始化對(duì)有效子結(jié)構(gòu)的影響。

假設(shè)神經(jīng)網(wǎng)絡(luò)存在這樣的子結(jié)構(gòu),那么我們通過四步就能找到它。其核心思想是,既然常規(guī)的模型剪枝能在刪除大量權(quán)重的情況下保持準(zhǔn)確率基本不變,那么在那種初始化條件下,它就是有效子結(jié)構(gòu)。如果我們保存之前初始化的結(jié)果,并采用剪枝后的子結(jié)構(gòu),那么是不是就能訓(xùn)練達(dá)到很好的效果?

具體而言,對(duì)于神經(jīng)網(wǎng)絡(luò) f(x; θ),θ 為初始化的權(quán)重。經(jīng)過訓(xùn)練并剪枝后,我們重新賦予子結(jié)構(gòu)之前的初始化權(quán)重,這可以表示為 f(x; m⊙θ)。其中 m 的維度與θ相等,且每一個(gè)元素要么是 0 要么是 1,f(x; m⊙θ) 就代表著經(jīng)過正確初始化的子網(wǎng)絡(luò)。現(xiàn)在實(shí)驗(yàn)分為四大步:

  • 隨機(jī)初始化神經(jīng)網(wǎng)絡(luò) f(x; θ_0),其中θ_0 服從于某個(gè)分布 D_0;

  • 迭代訓(xùn)練網(wǎng)絡(luò) j 次,并獲得最優(yōu)參數(shù)θ_j;

  • 剪裁掉θ_j 中的 p% 的參數(shù),從而獲得 Mask m;

  • 恢復(fù)初始參數(shù)θ_0,并創(chuàng)建有效子結(jié)構(gòu) f(x; m⊙θ_0)。


通過種實(shí)驗(yàn)方式,研究者在 MNIST 中找到了全連接網(wǎng)絡(luò)的「winning tickets」,在 CIFAR-10 中找到了卷積網(wǎng)絡(luò)的「winning tickets」。這些子網(wǎng)絡(luò)只有原網(wǎng)絡(luò) 10-20% 的參數(shù)量,但重新訓(xùn)練能獲得相近的效果。

VGG-19 在 CIFAR-10 上的測(cè)試效果,從左到右分別是迭代 30K、60K、112K 的結(jié)果。選自:arXiv:1803.03635。

如上圖所示為橫軸表示保留的權(quán)重,數(shù)軸表示準(zhǔn)確度,圖例展示的是學(xué)習(xí)率。每一種顏色的實(shí)線表示采用「有效初始化」的子網(wǎng)絡(luò),而虛線表示隨機(jī)初始化。通過綠色實(shí)線、綠色虛線以及藍(lán)色實(shí)線,我們可以明確地看出來研究者找到了「winning tickets」。

研究者表示,這一系列實(shí)驗(yàn)都證明了神經(jīng)網(wǎng)絡(luò)確實(shí)存在高效的子結(jié)構(gòu),它雖然只是一個(gè)假設(shè),但對(duì)于進(jìn)一步的理論研究非常有幫助,尤其是關(guān)于最優(yōu)化與泛化性的理論研究。

硬核的損失函數(shù)分析

如果你認(rèn)為上面那種理論理解在數(shù)學(xué)上不夠優(yōu)美,那么頂會(huì)獲獎(jiǎng)?wù)撐倪€有一系列嚴(yán)格的數(shù)學(xué)論證。在 NeurIPS 2019 中,有一篇獲獎(jiǎng)?wù)撐?/span> [7] 分析了名為 Besov IPM 的損失函數(shù)族,該函數(shù)族包括 L_p 范數(shù)距離、總變分距離、Wasserstein 距離、Kolmogorov-Smirnov 距離等眾多損失函數(shù)。

對(duì)于這么一大幫損失函數(shù),研究者分析了它們的上下界,明確了損失函數(shù)的選擇以及數(shù)據(jù)假設(shè)的相互作用,它們?nèi)绾螞Q定極小極大過程的最優(yōu)收斂率。

對(duì)于 GAN 來說,如果生成器與判別器函數(shù)分別表示為 F 與 P,那么整個(gè) GAN 就可以視為概率分布估計(jì):


如上表達(dá)式描述的是,GAN 的這種概率分布估計(jì),可以針對(duì)經(jīng)驗(yàn)分布 P_n tilde 直接最小化經(jīng)驗(yàn) IPM 風(fēng)險(xiǎn)。經(jīng)過一系列復(fù)雜的數(shù)學(xué)分析,研究者得出了三個(gè)主要結(jié)論:

1. 證明了 IPM 損失函數(shù)下分布估計(jì)的極小極大收斂率,其下界與上界都是什么樣的(定理 4 與定理 5)。對(duì)于 IPM 損失函數(shù)來說,生成分布與判別分布

都屬于 Besov 空間。研究者的收斂上界主要通過 Donoho[9] 等研究者提出的 wavelet-thresholding 估計(jì)器得出,結(jié)果顯示最優(yōu)收斂率比之前了解的損失范圍要更廣。體而言,如果 M(F, P) 表示極小極大風(fēng)險(xiǎn),那么對(duì)于有:

2. 定理 7 表明,對(duì)于 p』_d ≥ p_g 和 σ_g ≥ D/p_g,在「線性估計(jì)器」這一大類概率分布估計(jì)器中,沒有估計(jì)器的收斂率快于:


這種「線性估計(jì)器」包括經(jīng)驗(yàn)分布、核密度估計(jì)和最近提出來的正交系列估計(jì)器。上面表達(dá)式描述的下界表明,在很多情況下,線性估計(jì)器都只能實(shí)現(xiàn)次優(yōu)收斂率。

3. 經(jīng)過正則化后,GAN 可以通過有限大小的生成器與判別器實(shí)現(xiàn)極小極大收斂率。作為分離 GAN 與其它非參工具的首批理論結(jié)果,它可能可以幫助解釋為什么 GAN 在高維數(shù)據(jù)上能獲得這么大的成功。

最后,不論是深度學(xué)習(xí)真正的理論基礎(chǔ),還是從理論出發(fā)構(gòu)建新方法、新模型,至少在 2019 年的 AI 頂會(huì)中,我們很高興能看到各種前沿研究都在拜托「啟發(fā)式」的新發(fā)現(xiàn),反而更系統(tǒng)地關(guān)注它們的立足基礎(chǔ)。也許這些新發(fā)現(xiàn),最終能帶領(lǐng)我們構(gòu)建一個(gè)系統(tǒng)的領(lǐng)域、一個(gè)成熟的學(xué)科。

參考文獻(xiàn):

[1]Theoretical Issues in Deep Networks: Approximation, Optimization and Generalization, arXiv:1908.09375
[2]Uniform convergence may be unable to explain generalization in deep learning, arXiv:1902.04742
[3]The Lottery Ticket Hypothesis: Finding Sparse, Trainable Neural Networks, arXiv:1803.03635
[4]Rates of Convergence for Sparse Variational Gaussian Process Regression, arXiv:1903.03571
[5]Neural Ordinary Differential Equations, arXiv:1806.07366
[6]Solving Imperfect-Information Games via Discounted Regret Minimization, arXiv:1809.04040
[7]Nonparametric density estimation & convergence of GANs under Besov IPM losses, arXiv:1902.03511
[8]A Simple Theoretical Model of Importance for Summarization, arXiv:1801.08991
[9]Density estimation by wavelet thresholding, David L Donoho et al.

本文為機(jī)器之心原創(chuàng),轉(zhuǎn)載請(qǐng)聯(lián)系本公眾號(hào)獲得授權(quán)

?------------------------------------------------

加入機(jī)器之心(全職記者 / 實(shí)習(xí)生):hr@

投稿或?qū)で髨?bào)道:content@

廣告 & 商務(wù)合作:bd@

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類似文章 更多