|
雞友們,有福了。小雞接下來(lái)將為您帶來(lái)深度學(xué)習(xí)數(shù)學(xué)基礎(chǔ)系列課程,本文是第一講。 適合人群:0-3歲的機(jī)器學(xué)習(xí)工程師 課表: 深度學(xué)習(xí)數(shù)學(xué):講座1- 簡(jiǎn)介及深度網(wǎng)絡(luò)的普遍性 深度學(xué)習(xí)數(shù)學(xué):講座2 - 深度分離 深度學(xué)習(xí)數(shù)學(xué):講座3 - 深度分離+ 深度學(xué)習(xí)數(shù)學(xué):講座4 - PAC學(xué)習(xí)與深層網(wǎng)絡(luò) 深度學(xué)習(xí)數(shù)學(xué):講座5 - 隨機(jī)稀疏網(wǎng)絡(luò)等 深度學(xué)習(xí)數(shù)學(xué):講座6 - 簡(jiǎn)單分層模型 另外,我們也新建了深度學(xué)習(xí)課程微信群,想加入群組共同進(jìn)階的朋友請(qǐng)掃碼。 今天的課程里,主要是對(duì)深度學(xué)習(xí)大體的介紹;參考資料是Goodfellow, Bengio和Courville寫的Deep Learning。 做統(tǒng)計(jì)的時(shí)候,我們從“自然事件”或者分布函數(shù)f出發(fā);數(shù)據(jù)而在深度學(xué)習(xí)中,考慮一個(gè)函數(shù)集f(X; θ)。這里X是輸入數(shù)據(jù),θ是參數(shù)(高維)。目標(biāo)是找到一組參數(shù)θ*使得f(X; θ*)最接近f。 在我們的文章中,θ表示網(wǎng)絡(luò)。這個(gè)網(wǎng)絡(luò)是由d個(gè)函數(shù)的組合: 其中構(gòu)成向量函數(shù)。也是我們構(gòu)建的網(wǎng)絡(luò)的第i層。每一個(gè)都是一個(gè)關(guān)于的函數(shù)。在上面這個(gè)樹狀圖里,每個(gè)下面的分支數(shù)量都是一樣的,我們把這個(gè)叫做層寬。但是每層的層寬可以不一樣。我們講網(wǎng)絡(luò)的深度記為d。重要的,第d層也就是的層寬是1。有了以上這些,統(tǒng)計(jì)學(xué)的方法一般是做線性回歸。但是,如果我們假定了函數(shù)是線性的,那么由它們組合出來(lái)的函數(shù)f就也是線性的。這樣的話就削弱了把網(wǎng)絡(luò)構(gòu)建成多層的意義。因此我們期望是非線性的。一個(gè)一般的設(shè)計(jì)靈感是來(lái)自神經(jīng)科學(xué)。我們將輸入的信號(hào)表示為,輸出模型用=由非線性函數(shù)g這樣表示: 由這個(gè)例子啟發(fā),我們定義 這里表示一些函數(shù)g的坐標(biāo)應(yīng)用。如何選擇g呢?一般地,我們希望g是“極小線性”的,所以我們用到激活函數(shù)(Rectified Linear Units)。 函數(shù)g的其他選擇(由神經(jīng)科學(xué)和統(tǒng)計(jì)學(xué)啟發(fā))包括邏輯函數(shù)(Logistic function)
這些函數(shù)相比激活函數(shù)有有界的優(yōu)點(diǎn)。 如前面提到的,網(wǎng)絡(luò)最頂層與其他層都不同。首先它一般是一個(gè)標(biāo)量值。其次它通常有統(tǒng)計(jì)學(xué)解釋——一般被視為傳統(tǒng)的統(tǒng)計(jì)學(xué)模型,從而影響我們對(duì)頂層的函數(shù)g的選擇。舉例來(lái)說(shuō),若輸出是高斯分布的條件均值,我們選擇線性函數(shù);若輸出是伯努利試驗(yàn)概率概率,概率P(y)與exp(yz)成比例,且,那么我們選擇函數(shù),是西格瑪函數(shù)。一般地,我們選擇這樣的soft-max函數(shù):這里。z中的元素與輸出值相關(guān),取值i的概率為。(例如,一個(gè)輸入為照片的網(wǎng)絡(luò),輸出 為這張照片是貓,狗,青蛙的概率)。 2. 卷積神經(jīng)網(wǎng)絡(luò) 卷積神經(jīng)網(wǎng)絡(luò)在參考書GBC中第九章有講解。卷積神經(jīng)網(wǎng)絡(luò)是一種利用網(wǎng)格幾何,有線性算子,或稱卷積算子的網(wǎng)絡(luò)。例如,考慮一個(gè)第k層可以用如下m x m的網(wǎng)格表示的網(wǎng)絡(luò):
定義第k+1層的函數(shù)被下層的2x2的方格做卷積,并作用非線性函數(shù)g,即: 參數(shù),,和只取決于本層,而不是特定的方格i,j。這樣定義函數(shù)h使得這種參數(shù)共享的網(wǎng)絡(luò)具有一種有利的“稀薄”的優(yōu)點(diǎn)。卷積網(wǎng)絡(luò)的一個(gè)附加特點(diǎn)是“集中”,做完卷積并作用函數(shù)g后,我們得到一個(gè)“網(wǎng)格索引”函數(shù)(參考上面的式子),然后用相鄰值的平均值或最大值對(duì)這個(gè)函數(shù)做一個(gè)替換。例如: 這種手段也經(jīng)常用在降維中。 接下來(lái)我們要討論的問(wèn)題是,我們?nèi)绾螞Q定網(wǎng)絡(luò)中的參數(shù)。例如。如何選擇參數(shù)?如何判斷哪一個(gè)更優(yōu)?為此我們一般會(huì)利用統(tǒng)計(jì)學(xué)模型。參數(shù)會(huì)伴隨一個(gè)概率分布。我們希望取能使得最大的參數(shù)。同樣的,我們希望讓下式取到最小:
這里對(duì)數(shù)據(jù)取期望(像似然法一樣)。例如,如果模型y是一個(gè)平均值服從的高斯分布,協(xié)方差矩陣恒定,我們希望極小化誤差損失:
第二個(gè)例子,考慮一組依照概率為由伯努利分布取樣的樣本y,這里h是最后一層。換言之,P(y)是參數(shù)為的邏輯。 如何優(yōu)化J使得既保證準(zhǔn)確又能高效呢?我們不會(huì)在這門課講太多因?yàn)樯婕暗胶芏嗬碚?。?yōu)化難在1)維度太高,2) 數(shù)據(jù)太大,3)J是非凸的,4)參數(shù)太多(容易過(guò)擬合?。C鎸?duì)這個(gè)任務(wù),一個(gè)牛頓想出來(lái)的自然的逼近法誕生了:梯度下降!一個(gè)較為高效的梯度下降法是向后傳播。這是一種動(dòng)態(tài)偏微分的手段。 另一個(gè)我們不會(huì)討論的技術(shù)(但是學(xué)會(huì)這個(gè)技術(shù)你能在硅谷找到工作)是正則化(regularzation)。正則化能較正過(guò)擬合的問(wèn)題。關(guān)于過(guò)擬合有個(gè)笑話,John Von Neumann說(shuō)“用四個(gè)參數(shù)可以模擬一頭大象的話,那么用五個(gè)我就可以轉(zhuǎn)動(dòng)它的腿”。這個(gè)五個(gè)參數(shù)的梗今天看來(lái)可能很好笑,但是這個(gè)過(guò)擬合的問(wèn)題現(xiàn)在仍然存在!卷積網(wǎng)絡(luò)提供了一個(gè)參數(shù)共享情況下的過(guò)擬合的解決辦法:與其優(yōu)化,我們選擇優(yōu)化,這里是“復(fù)雜度”。就是說(shuō)描述了參數(shù)的“復(fù)雜性”或“龐大”。有些例子里是或的(有凸性的話選擇深度學(xué)習(xí)的課程里,有其他較正過(guò)擬合的辦法。一個(gè)是數(shù)據(jù)增強(qiáng)(data agumentation),利用已有的數(shù)據(jù)去產(chǎn)生更多的數(shù)據(jù)。例如輸入是照片的時(shí)候,用旋轉(zhuǎn)和增加陰影的方法去生成更多照片。(一個(gè)旋轉(zhuǎn)過(guò)的狗的照片它還是狗)。另一個(gè)是加噪,在數(shù)據(jù)(如拍完一張照片后把它涂掉)或者參數(shù)里加噪。 4.生成模型——深度Boltzmann模型 有很多深度學(xué)習(xí)經(jīng)常用到的概率模型。第一個(gè)是圖模型(graphical model)。圖模型是用圖來(lái)參數(shù)化的一組分布集,可能在邊緣上帶有參數(shù)。因?yàn)樯疃染W(wǎng)絡(luò)在邊緣上有參數(shù),我們可以很自然地看到是否可以講它表示成圖模型。一個(gè)深度Boltzmann機(jī)器是一個(gè)聯(lián)合分布如下的圖模型:
這里能量E表達(dá)如下:
通常來(lái)說(shuō),里層是實(shí)數(shù)向量,頂層和底層要么離散的要么是實(shí)數(shù)的。 為什么說(shuō)這個(gè)看起來(lái)是個(gè)圖——圖模型體現(xiàn)在哪?這里是說(shuō)一種特別的,所有頂點(diǎn)只跟最鄰近的上層和下層鏈接的二分圖。 馬爾可夫性質(zhì)講到,例如在h1條件下,v中的某一個(gè)元素的分布與h2,…,hd和v中其他元素都無(wú)關(guān)。若v是離散的則可以表示為:
但是不幸的是,一般來(lái)講我們不知道如何對(duì)一個(gè)圖模型采樣或者優(yōu)化,這樣就限制了它在深度學(xué)習(xí)的利用。 5. 深度信念網(wǎng)絡(luò) 深度信念網(wǎng)絡(luò)(Deep belief networks)計(jì)算更簡(jiǎn)單,只是定義有些麻煩。這個(gè)“雜交”網(wǎng)絡(luò)是一個(gè)d層有向圖。除了第一層和第二層無(wú)向:
大家可能注意到我們要做一些與之前的研究相悖的事情了。然而我們又如下的事實(shí):如果由(1)定義,那么它一定滿足(2). 注意到我們知道如何對(duì)底層按照上層條件取樣。但是為了參考,已知輸入的時(shí)候我們也需要輸出的條件分布。 最后要強(qiáng)調(diào)一點(diǎn),深度Boltzmann機(jī)器第k層依賴于第k-1和k+1層,在深度信念網(wǎng)絡(luò)里,第k層只依賴第k+1層,可以加快生成第k層的速度。 6. 課程計(jì)劃 第一個(gè)課題闡釋里網(wǎng)絡(luò)的表達(dá)能力:什么函數(shù)可以被網(wǎng)絡(luò)近似?我們要引用的文獻(xiàn)有: · “Approximations by superpositions of sigmoidal functions” by Cybenko (89). · “Approximation capabilities of multilayer feedforward networks” by Hornik (91). · “Representation Benefits of Deep Forward Networks” by Telgarsky (15). · “Depth Separation in Relu Networks” by Safran and Shamir (16) · “On the Expressive Power of Deep Learning: A Tensor Analysis” by Cohen, Or, Shashua (15). 前兩篇論文我們稍后就會(huì)討論,它們告訴大家你可以用簡(jiǎn)單的一層網(wǎng)絡(luò)去表達(dá)任何事情。如果你想中途放棄這門課的話我建議你學(xué)完這兩篇論文再放棄。其他幾篇論文,是對(duì)單層網(wǎng)絡(luò)的拓展和具體化。 · “On the computational efficiency of training Neural Networks” by Livni, Shalev Schwartz and Shamir (14). · “Complexity Theory Limitation for learning DNFs” by Danieli and Shalev-Schwartz (16). · “Distribution Specific Hardness of learning Neural Networks” by Shamir (16). 還要用到編程方面的文獻(xiàn): · “Guaranteed Training of Neural Networks using Tensor Methods” by Janzamin, Sedghi and Anandkumar (16). · “Train faster, generalize better” by Hardt, Recht and Singer. · “Provable Bounds for Learning Some Deep Representations” by Arora et. al (2014). · “Deep Learning and Generative Hierarchal models” by Mossel (2016). 定理.[Cybenko (89)]令 為一個(gè)單調(diào)連續(xù)的函數(shù),有極限和。(例如)。那么函數(shù)集上就是緊致的。在上述定理中,模為的時(shí)候,是從到取值的連續(xù)方程空間。定理.[Hornik(91)]考慮上述定理中定義的函數(shù)集,但是不包括上面對(duì)的定義。-如果有界而且不是常數(shù),那么這個(gè)集在上是緊致的,其中是上的有限測(cè)度。-在上述條件下,如果是連續(xù)的,那么這個(gè)集在上是緊致的,這個(gè)空間是所有在X上的連續(xù)函數(shù),是完備的。-在上述條件下,如果,那么這個(gè)集在上是緊致的,而且在也是緊致的,這里是上所有的有限測(cè)度。在上述定理中,空間是所有滿足的函數(shù)f空間,其中模定義為。要證明這個(gè)定理需要一些泛函分析的知識(shí)。定理.[Hahn-Banach Extension Theorem]如果V是一個(gè)模向量空間,它又一個(gè)線性子空間U并且,那么存在一個(gè)連續(xù)線性映射,滿足對(duì)于所有,有。為什么這個(gè)定理對(duì)于本課很重要呢?我們對(duì)Cybenko和Hornik’s的證明要用到Hahn-Banach extension 定理。我們考慮子空間U,定義它為。然后我們反證,假設(shè)不是完整的函數(shù)空間??梢钥偨Y(jié)出在我們的函數(shù)空間里存在一個(gè)線性連續(xù)映射L,在上限制到0但不為0。換言之,為了證明想要的結(jié)果,必要的是證明U上的線性映射L映射到0的話那么它一定是一個(gè)零映射。然后,在泛函分析里一個(gè)在上連續(xù)的線性函數(shù)L可以表示為這里,且。在C(X)上一個(gè)線性連續(xù)函數(shù)L可以表達(dá)為這里是一個(gè)有在X上支撐的限符號(hào)測(cè)度(finite signed measure)。我們可以在Cybenko和Hornik中其他空間的線性方程發(fā)現(xiàn)相似的表達(dá)。在開始一般的證明之前,考慮一個(gè)(簡(jiǎn)單的)例子,函數(shù)空間為,并且 。若對(duì)于定理定義的集合中所有f有,那么跟L關(guān)聯(lián)的函數(shù)一定是0嗎?換句話就是說(shuō),我們從是有限的,g一定是0,如我們期望的。由此啟發(fā),我們現(xiàn)在考慮一個(gè)一般的證明Cybenko定理的情況。有 意味著。首先我們從一維的楷書考慮,用傅立葉分析的技巧:定義測(cè)度 ,我們可以觀察到。并且,如果我們有對(duì)于所有a有,那么(因?yàn)?/span>)。(注意到這里我們用到了的有限性)。在一維的條件下,我們還用到了另一個(gè)小技巧——卷積。對(duì)用一個(gè)小的高斯分布進(jìn)行卷積,我們得到一個(gè)含有密度的測(cè)度Lebesgue測(cè)度。運(yùn)用卷積之后我們有 我們希望h=0。做變量代換,可以重寫(3)為 為了說(shuō)明h=0,用以下抽象傅立葉分析工具。令I(lǐng)為所有構(gòu)成的線性空間的閉包。因?yàn)镮在我們的函數(shù)轉(zhuǎn)換下是不變的,有在卷積下它是不變的。在抽象傅立葉分析中,I對(duì)于卷積是理想的。令Z(I)為所有的集合,是所有在I上消失(Vanish)的函數(shù)集。那么Z(I)就是或,因?yàn)槿绻鹓(t)是理想的那么對(duì)于,g(tw)也是理想的。如果那么所有所有理想函數(shù)就必須都是常數(shù)0. 另外若,通過(guò)傅立葉分析,I就是所有滿足的函數(shù)的集合。例如,所有非常數(shù)函數(shù)。但是如果是關(guān)于所有非常數(shù)函數(shù)正交的,那么=0。由以上可歸納出。證明完畢。
|
|
|
來(lái)自: timtxu > 《時(shí)尚科技》