电竞比分网-中国电竞赛事及体育赛事平台

分享

2024阿里巴巴全球數(shù)學競賽決賽中的深度學習背景題解析(一)——應用與計算數(shù)學部分第2題

 MatheMagician 2025-02-07 發(fā)布于廣東


時間過去大半年,姜萍事件就如同冷暴力一般,云淡風輕地飄過,不留下一絲痕跡。既然無力改變,那就隨他去吧。但當時我一直念念不忘的,還有當時決賽中出現(xiàn)的2道深度學習背景的證明題,可謂是和我日常的算法煉丹工作背景出奇地契合,而這種理論層面的一點窺探,也能滿足一點對平靜的工作內(nèi)容神圣的想象。

當然以我現(xiàn)在的水平,花大把時間精力獨立解出此題已是奢侈和困難,在參考了眾多資料后,得一解答,并聊一點想法,足矣。

在2024阿里巴巴全球數(shù)學競賽決賽中的應用于計算數(shù)學部分,一共有2和6兩道深度學習背景的題目。其中2是關于網(wǎng)絡的局部優(yōu)化動力學,探討最基本的隨機梯度下降的訓練方法的執(zhí)行結果,是否存在一些性質結果,以便嘗試從邊界上指導一下訓練的方向;6則是近年炙手可熱的Scaling Law相關的證明,雖然只是一個特例,但又對這個有點經(jīng)驗式的丑陋的定律又有了一點認識的安全感。

本篇先講第2題。

原題:

先看參考解答:

由于距離大學學線性代數(shù)、矩陣計算這些內(nèi)容已實在久遠,在進行這些矩陣計算的推導中,費了我不少功夫。不過好在方向性把控得還好,所以借助一些資料查閱也把證明過程給理了出來。

如果僅從數(shù)學考試題的角度評價,這題只能算是矩陣論課程的中規(guī)中矩的考試題,如果熟練掌握這些如譜范數(shù)、F范數(shù),還有正定的對稱矩陣的特征向量組的結構特點等內(nèi)容,得到結論應該不難。其核心的計算技巧就是利用矩陣的對角化,把向量表示在新的特征向量構成的基上,于是整個過程就很順暢能推導下去。放縮部分的話,也是很基礎的關于最大特征值的放縮,和平方恒正的放縮,都是最基礎的內(nèi)容。

但是此題真正的價值,應該在于其神經(jīng)網(wǎng)絡背景下的實際性質的意義。這里和一般網(wǎng)絡不同,首先進行了一階Taylor展開,使得變成一個線性網(wǎng)絡,這一步已經(jīng)和實際網(wǎng)絡有比較大的區(qū)別了。而第1問的結論說明,在神經(jīng)網(wǎng)絡的優(yōu)化過程中,如果是梯度下降法,不用擔心某次的損失函數(shù)爆炸,它是有關于Sigma的F范數(shù)和W0的界的,不會超出。第2問則考察了更常用的sgd方法下,當損失的期望有界時,對于Sigma矩陣的F范數(shù)的界的計算。

這里的Sigma矩陣,實際上是loss梯度的系數(shù)矩陣,這里的變量取dirta_w來計,也叫Fisher矩陣,用其F范數(shù),可以衡量在一個極值點處的圖像是否平緩。比如我們也常用Hessain矩陣的最大特征值,跡等來衡量。而第2問的結論說明,這個衡量值的上界,和維度無關,也就是我們可以放心地擴大規(guī)模,而不必擔心其F范數(shù)隨著發(fā)散,因為已經(jīng)求得它的上界之和s步長,b批次大小和對齊系數(shù)dirta有關。

這個證明也自然說明,sgd方法(實際上是bgd)能夠獲得平坦的極值點,這也被認為是泛化性的由來,即參數(shù)值的擾動對結果影響不大,靈敏度低,說明在不錯的解的范圍內(nèi),而不是一個特殊的異常解而已。

至于題設中提到的對齊性質,雖然作為條件給出,但也是可以證明的,相關論文為《The alignment property of SGD noise and how it helps select flat minima: A stability analysis.》,有興趣的同學可以繼續(xù)深入研究。

好了,本題就先說到這里,下篇接著說。

    轉藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多