F-Principle：初探理解深度學習不能做什么

taotao_2016 2019-02-01

展開全文

作者丨許志欽、張耀宇

學校丨紐約大學阿布扎比分校博士后、紐約大學庫朗研究所訪問學者

研究方向丨計算神經科學、深度學習理論

近些年來，隨著深度學習在眾多實際應用中取得成功，在越來越多的科學領域內，研究人員開始嘗試利用深度學習來解決各自領域的傳統(tǒng)難題。和深度學習已獲得成功的問題（比如圖像分類）相比，許多科學領域內的問題往往有完全不同的特性。

因此，理解深度學習的適用性，即其能做什么尤其是不能做什么，是一個極為重要的問題。比如設計算法的時候，它可以幫助我們考慮是完全用深度學習來代替?zhèn)鹘y(tǒng)算法，還是僅在這個問題中的某些步驟用深度學習。

為了探討這個問題，我們首先來看下面這個例子。在下面兩組圖中，左組中的每張圖和右組有什么差別呢？

答案是左組的每張圖中黑塊數都是奇數，而右組都是偶數。這種按奇偶區(qū)分的函數數學上叫做 parity function：。其函數值由“-1”的個數決定，如果為偶數，結果為 1，否則為 -1。

對于該函數，如果取所有可能映射的一個子集進行訓練，深度神經網絡能夠很好地擬合訓練數據，但對那些未見過的測試數據，深度學習幾乎沒有預測（泛化）能力。而對于人來說，只要能從訓練數據集中學到數“-1”個數這個規(guī)則，就很容易對未見過的數據進行準確分類。

對于很多問題，如圖像識別，深度學習通常能取得較好的效果（泛化能力）。為了敘述方便，我們將這些深度學習能處理好的問題稱為第一類問題，同時將深度學習處理不好（難以泛化）的問題稱為第二類問題。

那么這兩類問題有什么本質差別呢？深度學習模型為什么對這兩類問題有截然相反的效果？

目前為止，大部分實驗研究和理論研究集中于研究為什么深度學習能取得好的效果（泛化能力）。少部分的研究開始關注哪些問題深度學習難以處理。

在我們的研究中，我們希望能找到一個統(tǒng)一的機制，可以同時解釋深度學習在兩類問題中不同的效果。我們發(fā)現的機制可以用一句話概括：深度學習傾向于優(yōu)先使用低頻來擬合目標函數。我們將這個機制稱為 F-Principle（頻率原則）。

我們先用一個簡單的例子來理解 F-Principle。用一個深度神經網絡（DNN）去擬合如下的紅色實線函數。訓練完后，該曲線能被深度網絡（藍色點）很好地擬合。

我們感興趣的是 DNN 的訓練過程。如下圖動畫所示（紅色為目標函數的 FT（傅里葉變換），藍色為網絡輸出的 FT，每一幀表示一個訓練步，橫坐標是頻率，縱坐標是振幅），我們發(fā)現，在訓練過程中，DNN 表示的函數的演化在頻域空間有一個清晰的規(guī)律，即頻率從低到高依次收斂。

對于真實數據，如 MNIST 和 CIFAR10，對于不同的網絡結構，如全連接和卷積神經網絡（CNN），對于不同的激活函數，如 tanh 和 ReLU，我們都可以觀察到 F-Principle（如下圖所示）。

▲ 左邊：數據集/DNN的Fourier變換在一個特定高維頻率方向的變化曲線，右圖：左圖中黑色頻率點處的相對誤差與訓練步數的關系，紅色表示相對誤差小。第一行是MNIST數據集的結果，使用全連接tanh網絡。第二行是CIFAR10數據集的結果，使用ReLU-CNN網絡。

接下來，我們可以用 F-Principle 來理解為什么 DNN 在上述兩類問題的處理中有巨大的差異。從頻譜的角度，我們發(fā)現 MNIST 和 CIFAR10 數據集都有低頻占優(yōu)的特性。實驗結果顯示，全數據集（包含訓練集和測試集）在頻域空間與測試數據集在低頻部分吻合地很好，如下圖展示 MNIST 的情況。

parity 函數則不同，它是高頻占優(yōu)的。

由于 aliasing 效應，相比真實的頻譜，訓練集的頻譜在低頻處有顯著的虛假成分（見上圖）。下圖展示了一個 aliasing 的例子。

因此，對于我們舉的例子，這兩類問題在 Fourier 空間可以看到本質的差別。前者低頻占優(yōu)，后者高頻占優(yōu)。在訓練過程中，基于 F-Principle 低頻優(yōu)先的機制，DNN 會傾向于用一個低頻成分較多的函數去擬合訓練數據。

對于 MNIST 和 CIFAR10，一方面由于高頻成分較小，aliasing 帶來的虛假低頻微不足道，另一方面由于 DNN 訓練中低頻優(yōu)先的傾向與目標函數本身的低頻占優(yōu)的特性相一致，所以 DNN 能準確抓取目標函數的關鍵成分（下圖藍色為 DNN 學習到的函數在全數據集上的傅里葉變換在一個特定高維頻率方向的曲線），從而擁有良好的泛化能力。

而對于 parity 函數，由于高頻成分極為顯著，aliasing 帶來的虛假低頻很嚴重，同時 F-principle 低頻優(yōu)先的傾向與目標函數本身高頻占優(yōu)的特性不匹配，所以 DNN 最終輸出函數相比于目標函數低頻顯著偏大而高頻顯著偏小。顯然，這種顯著的差異會導致較差的泛化能力。

▲ 紅色：訓練數據集的傅里葉變換；綠色：全數據集的傅里葉變換；藍色：網絡輸出在全數據集輸入點的傅里葉變換

我們利用 F-Principle 對深度學習能做什么與不能做什么做了初步的探索，理解了具有低頻優(yōu)先特性的深度學習對于具有不同頻譜特性的問題的適用性。如果目標函數具有低頻占優(yōu)的特性，那么深度學習比較容易取很好的效果，反之則不然。

進一步，我們可以利用深度學習這一特性更好地處理具體問題中的低頻成分。比如傳統(tǒng)算法（如 Jacobi 迭代）在解 Poisson 方程時，一般低頻收斂慢，而高頻收斂快。我們將在下一篇文章中介紹如何利用 F-Principle 機制設計基于 DNN 的 Poisson 方程求解方法。

參考文獻

Xu, Zhi-Qin John, Zhang, Yaoyu, Luo, Tao, Xiao, Yanyang & Ma, Zheng (2019), ‘Frequency principle: Fourier analysis sheds light on deep neural networks’, arXiv preprint arXiv:1901.06523 .