森奈奈子作品,日韩AV免费观看播放,欧美一级a大片在线观看

現(xiàn)代的深度神經(jīng)網(wǎng)絡通常具有海量參數(shù)，甚至高于訓練數(shù)據(jù)的大小。這就意味著，這些深度網(wǎng)絡有著強烈的過擬合傾向。緩解這一傾向的技術有很多，包括L1、L2正則、及早停止、組歸一化，以及dropout。在訓練階段，dropout隨機丟棄隱藏神經(jīng)元及其連接，以打破神經(jīng)元間的共同適應。盡管dropout在深度神經(jīng)網(wǎng)絡的訓練中取得了巨大的成功，關于dropout如何在深度學習中提供正則化機制，目前這方面的理論解釋仍然很有限。

最近，約翰·霍普金斯大學的Poorya Mianjy、Raman Arora、Rene Vidal在ICML 2018提交的論文On the Implicit Bias of Dropout，重點研究了dropout引入的隱式偏置。

基于權重系聯(lián)的線性自動編碼器

為了便于理解dropout的作用機制，研究人員打算在簡單模型中分析dropout的表現(xiàn)。具體而言，研究人員使用的簡單模型是只包含一個隱藏層的線性網(wǎng)絡。該網(wǎng)絡的目標是找到最小化期望損失（平方損失）的權重矩陣U、V：

上式中，x為輸入，y為標注輸出，D為輸入x的分布，h表示隱藏層。

學習算法為帶dropout的隨機梯度下降，其目標為：

其中，dropout率為1-θ，具體的算法為：

這一算法的目標等價于（推導過程見論文附錄A.1）：

其中，λ = (1-θ)/θ

研究人員又令U = V，進一步簡化模型為權重系聯(lián)的單隱藏層線性自動編碼器。相應地，該網(wǎng)絡的目標為：

研究人員證明了，如果矩陣U是以上目標的全局最優(yōu)解，那么U的所有列范數(shù)相等。這意味著，dropout傾向于給所有隱藏節(jié)點分配相等的權重，也就是說，dropout給整個網(wǎng)絡加上了隱式的偏置，傾向于讓隱藏節(jié)點都具有類似的影響，而不是讓一小部分隱藏節(jié)點具有重要影響。

上圖可視化了參數(shù)λ的不同取值的效果。該網(wǎng)絡為單隱藏層線性自動編碼器，搭配一維輸入、一維輸出，隱藏層寬度為2。當λ = 0時，該問題轉(zhuǎn)換為平方損失最小化問題。當λ > 0時，全局最優(yōu)值向原點收縮，所有局部極小值均為全局最小值（證明過程見論文第4節(jié)）。當λ增大時，全局最優(yōu)值進一步向原點收縮。

單隱藏層線性網(wǎng)絡

接著，研究人員將上述結果推廣到了單隱藏層線性網(wǎng)絡?；貞浺幌?，這一網(wǎng)絡的目標為：

和權重系聯(lián)的情形類似，研究人員證明了，如果矩陣對（U, V）是以上目標的全局最優(yōu)解，那么，‖ui‖‖vi‖ = ‖u1‖‖v1‖，其中，i對應隱藏層的寬度。

研究人員進一步證明，前面提到的單隱藏層線性神經(jīng)網(wǎng)絡的目標等價于正則化的矩陣分解（regularized matrix factorization）：

利用矩陣分解這一數(shù)學工具，研究人員證明了全局最佳值可以在多項式時間內(nèi)找到：

試驗

研究人員試驗了一些模型，以印證前面提到的理論結果。

上圖可視化了dropout的收斂過程。和之前的可視化例子類似，模型為單隱藏層線性自動編碼器，一維輸入、一維輸出，隱藏層寬度為2。輸入取樣自標準正態(tài)分布。綠點為初始迭代點，紅點為全局最優(yōu)點。從圖中我們可以看到，在不同的λ取值下，dropout都能迅速收斂至全局最優(yōu)點。

研究人員還在一個淺層線性網(wǎng)絡上進行了試驗。該網(wǎng)絡的輸入x ∈ ?80，取樣自標準正態(tài)分布。網(wǎng)絡輸出y ∈ ?120，由y = Mx生成，其中M ∈ ?120x80均勻取樣自右、左奇異子空間（指數(shù)譜衰減）。下圖展示了不同參數(shù)值（λ ∈ {0.1, 0.5, 1}）與不同隱藏層寬度（r ∈ {20, 80}）的組合。藍色曲線為dropout不同迭代次數(shù)下對應的目標值，紅線為目標的最優(yōu)值?？偣策\行了50次，取平均數(shù)。