吳恩(en)達深(shen)度(du)學(xue)習課程二：改善深(shen)層神經(jing)網絡第一(yi)周：深(shen)度(du)學(xue)習的實踐（二）L2正則化

此分類用于記錄吳恩達深度學習課程的學習筆記。
課程相關信息(xi)鏈接如下：

原課程視頻鏈接：
github課程資料，含課件與筆記:
課程配套練習（中英）與答案：

本篇為第二課第一周的內容，和的內容。

本(ben)周為第(di)二(er)課的(de)(de)第(di)一(yi)周內容(rong)，就像課題名稱一(yi)樣，本(ben)周更偏向于深度(du)學習實(shi)踐中(zhong)出現的(de)(de)問題和概念(nian)，在(zai)有(you)了第(di)一(yi)課的(de)(de)機(ji)器學習和數學基礎后，可以說，在(zai)理解上對本(ben)周的(de)(de)內容(rong)不會存(cun)在(zai)什么難度(du)。

當然，我也會對一些新出現的概念補充一些基礎內容來幫助理解，在有之前基礎的情況下，按部就班即可對本周內容有較好的掌握。
本篇以及下篇的核心概念只有一個：正則化

1.正則化的出現原因

我們在上一篇里提到了模型的過擬合問題，即在訓練集上表現很好，但在驗證集或測試集上表現很差。就像一個非常復雜的神經網絡，完美記住了訓練數據的所有點（包括噪聲），反而會對新數據泛化能力極差。
實際上，這是因為訓練集的樣本不夠充分，用于訓練的樣本不能比較全面地反應出正確的擬合規律，于(yu)是(shi)在出(chu)現(xian)新(xin)樣(yang)本的驗證集或測試集上(shang)表現(xian)較差。

依舊以貓狗分類舉例：假設我們的訓練集的貓全部都是白貓，那么我們訓練擬合到的模型就會認為所有的貓都是白色的，其他(ta)顏色的(de)都不是貓，從(cong)而錯(cuo)判測試集里(li)的(de)黑貓，橘貓等(deng)。

因此，要解決過擬合問題，從最根本的思路出發得到的措施就是增加數據量，讓訓練集更全面，更具有泛化性。
但很多時候數據并不是那么容易獲得。在一些高精尖領域，獲取更多數據所需的成本非常大。
這時，前沿的人們就會思考，如何在不增加數據的情況下，盡可能地增加模型泛化性，緩解過擬合問題？
這(zhe)就是正則化出現的背(bei)景。

2.什么是正則化？

依舊先擺一個定義：

正則化（Regularization）是機器學習和統計學中用于防止模型過擬合、提高泛化能力的一種技術。其核心思想是在模型的損失函數中引入一個額外的懲罰項，以限(xian)制模(mo)型(xing)的復(fu)雜度，從而(er)避免模(mo)型(xing)對(dui)訓練(lian)數(shu)據“過(guo)度學習”而(er)失(shi)去(qu)對(dui)新(xin)數(shu)據的預(yu)測(ce)能力。

簡單來說，正則化通過在訓練過程中“懲罰”過大的模型參數（如權重），促使模型變得更簡單、更平滑，從而提升其在未知數據上的表現。
只看概念還是有些模糊，本周我們展開介紹一下課程中提到的兩個常見的正則化：
L2正則化和 dropout正則化

這里要提前說明的是：還是那句話，優化的本質都是數學，因此對于兩種正則化都少不了公式的推導，這可能帶來一定程度上的理解難度。
如果你只想知道這兩種正則化的大致運行原理和優劣，我會在之后的介紹最后附上一個“人話版”的總結來較直觀的說明這部分內容。
雖然在實(shi)際應用(yong)中我(wo)們可以通過(guo)調包來直接使用(yong)正則化，但(dan)能(neng)夠較(jiao)為清(qing)晰地了解(jie)基本(ben)原理，一定會對調優的過(guo)程有所幫助(zhu)。

3. L2 正則化

3.1數學原理

L2正則化從代(dai)價函數(shu)(shu)的角度(du)出(chu)發，設(she)模型的代(dai)價函數(shu)(shu)為：

\[J(w, b) = \frac{1}{m}\sum_{i=1}^m L(\hat{y}^{(i)}, y^{(i)}) \]

其中 \(L\) 是單個樣本的損失。
在代價函數的基礎上，L2 正則化的核心思想是——在這個損失函數中增加一個與權重有關的懲罰項，使得權重參數不至于太大。于是(shi)新的損失(shi)函數變為：

\[J_{L2}(w, b) = \frac{1}{m}\sum_{i=1}^m L(\hat{y}^{(i)}, y^{(i)}) + \frac{\lambda}{2m}\sum_{l=1}^L |W^{[l]}|_F^2 \]

其中：

\(|W^{[l]}|_F^2\) 表示第 \(l\) 層權重矩陣所有元素的平方和（Frobenius 范數的平方）；
\(\lambda\) 是正則化系數（Regularization parameter），用于控制懲罰項的強度；
\(m\) 是樣本數量，用來保持尺度一致。

我們來(lai)展開介紹一下(xia)懲罰(fa)項里涉及的一些新概念和(he)理解中(zhong)可(ke)能出(chu)現的問題(ti)：

（1）什么叫Frobenius 范數？

不要被這個看起來高大上的名字嚇到，來看定義：
Frobenius 范數是一種用于度量矩陣大小的“平方長度”，定義如下：

\[|W^{[l]}|_F^2 = \sum_{i}\sum_{j}(W_{ij}^{[l]})^2 \]

翻譯一下，它就是矩陣中所有元素平方后求和的結果，也叫是矩陣的“歐幾里得長度平方”。
理解上來說，如果一個矩陣 \(W^{[l]}\) 被看作是一個“向量”，Frobenius 范數就相當于這個向量離原點的距離。
因此，Frobenius 范(fan)數(shu)越大，說明整個(ge)權重矩陣的(de)數(shu)值越大，也就意味(wei)著模型越復(fu)雜、越“激(ji)進”，就越可能出現(xian)過(guo)擬(ni)合的(de)情況。

（2）懲罰項的存在是如何緩解過擬合的？

在反向傳播時，我們對\(W^{l}\)求偏導再(zai)代入權(quan)重(zhong)更新公式(shi)，即可得到L2 正則化(hua)對權(quan)重(zhong)的更新公式(shi)：

\[W^{[l]} := W^{[l]} - \alpha \left( dW^{[l]} + \frac{\lambda}{m}W^{[l]} \right) \]

可以看到，和普通的梯度下降相比，這里多了一個“\((+\frac{\lambda}{m}W^{[l]})\)” 項。
這一項會讓權重在每次更新時略微“收縮”，就像一股向 0 拉回的力，這種收縮效果也常被稱為權重衰減（weight decay）。

這樣做帶來兩個直(zhi)接的效果：

防止權重過大。 當模型試圖極端地記住訓練樣本（尤其是噪聲點）時，相關權重往往會迅速增大，而這股“向 0 的力”會將其拉回。
讓模型更平滑。 權重較小時，模型的決策邊界變化更平緩，不會為了一些孤立樣本而“硬拐彎”，因此對新數據的適應性更好。

（3）正則化系數 \(\lambda\) 的設置和作用？

通過上面的損失計算公式和權重更新公式，我們知道：
\(\lambda\) 決定了懲罰項在總損失中的權重占比，同時也調節著參數更新。
我(wo)們來看(kan)具(ju)體的幾種(zhong)情況：

當 \(\lambda\) 很小時，懲罰項幾乎不起作用，模型仍可能過擬合；
當 \(\lambda\) 適中時，懲罰項會迫使模型收縮權重，減少復雜度，提高泛化性；
當 \(\lambda\) 太大時，懲罰項主導損失函數，權重被強制壓得很小，模型將難以學習到有效特征，從而出現欠擬合。

打個比方：\(\lambda\) 就像是模型的平衡力度旋鈕。
旋鈕擰得太小，模型胡亂記憶；
旋鈕擰得太大，模型束手束腳。
只有(you)調(diao)到合適(shi)的位置，模型才能既(ji)學習規律，又不會(hui)死記數(shu)據(ju)。

總(zong)的(de)來說，L2 正則化讓模型變得更“克制(zhi)”，不(bu)再(zai)依賴個(ge)別特(te)征(zheng)的(de)極(ji)端取(qu)值，而是傾向(xiang)于(yu)綜合多種信息(xi)。

3.2 “人話版總結”

L2 正則化可以理解為：給權重系上“橡皮筋”，當它們離 0 太遠時，橡皮筋就會拉回來，讓模型別太激動，別亂記噪聲。

項目	說明
核心思想	在損失函數中加入與權重平方相關的懲罰項，使權重保持較小，防止模型過度復雜。
優點	有效防止過擬合；讓模型更平滑、更穩健；不影響訓練方向，只讓權重更“克制”。
缺點	懲罰過強（\(\lambda\) 太大）會導致欠擬合；對高維噪聲數據仍有限制。
形象比喻	L2 正則化 = 給權重加橡皮筋擰緊了，模型學不動；放松了，模型亂記。只有適度，效果最佳。

下篇會用相同格式介紹dropout正則化和一些其他幫助緩解過擬合的方式。
同時，也可以思考一個問題，應用正則化和直接調節學習率有什么不同呢？
我們完成正則(ze)化部分再來解(jie)答這(zhe)個問題(ti)。

posted @ 2025-10-29 14:01 哥布林學者閱讀(139) 評論(0) 收藏舉報

刷新頁面返回頂部

中文字幕精品亚洲无线码二区,国产黄a三级三级三级看三级,亚洲七七久久桃花影院,丰满少妇被猛烈进入,国产小视频在线观看网站

Goblinscholar

吳恩(en)達深(shen)度(du)學(xue)習課程二：改善深(shen)層神經(jing)網絡第一(yi)周：深(shen)度(du)學(xue)習的實踐（二）L2正則化

1.正則化的出現原因

2.什么是正則化？

3. L2 正則化

3.1數學原理

（1）什么叫Frobenius 范數？

（2）懲罰項的存在是如何緩解過擬合的？

（3）正則化系數 \(\lambda\) 的設置和作用？

3.2 “人話版總結”

公告

中文字幕精品亚洲无线码二区,国产黄a三级三级三级看三级,亚洲七七久久桃花影院,丰满少妇被猛烈进入,国产小视频在线观看网站

Goblinscholar

吳恩(en)達深(shen)度(du)學(xue)習課程二： 改善深(shen)層神經(jing)網絡 第一(yi)周：深(shen)度(du)學(xue)習的實踐（二）L2正則化

1.正則化的出現原因

2.什么是正則化？

3. L2 正則化

3.1數學原理

（1）什么叫Frobenius 范數？

（2）懲罰項的存在是如何緩解過擬合的？

（3）正則化系數 \(\lambda\) 的設置和作用？

3.2 “人話版總結”

公告

吳恩(en)達深(shen)度(du)學(xue)習課程二：改善深(shen)層神經(jing)網絡第一(yi)周：深(shen)度(du)學(xue)習的實踐（二）L2正則化