中文字幕精品亚洲无线码二区,国产黄a三级三级三级看三级,亚洲七七久久桃花影院,丰满少妇被猛烈进入,国产小视频在线观看网站

吳恩(en)達深(shen)度(du)學(xue)習課程二: 改善深(shen)層神經(jing)網絡 第一(yi)周:深(shen)度(du)學(xue)習的實踐(二)L2正則化

此分類用于記錄吳恩達深度學習課程的學習筆記。
課程相關信息(xi)鏈接如下:

  1. 原課程視頻鏈接:
  2. github課程資料,含課件與筆記:
  3. 課程配套練習(中英)與答案:

本篇為第二課第一周的內容,和的內容。


本(ben)周為第(di)二(er)課的(de)(de)第(di)一(yi)周內容(rong),就像課題名稱一(yi)樣,本(ben)周更偏向于深度(du)學習實(shi)踐中(zhong)出現的(de)(de)問題和概念(nian),在(zai)有(you)了第(di)一(yi)課的(de)(de)機(ji)器學習和數學基礎后,可以說,在(zai)理解上對本(ben)周的(de)(de)內容(rong)不會存(cun)在(zai)什么難度(du)。

當然,我也會對一些新出現的概念補充一些基礎內容來幫助理解,在有之前基礎的情況下,按部就班即可對本周內容有較好的掌握。
本篇以及下篇的核心概念只有一個:正則化

1.正則化的出現原因

我們在上一篇里提到了模型的過擬合問題,即在訓練集上表現很好,但在驗證集或測試集上表現很差。就像一個非常復雜的神經網絡,完美記住了訓練數據的所有點(包括噪聲),反而會對新數據泛化能力極差。
實際上,這是因為訓練集的樣本不夠充分,用于訓練的樣本不能比較全面地反應出正確的擬合規律,于(yu)是(shi)在出(chu)現(xian)新(xin)樣(yang)本的驗證集或測試集上(shang)表現(xian)較差。

依舊以貓狗分類舉例:假設我們的訓練集的貓全部都是白貓,那么我們訓練擬合到的模型就會認為所有的貓都是白色的,其他(ta)顏色的(de)都不是貓,從(cong)而錯(cuo)判測試集里(li)的(de)黑貓,橘貓等(deng)。

因此,要解決過擬合問題,從最根本的思路出發得到的措施就是增加數據量,讓訓練集更全面,更具有泛化性。
但很多時候數據并不是那么容易獲得。在一些高精尖領域,獲取更多數據所需的成本非常大。
這時,前沿的人們就會思考,如何在不增加數據的情況下,盡可能地增加模型泛化性,緩解過擬合問題?
這(zhe)就是正則化出現的背(bei)景。

2.什么是正則化?

依舊先擺一個定義:

正則化(Regularization)是機器學習和統計學中用于防止模型過擬合、提高泛化能力的一種技術。其核心思想是在模型的損失函數中引入一個額外的懲罰項,以限(xian)制模(mo)型(xing)的復(fu)雜度,從而(er)避免模(mo)型(xing)對(dui)訓練(lian)數(shu)據“過(guo)度學習”而(er)失(shi)去(qu)對(dui)新(xin)數(shu)據的預(yu)測(ce)能力。

簡單來說,正則化通過在訓練過程中“懲罰”過大的模型參數(如權重),促使模型變得更簡單、更平滑,從而提升其在未知數據上的表現。
只看概念還是有些模糊,本周我們展開介紹一下課程中提到的兩個常見的正則化:
L2正則化 和 dropout正則化

這里要提前說明的是:還是那句話,優化的本質都是數學,因此對于兩種正則化都少不了公式的推導,這可能帶來一定程度上的理解難度。
如果你只想知道這兩種正則化的大致運行原理和優劣,我會在之后的介紹最后附上一個“人話版”的總結來較直觀的說明這部分內容。
雖然在實(shi)際應用(yong)中我(wo)們可以通過(guo)調包來直接使用(yong)正則化,但(dan)能(neng)夠較(jiao)為清(qing)晰地了解(jie)基本(ben)原理,一定會對調優的過(guo)程有所幫助(zhu)。

3. L2 正則化

3.1數學原理

L2正則化從代(dai)價函數(shu)(shu)的角度(du)出(chu)發,設(she)模型的代(dai)價函數(shu)(shu)為:

\[J(w, b) = \frac{1}{m}\sum_{i=1}^m L(\hat{y}^{(i)}, y^{(i)}) \]

其中 \(L\) 是單個樣本的損失。
在代價函數的基礎上,L2 正則化的核心思想是——在這個損失函數中增加一個與權重有關的懲罰項,使得權重參數不至于太大。于是(shi)新的損失(shi)函數變為:

\[J_{L2}(w, b) = \frac{1}{m}\sum_{i=1}^m L(\hat{y}^{(i)}, y^{(i)}) + \frac{\lambda}{2m}\sum_{l=1}^L |W^{[l]}|_F^2 \]

其中:

  • \(|W^{[l]}|_F^2\) 表示第 \(l\) 層權重矩陣所有元素的平方和(Frobenius 范數的平方);
  • \(\lambda\) 是正則化系數(Regularization parameter),用于控制懲罰項的強度;
  • \(m\) 是樣本數量,用來保持尺度一致。

我們來(lai)展開介紹一下(xia)懲罰(fa)項里涉及的一些新概念和(he)理解中(zhong)可(ke)能出(chu)現的問題(ti):

(1)什么叫Frobenius 范數?

不要被這個看起來高大上的名字嚇到,來看定義:
Frobenius 范數是一種用于度量矩陣大小的“平方長度”,定義如下:

\[|W^{[l]}|_F^2 = \sum_{i}\sum_{j}(W_{ij}^{[l]})^2 \]

翻譯一下,它就是矩陣中所有元素平方后求和的結果,也叫是矩陣的“歐幾里得長度平方”。
理解上來說,如果一個矩陣 \(W^{[l]}\) 被看作是一個“向量”,Frobenius 范數就相當于這個向量離原點的距離。
因此,Frobenius 范(fan)數(shu)越大,說明整個(ge)權重矩陣的(de)數(shu)值越大,也就意味(wei)著模型越復(fu)雜、越“激(ji)進”,就越可能出現(xian)過(guo)擬(ni)合的(de)情況。

(2)懲罰項的存在是如何緩解過擬合的?

在反向傳播時,我們對\(W^{l}\)求偏導再(zai)代入權(quan)重(zhong)更新公式(shi),即可得到L2 正則化(hua)對權(quan)重(zhong)的更新公式(shi):

\[W^{[l]} := W^{[l]} - \alpha \left( dW^{[l]} + \frac{\lambda}{m}W^{[l]} \right) \]

可以看到,和普通的梯度下降相比,這里多了一個“\((+\frac{\lambda}{m}W^{[l]})\)” 項。
這一項會讓權重在每次更新時略微“收縮”,就像一股向 0 拉回的力,這種收縮效果也常被稱為權重衰減(weight decay)

這樣做帶來兩個直(zhi)接的效果:

  1. 防止權重過大。 當模型試圖極端地記住訓練樣本(尤其是噪聲點)時,相關權重往往會迅速增大,而這股“向 0 的力”會將其拉回。
  2. 讓模型更平滑。 權重較小時,模型的決策邊界變化更平緩,不會為了一些孤立樣本而“硬拐彎”,因此對新數據的適應性更好。

(3)正則化系數 \(\lambda\) 的設置和作用?

通過上面的損失計算公式和權重更新公式,我們知道:
\(\lambda\) 決定了懲罰項在總損失中的權重占比,同時也調節著參數更新
我(wo)們來看(kan)具(ju)體的幾種(zhong)情況:

  • \(\lambda\) 很小時,懲罰項幾乎不起作用,模型仍可能過擬合;
  • \(\lambda\) 適中時,懲罰項會迫使模型收縮權重,減少復雜度,提高泛化性;
  • \(\lambda\) 太大時,懲罰項主導損失函數,權重被強制壓得很小,模型將難以學習到有效特征,從而出現欠擬合。

打個比方:\(\lambda\) 就像是模型的平衡力度旋鈕
旋鈕擰得太小,模型胡亂記憶;
旋鈕擰得太大,模型束手束腳。
只有(you)調(diao)到合適(shi)的位置,模型才能既(ji)學習規律,又不會(hui)死記數(shu)據(ju)。

總(zong)的(de)來說,L2 正則化讓模型變得更“克制(zhi)”,不(bu)再(zai)依賴個(ge)別特(te)征(zheng)的(de)極(ji)端取(qu)值,而是傾向(xiang)于(yu)綜合多種信息(xi)。

3.2 “人話版總結”

L2 正則化可以理解為:給權重系上“橡皮筋”,當它們離 0 太遠時,橡皮筋就會拉回來,讓模型別太激動,別亂記噪聲。

項目 說明
核心思想 在損失函數中加入與權重平方相關的懲罰項,使權重保持較小,防止模型過度復雜。
優點 有效防止過擬合;讓模型更平滑、更穩健; 不影響訓練方向,只讓權重更“克制”。
缺點 懲罰過強(\(\lambda\) 太大)會導致欠擬合; 對高維噪聲數據仍有限制。
形象比喻 L2 正則化 = 給權重加橡皮筋 擰緊了,模型學不動;放松了,模型亂記。只有適度,效果最佳。

下篇會用相同格式介紹dropout正則化和一些其他幫助緩解過擬合的方式。
同時,也可以思考一個問題,應用正則化和直接調節學習率有什么不同呢?
我們完成正則(ze)化部分再來解(jie)答這(zhe)個問題(ti)。

posted @ 2025-10-29 14:01  哥布林學者  閱讀(139)  評論(0)    收藏  舉報