• 教育行業A股IPO第一股(股票代碼 003032)

    全國咨詢/投訴熱線:400-618-4000

    正則化是什么意思? 正則化技術解析

    更新時間:2019年09月12日17時49分 來源:傳智播客 瀏覽次數:

    正則化是廣泛應用于機器學習和深度學習中的技術,它可以改善過擬合,降低結構風險,提高模型的泛化能力,有必要深入理解正則化技術。

    奧卡姆剃刀原則

    奧卡姆剃刀原則稱為“如無必要,勿增實體”,即簡單有效原理。在機器學習中,我們說在相同泛化誤差下,優先選用較簡單的模型。依賴于該原則,提出了正則化技術。

    什么是正則化及正則化的作用

    正則化是在經驗風險項后面加上正則罰項,使得通過最小化經驗風險求解模型參數轉變為通過最小化結構風險求解模型參數,進而選擇經驗風險小并且簡單的模型。


    正則化1


    式中正則化2是經驗風險項,正則化3是正則項, 正則化4是正則化參數。

    簡單的模型擬合程度差(偏差大),泛化能力強(方差小);復雜的模型擬合程度好(偏差小),泛化能力弱(方差大)。


    正則化5


    故選用合適的模型復雜度,使得泛化誤差最小。

    正則化的方法

    正則化也可以稱為規則化,在數學領域常稱為范數,常用的有L1范數和L2范數。P范數的數學公式如下:


    正則化6

    1) L0范數表示向量中非零元素的個數

    2) L1范數表示向量元素的絕對值之和

    正則化7


    3) L2范數表示向量元素的平方和再開方


    正則化8


    4) 范數表示所有向量元素絕對值中的最大值


    正則化9

    5) 范數表示所有向量元素絕對值中的最小值

    正則化10

    其中L1正則和L2正則是常用的正則化方法,L1正則可以產生稀疏權值矩陣,即產生一個稀疏模型,可以用于特征選擇,同時可以防止過擬合。L2正則可以防止模型過擬合。L0范數一定可以保證得到稀疏模型,但L0范數的求解是NP難問題,實際中一般采用L1范數代替L0范數得到稀疏解,可以簡單認為L1范數是L0范數的凸近似。

    從圖形角度分析L1正則與L2正則

    從圖形角度分析L1正則與L2正則,為簡化分析,考慮只有兩個權值向量w1和w2。

    正則化11

    多彩的等值線代表經驗損失函數解的空間,菱形線代表L1范數空間,當二者相交時,代表了一個結構損失函數的解,L1范數與經驗損失函數的交點一般在坐標軸上,從而可以使得某些w=0,進而得到稀疏解。


    正則化12

    L2正則化

    多彩的等值線代表經驗損失函數解的空間,圓形線代表L2范數空間,L2范數與經驗損失函數的交點一般接近于坐標軸上,可以改善過擬合,但不具有稀疏性。

    從公式角度分析L1正則與L2正則

    首先加入L2正則項后的損失函數形式:


    正則化13

    其中m為樣本個數,n為特征個數,為了最小化損失函數,對各個模型參數求偏導后等于零即可求得估計值:

    正則化14


    上式中, 是步長,22,所以L2正則會對每一個模型參數23進行一定程度的縮減,但不會縮減為0。

    對于加入L1正則項后的損失函數形式:

    正則化15


    對各個模型參數23求偏導后等于零,可得:

    正則化16

    正則化17


    從上式可以看出:當上一輪θ_j大于0時,下一次更新θ_j一定減少,當上一輪θ_j小于0時,下一次更新θ_j一定增加,也就是說每一輪訓練θ_j都是一定往0方向靠近,最終可得近似的稀疏解。


    從貝葉斯角度分析L1正則與L2正則

    從貝葉斯角度看,正則化相當于對模型參數引入先驗分布:


    正則化18

    L2正則,模型參數服從高斯分布,正則化19 ,對參數加了分布約束,大部分絕對值很小。


    正則化20


    L1正則,模型參數服從拉普拉斯分布,對參數加了分布約束,大部分取值為0,這也解釋了為何L1正則有獲取稀疏模型的功能。

    推薦了解:大數據課程

    黑色丝袜脚足国产在线看,国产国语脏话对白免费视频,99精品国产自在现线,国产偷窥女洗浴在线观看 网站地图