L1 正則化
請參考下列選項。
假設有一個包含 100 個輸入特徵的線性模型: 10 分表示非常豐富資訊。
90 則不具資訊性。
假設所有特徵的值都介於 -1 和 1 之間。以下敘述何者正確?
L1 正則化會鼓勵許多非資訊化的權重幾乎 (但不一定) 0.0。
一般而言,充足的 lambda 正規化往往會鼓勵非資訊性特徵將權重設為 0.0。與 L2 正則化不同的是,無論權重從 0.0 到多遠,L1 正則化都會「推送」到 0.0 一樣困難。
L1 正則化會建議多數非資訊性的權重必須正好為 0.0。
足夠 lambda 的 L1 正規化,會鼓勵非資訊性的權重剛好設為 0.0。這樣一來,這些非資訊性特徵就會離開模型。
L1 正則化可能會導致資訊型特徵的權重剛好為 0.0。
請注意,L1 正則化可能會導致下列類型的特徵的權重剛好為 0:資訊不足的功能,
功能性高的不同等級特徵。
資訊性特徵與其他類似的內容息息相關。
L1 與 L2 正規化
請參考下列選項。
假設有一個含 100 個輸入特徵的線性模型,所有值都介於 -1 和 1 之間:10 分表示非常豐富資訊。
90 則不具資訊性。
哪種正則化會產生較小的模型?
L2 正則化。
L2 正則化幾乎減少功能數量。換句話說,L2 正則化幾乎減少了模型大小。
L1 正則化。
L1 正則化通常會減少特徵數量。換句話說,L1 正則化通常會縮減模型大小。