L1-Regularisierung
Sehen Sie sich die folgenden Optionen an.
Stellen Sie sich ein lineares Modell mit 100 Eingabefeatures vor:
10 sind sehr informativ.
sind nicht informativ.
Es wird angenommen, dass alle Merkmale Werte zwischen -1 und 1 haben.
Welche der folgenden Aussagen sind wahr?
Bei der L1-Regularisierung werden viele der nicht informativen Gewichtungen nahezu (aber nicht genau) 0,0 betragen.
Im Allgemeinen neigt die L1-Regularisierung mit ausreichender Lambda-Funktion dazu, nicht informative Merkmale bei Gewichtungen von genau 0,0 zu fördern.
Im Gegensatz zur L2-Regularisierung "drückt" die L1-Regularisierung genauso stark in Richtung 0,0, unabhängig davon, wie weit die Gewichtung von 0,0 entfernt ist.
Bei der L1-Regularisierung werden die meisten nicht informativen Gewichtungen genau 0,0 betragen.
Die L1-Regularisierung mit ausreichend Lambda führt tendenziell dazu, dass nicht informative Gewichtungen genau 0,0 betragen. Dadurch verlassen diese nicht informativen Merkmale das Modell.
Die L1-Regularisierung kann dazu führen, dass informative Features eine Gewichtung von genau 0,0 erhalten.
Seien Sie vorsichtig. Die L1-Regularisierung kann dazu führen, dass die folgenden Arten von Features eine Gewichtung von genau 0 erhalten:
Schwach informative Funktionen.
Sehr informative Elemente auf verschiedenen Skalen.
Informative Merkmale korrelieren stark mit anderen ähnlich informativen Merkmalen.
L1- und L2-Regularisierung im Vergleich
Sehen Sie sich die folgenden Optionen an.
Stellen Sie sich ein lineares Modell mit 100 Eingabefeatures mit Werten zwischen -1 und 1 vor:
10 sind sehr informativ.
sind nicht informativ.
Welche Art der Regularisierung erzeugt das kleinere Modell?
L2-Regularisierung.
Die L2-Regularisierung reduziert selten die Anzahl der Features.
Mit anderen Worten, die L2-Regularisierung reduziert selten die Modellgröße.
L1-Regularisierung.
Die L1-Regularisierung reduziert tendenziell die Anzahl der Features. Mit anderen Worten, die L1-Regularisierung reduziert häufig die Modellgröße.