Régularisation L2
Explorez les options ci-dessous.
Imaginons un modèle linéaire avec 100 caractéristiques d'entrée:
10 d'entre elles sont très informatives.
90 ne sont pas informatives.
Supposons que les valeurs de toutes les caractéristiques soient comprises entre -1 et 1.
Parmi les affirmations suivantes, lesquelles sont vraies ?
Grâce à la régularisation L2, un grand nombre de pondérations non informatives seront proches de (mais pas exactement égales) à 0,0.
Oui, la régularisation L2 fait en sorte que les pondérations soient proches de 0,0, mais pas exactement égales à 0,0.
Suite à une régularisation L2, la plupart des pondérations
non informatives seront exactement égales à 0,0.
La régularisation L2 n'a pas tendance à forcer les pondérations
à être exactement égales à 0,0. La régularisation L2 pénalise plus les pondérations
élevées que les pondérations faibles. Lorsqu'une pondération se rapproche de 0,0,
la "L2" la "pousse" avec moins de force vers 0,0.
La régularisation L2 peut amener le modèle à apprendre une
pondération modérée pour certaines caractéristiques non informatives.
Étonnamment, cela peut se produire lorsqu'une caractéristique non informative est corrélée au libellé. Dans ce cas, le modèle accorde à tort à ces caractéristiques non informatives une part du "crédit" qui aurait dû être accordée aux caractéristiques informatives.
Régularisation L2 et caractéristiques corrélées
Explorez les options ci-dessous.
Imaginez un modèle linéaire avec deux caractéristiques fortement corrélées ; c'est-à-dire que ces deux caractéristiques sont des copies presque identiques l'une de l'autre, mais que l'une d'elles contient une petite quantité de bruit aléatoire. Si nous entraînons ce
modèle avec une régularisation L2, qu'adviendra-t-il des pondérations de ces deux caractéristiques ?
Les deux caractéristiques auront des pondérations modérées à peu près égales.
La régularisation L2 obligera les caractéristiques à atteindre
des pondérations à peu près équivalentes, qui représentent environ la moitié
de ce qu'elles auraient été si une seule des deux caractéristiques
avait été présente dans le modèle.
La pondération de l'une des deux caractéristiques sera élevée, tandis que celle de l'autre sera presque de 0,0.
La régularisation L2 pénalise plus les pondérations élevées que
les pondérations faibles. Ainsi, même si une pondération commençait à diminuer
plus rapidement que l'autre, la régularisation L2
obligerait la pondération la plus élevée à diminuer plus rapidement que
la pondération la plus faible.
La pondération de l'une des deux caractéristiques est élevée, tandis que celle de l'autre est exactement de 0,0.
La régularisation L2 oblige rarement les
pondérations à être exactement égales à 0,0. En revanche, la régularisation L1 (que nous verrons plus tard) force les pondérations à être exactement égales à 0,0.