منظم سازی برای سادگی: منظم سازی L2

منحنی تعمیم زیر را در نظر بگیرید که ضرر را برای مجموعه آموزشی و مجموعه اعتبارسنجی در برابر تعداد تکرارهای آموزشی نشان می دهد.

عملکرد ضرر برای مجموعه تمرینی به تدریج کاهش می یابد. در مقابل، تابع ضرر برای مجموعه اعتبار سنجی کاهش می یابد، اما سپس شروع به افزایش می کند.

شکل 1. ضرر در مجموعه آموزشی و مجموعه اعتبار سنجی.

شکل 1 مدلی را نشان می دهد که در آن تلفات تمرینی به تدریج کاهش می یابد، اما افت اعتبار در نهایت افزایش می یابد. به عبارت دیگر، این منحنی تعمیم نشان می دهد که مدل بیش از حد با داده های مجموعه آموزشی سازگار است. با هدایت اوکام درونی خود، شاید بتوانیم با جریمه کردن مدل‌های پیچیده، اصلی به نام منظم‌سازی، از تطبیق بیش از حد جلوگیری کنیم.

به عبارت دیگر، به جای صرفاً به حداقل رساندن ضرر (به حداقل رساندن ریسک تجربی):

$$\text{minimize(Loss(Data|Model))}$$

اکنون ضرر+پیچیدگی را به حداقل می‌رسانیم که به آن کمینه‌سازی ریسک ساختاری می‌گویند:

$$\text{minimize(Loss(Data|Model) + complexity(Model))}$$

الگوریتم بهینه‌سازی آموزش ما اکنون تابعی از دو عبارت است: عبارت ضرر ، که میزان تناسب مدل با داده‌ها را اندازه‌گیری می‌کند، و عبارت منظم‌سازی ، که پیچیدگی مدل را اندازه‌گیری می‌کند.

دوره تصادف یادگیری ماشین بر دو روش رایج (و تا حدودی مرتبط) برای اندیشیدن به پیچیدگی مدل تمرکز دارد:

  • پیچیدگی مدل به عنوان تابعی از وزن تمام ویژگی های مدل.
  • پیچیدگی مدل به عنوان تابعی از تعداد کل ویژگی ها با وزن غیر صفر. (یک ماژول بعدی این رویکرد را پوشش می دهد.)

اگر پیچیدگی مدل تابعی از وزن ها باشد، وزن ویژگی با قدر مطلق بالا پیچیده تر از وزن ویژگی با مقدار مطلق کم است.

ما می‌توانیم پیچیدگی را با استفاده از فرمول منظم‌سازی L 2 ، که عبارت منظم‌سازی را به‌عنوان مجموع مربع‌های همه وزن‌های ویژگی تعریف می‌کند، کمی کنیم:

$$L_2\text{ regularization term} = ||\boldsymbol w||_2^2 = {w_1^2 + w_2^2 + ... + w_n^2}$$

در این فرمول، وزن‌های نزدیک به صفر تأثیر کمی بر پیچیدگی مدل دارند، در حالی که وزن‌های پرت می‌توانند تأثیر زیادی داشته باشند.

به عنوان مثال، یک مدل خطی با وزن های زیر:

$$\{w_1 = 0.2, w_2 = 0.5, w_3 = 5, w_4 = 1, w_5 = 0.25, w_6 = 0.75\}$$

دارای مدت تنظیم L 2 26.915:

$$w_1^2 + w_2^2 + \boldsymbol{w_3^2} + w_4^2 + w_5^2 + w_6^2$$$$= 0.2^2 + 0.5^2 + \boldsymbol{5^2} + 1^2 + 0.25^2 + 0.75^2$$$$= 0.04 + 0.25 + \boldsymbol{25} + 1 + 0.0625 + 0.5625$$$$= 26.915$$

اما \(w_3\) (پررنگ در بالا)، با مقدار مجذور 25، تقریباً در تمام پیچیدگی نقش دارد. مجموع مجذورهای هر پنج وزن دیگر فقط 1.915 به عبارت منظم L 2 اضافه می کند.