بیش از حد: تنظیم L2

منظم‌سازی L2 یک معیار منظم‌سازی محبوب است که از فرمول زیر استفاده می‌کند:

$$L_2\text{ regularization } = {w_1^2 + w_2^2 + ... + w_n^2}$$

برای مثال، جدول زیر محاسبه‌ی منظم‌سازی L2 را برای مدلی با شش وزن نشان می‌دهد:

ارزش مقدار مربع
دبلیو ۱ ۰.۲ ۰.۰۴
دبلیو ۲ -0.5 ۰.۲۵
دبلیو ۳ ۵.۰ ۲۵.۰
دبلیو ۴ -۱.۲ ۱.۴۴
w 5 ۰.۳ ۰.۰۹
دبلیو ۶ -0.1 ۰.۰۱
۲۶.۸۳ = مجموع

توجه داشته باشید که وزن‌های نزدیک به صفر تأثیر زیادی بر منظم‌سازی L2 ندارند، اما وزن‌های بزرگ می‌توانند تأثیر زیادی داشته باشند. برای مثال، در محاسبه قبلی:

  • یک وزن واحد ( w3 ) حدود ۹۳٪ از کل پیچیدگی را تشکیل می‌دهد.
  • پنج وزن دیگر روی هم رفته تنها حدود ۷٪ از کل پیچیدگی را تشکیل می‌دهند.

منظم‌سازی L2 وزن‌ها را به سمت صفر سوق می‌دهد، اما هرگز وزن‌ها را کاملاً به سمت صفر سوق نمی‌دهد.

تمرین‌ها: درک خود را بسنجید

اگر هنگام آموزش یک مدل از منظم‌سازی L₂ استفاده کنید، معمولاً چه اتفاقی برای پیچیدگی کلی مدل می‌افتد؟
احتمالاً پیچیدگی کلی سیستم کاهش خواهد یافت.
از آنجایی که منظم‌سازی L2 وزن‌ها را به سمت ۰ سوق می‌دهد، احتمالاً پیچیدگی کلی کاهش خواهد یافت.
پیچیدگی کلی مدل احتمالاً ثابت خواهد ماند.
این خیلی بعید است.
احتمالاً پیچیدگی کلی مدل افزایش خواهد یافت.
این بعید است. به یاد داشته باشید که منظم‌سازی L2 وزن‌ها را به سمت ۰ سوق می‌دهد.
اگر هنگام آموزش یک مدل از منظم‌سازی L₂ استفاده کنید، برخی از ویژگی‌ها از مدل حذف می‌شوند.
درست
اگرچه منظم‌سازی L2 ممکن است برخی از وزن‌ها را بسیار کوچک کند، اما هرگز هیچ وزنی را به صفر نمی‌رساند. در نتیجه، همه ویژگی‌ها همچنان به مدل کمک خواهند کرد.
نادرست
منظم‌سازی L2 هرگز وزن‌ها را تا انتها به سمت صفر نمی‌برد.

نرخ منظم‌سازی (لامبدا)

همانطور که اشاره شد، آموزش تلاش می‌کند تا ترکیبی از ضرر و پیچیدگی را به حداقل برساند:

$$\text{minimize(loss} + \text{ complexity)}$$

توسعه‌دهندگان مدل، تأثیر کلی پیچیدگی بر آموزش مدل را با ضرب مقدار آن در یک اسکالر به نام نرخ منظم‌سازی تنظیم می‌کنند. کاراکتر یونانی لامبدا معمولاً نماد نرخ منظم‌سازی است.

یعنی، توسعه‌دهندگان مدل قصد دارند موارد زیر را انجام دهند:

$$\text{minimize(loss} + \lambda \text{ complexity)}$$

نرخ بالای منظم‌سازی:

  • تأثیر منظم‌سازی را تقویت می‌کند و در نتیجه احتمال بیش‌برازش را کاهش می‌دهد.
  • تمایل دارد هیستوگرامی از وزن‌های مدل با ویژگی‌های زیر تولید کند:
    • توزیع نرمال
    • وزن متوسط ​​۰.

نرخ منظم‌سازی پایین:

  • تأثیر منظم‌سازی را کاهش می‌دهد و در نتیجه احتمال بیش‌برازش را افزایش می‌دهد.
  • تمایل دارد یک هیستوگرام از وزن‌های مدل با توزیع مسطح تولید کند.

برای مثال، هیستوگرام وزن‌های مدل برای نرخ منظم‌سازی بالا ممکن است مانند شکل ۱۸ باشد.

شکل ۱۸. هیستوگرام وزن‌های یک مدل با میانگین صفر و توزیع نرمال.
شکل ۱۸. هیستوگرام وزن برای نرخ منظم‌سازی بالا. میانگین صفر است. توزیع نرمال.

در مقابل، نرخ منظم‌سازی پایین، همانطور که در شکل ۱۹ نشان داده شده است، تمایل به ایجاد هیستوگرام مسطح‌تر دارد.

شکل ۱۹. هیستوگرام وزن‌های یک مدل با میانگین صفر که چیزی بین توزیع مسطح و توزیع نرمال است.
شکل ۱۹. هیستوگرام وزن برای نرخ منظم‌سازی پایین. میانگین ممکن است صفر باشد یا نباشد.

انتخاب نرخ منظم‌سازی

نرخ منظم‌سازی ایده‌آل، مدلی تولید می‌کند که به خوبی به داده‌های جدید و قبلاً دیده نشده تعمیم می‌یابد. متأسفانه، این مقدار ایده‌آل وابسته به داده‌ها است، بنابراین شما باید برخی کارها را انجام دهیدتنظیم.

توقف زودهنگام: جایگزینی برای منظم‌سازی مبتنی بر پیچیدگی

توقف زودهنگام یک روش منظم‌سازی است که شامل محاسبه پیچیدگی نمی‌شود. در عوض، توقف زودهنگام صرفاً به معنای پایان دادن به آموزش قبل از همگرایی کامل مدل است. به عنوان مثال، شما آموزش را زمانی پایان می‌دهید که منحنی زیان برای مجموعه اعتبارسنجی شروع به افزایش کند (شیب مثبت شود).

اگرچه توقف زودهنگام معمولاً باعث افزایش افت تمرین می‌شود، اما می‌تواند افت آزمایش را کاهش دهد.

توقف زودهنگام، نوعی منظم‌سازی سریع، اما به ندرت بهینه است. بعید است که مدل حاصل به خوبی مدلی باشد که به طور کامل با نرخ منظم‌سازی ایده‌آل آموزش دیده است.

یافتن تعادل بین نرخ یادگیری و نرخ منظم‌سازی

نرخ یادگیری و نرخ منظم‌سازی تمایل دارند وزن‌ها را در جهت‌های مخالف حرکت دهند. نرخ یادگیری بالا اغلب وزن‌ها را از صفر دور می‌کند؛ نرخ منظم‌سازی بالا وزن‌ها را به سمت صفر هل می‌دهد.

اگر نرخ منظم‌سازی نسبت به نرخ یادگیری بالا باشد، وزن‌های ضعیف تمایل به تولید مدلی دارند که پیش‌بینی‌های ضعیفی ارائه می‌دهد. برعکس، اگر نرخ یادگیری نسبت به نرخ منظم‌سازی بالا باشد، وزن‌های قوی تمایل به تولید مدلی با برازش بیش از حد دارند.

هدف شما یافتن تعادل بین نرخ یادگیری و نرخ منظم‌سازی است. این می‌تواند چالش‌برانگیز باشد. بدتر از همه، وقتی آن تعادل دست‌نیافتنی را پیدا کردید، ممکن است در نهایت مجبور شوید نرخ یادگیری را تغییر دهید. و وقتی نرخ یادگیری را تغییر می‌دهید، دوباره باید نرخ منظم‌سازی ایده‌آل را پیدا کنید.