بیش از حد: تنظیم L2

تنظیم L 2 یک معیار منظم سازی محبوب است که از فرمول زیر استفاده می کند:

$$L_2\text{ regularization } = {w_1^2 + w_2^2 + ... + w_n^2}$$

به عنوان مثال، جدول زیر محاسبه منظم سازی L 2 را برای مدلی با شش وزن نشان می دهد:

ارزش مقدار مربع
w 1 0.2 0.04
w 2 -0.5 0.25
w 3 5.0 25.0
w 4 -1.2 1.44
w 5 0.3 0.09
w 6 -0.1 0.01
26.83 = کل

توجه داشته باشید که وزن‌های نزدیک به صفر بر تنظیم L 2 تأثیر زیادی نمی‌گذارند، اما وزن‌های بزرگ می‌توانند تأثیر زیادی داشته باشند. به عنوان مثال، در محاسبه قبلی:

  • یک وزن منفرد (w 3 ) حدود 93 درصد از کل پیچیدگی را تشکیل می دهد.
  • پنج وزن دیگر در مجموع تنها حدود 7 درصد از کل پیچیدگی را تشکیل می دهند.

تنظیم L 2 وزنه ها را به سمت 0 تشویق می کند، اما هرگز وزنه ها را تا انتها به صفر نمی رساند.

تمرینات: درک خود را بررسی کنید

اگر هنگام آموزش یک مدل از منظم سازی L 2 استفاده کنید، معمولاً برای پیچیدگی کلی مدل چه اتفاقی می افتد؟
پیچیدگی کلی سیستم احتمالا کاهش خواهد یافت.
از آنجایی که تنظیم L 2 وزن ها را به سمت 0 تشویق می کند، احتمالاً پیچیدگی کلی کاهش می یابد.
پیچیدگی کلی مدل احتمالا ثابت خواهد ماند.
این خیلی بعید است.
پیچیدگی کلی مدل احتمالا افزایش خواهد یافت.
این بعید است. به یاد داشته باشید که تنظیم L 2 وزنه ها را به سمت 0 تشویق می کند.
اگر در حین آموزش یک مدل از منظم سازی L 2 استفاده کنید، برخی از ویژگی ها از مدل حذف می شود.
درست است
اگرچه تنظیم L 2 ممکن است برخی از وزنه ها را بسیار کوچک کند، اما هرگز وزنه ای را تا انتها به صفر نمی رساند. در نتیجه، همه ویژگی‌ها همچنان به مدل کمک می‌کنند.
نادرست
تنظیم L 2 هرگز وزنه ها را به صفر نمی رساند.

نرخ منظم سازی (لامبدا)

همانطور که اشاره شد، آموزش تلاش می کند تا ترکیبی از ضرر و پیچیدگی را به حداقل برساند:

$$\text{minimize(loss} + \text{ complexity)}$$

توسعه دهندگان مدل، تأثیر کلی پیچیدگی بر آموزش مدل را با ضرب مقدار آن در یک اسکالر به نام نرخ منظم سازی تنظیم می کنند. کاراکتر یونانی لامبدا معمولاً نماد نرخ منظم‌سازی است.

به این معنی که توسعه دهندگان مدل قصد دارند موارد زیر را انجام دهند:

$$\text{minimize(loss} + \lambda \text{ complexity)}$$

نرخ منظم سازی بالا:

  • تأثیر منظم سازی را تقویت می کند، در نتیجه شانس بیش از حد برازش را کاهش می دهد.
  • تمایل به تولید هیستوگرام وزن مدل با ویژگی های زیر دارد:
    • توزیع نرمال
    • میانگین وزن 0

نرخ تنظیم پایین:

  • تأثیر منظم شدن را کاهش می دهد، در نتیجه شانس بیش از حد برازش را افزایش می دهد.
  • تمایل به تولید هیستوگرام وزن مدل با توزیع مسطح دارد.

به عنوان مثال، هیستوگرام وزن مدل برای نرخ منظم سازی بالا ممکن است همانطور که در شکل 18 نشان داده شده است.

شکل 18. هیستوگرام وزن های یک مدل با میانگین صفر و توزیع نرمال.
شکل 18. هیستوگرام وزن برای نرخ منظم سازی بالا. میانگین صفر است. توزیع نرمال

در مقابل، همانطور که در شکل 19 نشان داده شده است، یک نرخ منظم سازی پایین تمایل به ایجاد هیستوگرام صاف تری دارد.

شکل 19. هیستوگرام وزن های مدل با میانگین صفر که جایی بین توزیع مسطح و توزیع نرمال است.
شکل 19. هیستوگرام وزن برای نرخ تنظیم پایین. میانگین ممکن است صفر باشد یا نباشد.

انتخاب نرخ منظم سازی

نرخ منظم‌سازی ایده‌آل مدلی را تولید می‌کند که به خوبی به داده‌های جدید و قبلاً دیده نشده تعمیم می‌یابد. متأسفانه، این مقدار ایده‌آل وابسته به داده است، بنابراین باید مقداری را انجام دهیدتنظیم

توقف زودهنگام: جایگزینی برای منظم سازی مبتنی بر پیچیدگی

توقف زودهنگام یک روش منظم سازی است که شامل محاسبه پیچیدگی نمی شود. در عوض، توقف زودهنگام صرفاً به معنای پایان دادن به تمرین قبل از همگرایی کامل مدل است. به عنوان مثال، زمانی که منحنی ضرر مجموعه اعتبارسنجی شروع به افزایش می‌کند (شیب مثبت می‌شود) تمرین را پایان می‌دهید.

اگرچه توقف زودهنگام معمولاً از دست دادن تمرین را افزایش می دهد، اما می تواند از دست دادن تست را کاهش دهد.

توقف زودهنگام یک شکل منظم، اما به ندرت مطلوب است. خیلی بعید است که مدل به دست آمده به خوبی مدلی باشد که به طور کامل بر روی نرخ تنظیم ایده آل آموزش دیده است.

یافتن تعادل بین میزان یادگیری و نرخ منظم سازی

نرخ یادگیری و نرخ منظم سازی تمایل دارند وزنه ها را در جهت مخالف بکشند. نرخ یادگیری بالا اغلب وزن ها را از صفر دور می کند. نرخ منظم سازی بالا وزن ها را به سمت صفر می کشد.

اگر نرخ منظم سازی با توجه به نرخ یادگیری بالا باشد، وزن های ضعیف تمایل به تولید مدلی دارند که پیش بینی های ضعیفی را انجام می دهد. برعکس، اگر نرخ یادگیری با توجه به نرخ منظم‌سازی بالا باشد، وزنه‌های قوی تمایل به تولید یک مدل اضافه برازش دارند.

هدف شما یافتن تعادل بین میزان یادگیری و نرخ منظم سازی است. این می تواند چالش برانگیز باشد. بدتر از همه، هنگامی که تعادل گریزان را پیدا کردید، ممکن است مجبور شوید در نهایت میزان یادگیری را تغییر دهید. و وقتی نرخ یادگیری را تغییر می‌دهید، دوباره باید نرخ منظم‌سازی ایده‌آل را پیدا کنید.