منظمسازی L2 یک معیار منظمسازی محبوب است که از فرمول زیر استفاده میکند:
برای مثال، جدول زیر محاسبهی منظمسازی L2 را برای مدلی با شش وزن نشان میدهد:
| ارزش | مقدار مربع | |
|---|---|---|
| دبلیو ۱ | ۰.۲ | ۰.۰۴ |
| دبلیو ۲ | -0.5 | ۰.۲۵ |
| دبلیو ۳ | ۵.۰ | ۲۵.۰ |
| دبلیو ۴ | -۱.۲ | ۱.۴۴ |
| w 5 | ۰.۳ | ۰.۰۹ |
| دبلیو ۶ | -0.1 | ۰.۰۱ |
| ۲۶.۸۳ = مجموع |
توجه داشته باشید که وزنهای نزدیک به صفر تأثیر زیادی بر منظمسازی L2 ندارند، اما وزنهای بزرگ میتوانند تأثیر زیادی داشته باشند. برای مثال، در محاسبه قبلی:
- یک وزن واحد ( w3 ) حدود ۹۳٪ از کل پیچیدگی را تشکیل میدهد.
- پنج وزن دیگر روی هم رفته تنها حدود ۷٪ از کل پیچیدگی را تشکیل میدهند.
منظمسازی L2 وزنها را به سمت صفر سوق میدهد، اما هرگز وزنها را کاملاً به سمت صفر سوق نمیدهد.
تمرینها: درک خود را بسنجید
نرخ منظمسازی (لامبدا)
همانطور که اشاره شد، آموزش تلاش میکند تا ترکیبی از ضرر و پیچیدگی را به حداقل برساند:
توسعهدهندگان مدل، تأثیر کلی پیچیدگی بر آموزش مدل را با ضرب مقدار آن در یک اسکالر به نام نرخ منظمسازی تنظیم میکنند. کاراکتر یونانی لامبدا معمولاً نماد نرخ منظمسازی است.
یعنی، توسعهدهندگان مدل قصد دارند موارد زیر را انجام دهند:
نرخ بالای منظمسازی:
- تأثیر منظمسازی را تقویت میکند و در نتیجه احتمال بیشبرازش را کاهش میدهد.
- تمایل دارد هیستوگرامی از وزنهای مدل با ویژگیهای زیر تولید کند:
- توزیع نرمال
- وزن متوسط ۰.
نرخ منظمسازی پایین:
- تأثیر منظمسازی را کاهش میدهد و در نتیجه احتمال بیشبرازش را افزایش میدهد.
- تمایل دارد یک هیستوگرام از وزنهای مدل با توزیع مسطح تولید کند.
برای مثال، هیستوگرام وزنهای مدل برای نرخ منظمسازی بالا ممکن است مانند شکل ۱۸ باشد.
در مقابل، نرخ منظمسازی پایین، همانطور که در شکل ۱۹ نشان داده شده است، تمایل به ایجاد هیستوگرام مسطحتر دارد.
انتخاب نرخ منظمسازی
نرخ منظمسازی ایدهآل، مدلی تولید میکند که به خوبی به دادههای جدید و قبلاً دیده نشده تعمیم مییابد. متأسفانه، این مقدار ایدهآل وابسته به دادهها است، بنابراین شما باید برخی کارها را انجام دهیدتنظیم.
توقف زودهنگام: جایگزینی برای منظمسازی مبتنی بر پیچیدگی
توقف زودهنگام یک روش منظمسازی است که شامل محاسبه پیچیدگی نمیشود. در عوض، توقف زودهنگام صرفاً به معنای پایان دادن به آموزش قبل از همگرایی کامل مدل است. به عنوان مثال، شما آموزش را زمانی پایان میدهید که منحنی زیان برای مجموعه اعتبارسنجی شروع به افزایش کند (شیب مثبت شود).
اگرچه توقف زودهنگام معمولاً باعث افزایش افت تمرین میشود، اما میتواند افت آزمایش را کاهش دهد.
توقف زودهنگام، نوعی منظمسازی سریع، اما به ندرت بهینه است. بعید است که مدل حاصل به خوبی مدلی باشد که به طور کامل با نرخ منظمسازی ایدهآل آموزش دیده است.
یافتن تعادل بین نرخ یادگیری و نرخ منظمسازی
نرخ یادگیری و نرخ منظمسازی تمایل دارند وزنها را در جهتهای مخالف حرکت دهند. نرخ یادگیری بالا اغلب وزنها را از صفر دور میکند؛ نرخ منظمسازی بالا وزنها را به سمت صفر هل میدهد.
اگر نرخ منظمسازی نسبت به نرخ یادگیری بالا باشد، وزنهای ضعیف تمایل به تولید مدلی دارند که پیشبینیهای ضعیفی ارائه میدهد. برعکس، اگر نرخ یادگیری نسبت به نرخ منظمسازی بالا باشد، وزنهای قوی تمایل به تولید مدلی با برازش بیش از حد دارند.
هدف شما یافتن تعادل بین نرخ یادگیری و نرخ منظمسازی است. این میتواند چالشبرانگیز باشد. بدتر از همه، وقتی آن تعادل دستنیافتنی را پیدا کردید، ممکن است در نهایت مجبور شوید نرخ یادگیری را تغییر دهید. و وقتی نرخ یادگیری را تغییر میدهید، دوباره باید نرخ منظمسازی ایدهآل را پیدا کنید.