منحنی تعمیم زیر را در نظر بگیرید که ضرر را برای مجموعه آموزشی و مجموعه اعتبارسنجی در برابر تعداد تکرارهای آموزشی نشان می دهد.
شکل 1. ضرر در مجموعه آموزشی و مجموعه اعتبار سنجی.
شکل 1 مدلی را نشان می دهد که در آن تلفات تمرینی به تدریج کاهش می یابد، اما افت اعتبار در نهایت افزایش می یابد. به عبارت دیگر، این منحنی تعمیم نشان می دهد که مدل بیش از حد با داده های مجموعه آموزشی سازگار است. با هدایت اوکام درونی خود، شاید بتوانیم با جریمه کردن مدلهای پیچیده، اصلی به نام منظمسازی، از تطبیق بیش از حد جلوگیری کنیم.
به عبارت دیگر، به جای صرفاً به حداقل رساندن ضرر (به حداقل رساندن ریسک تجربی):
اکنون ضرر+پیچیدگی را به حداقل میرسانیم که به آن کمینهسازی ریسک ساختاری میگویند:
الگوریتم بهینهسازی آموزش ما اکنون تابعی از دو عبارت است: عبارت ضرر ، که میزان تناسب مدل با دادهها را اندازهگیری میکند، و عبارت منظمسازی ، که پیچیدگی مدل را اندازهگیری میکند.
دوره تصادف یادگیری ماشین بر دو روش رایج (و تا حدودی مرتبط) برای اندیشیدن به پیچیدگی مدل تمرکز دارد:
- پیچیدگی مدل به عنوان تابعی از وزن تمام ویژگی های مدل.
- پیچیدگی مدل به عنوان تابعی از تعداد کل ویژگی ها با وزن غیر صفر. (یک ماژول بعدی این رویکرد را پوشش می دهد.)
اگر پیچیدگی مدل تابعی از وزن ها باشد، وزن ویژگی با قدر مطلق بالا پیچیده تر از وزن ویژگی با مقدار مطلق کم است.
ما میتوانیم پیچیدگی را با استفاده از فرمول منظمسازی L 2 ، که عبارت منظمسازی را بهعنوان مجموع مربعهای همه وزنهای ویژگی تعریف میکند، کمی کنیم:
در این فرمول، وزنهای نزدیک به صفر تأثیر کمی بر پیچیدگی مدل دارند، در حالی که وزنهای پرت میتوانند تأثیر زیادی داشته باشند.
به عنوان مثال، یک مدل خطی با وزن های زیر:
دارای مدت تنظیم L 2 26.915:
اما \(w_3\) (پررنگ در بالا)، با مقدار مجذور 25، تقریباً در تمام پیچیدگی نقش دارد. مجموع مجذورهای هر پنج وزن دیگر فقط 1.915 به عبارت منظم L 2 اضافه می کند.