بیش از حد برازش

تطبیق بیش از حد به معنای ایجاد مدلی است که با مجموعه آموزشی مطابقت داشته باشد ( به خاطر بسپارد ) آنقدر نزدیک که مدل نتواند پیش بینی درستی روی داده های جدید انجام دهد. یک مدل بیش از حد شبیه به اختراعی است که در آزمایشگاه عملکرد خوبی دارد اما در دنیای واقعی بی ارزش است.

در شکل 11 تصور کنید که هر شکل هندسی موقعیت یک درخت را در یک جنگل مربعی نشان می دهد. الماس های آبی مکان درختان سالم را مشخص می کنند، در حالی که دایره های نارنجی محل درختان بیمار را مشخص می کنند.

شکل 11. این شکل شامل حدود 60 نقطه است که نیمی از آن درختان سالم و نیمی دیگر درختان بیمار هستند.             درختان سالم عمدتاً در ربع شمال شرقی هستند، اگرچه چند درخت سالم به صورت مخفیانه به ربع شمال غربی می روند. درختان بیمار عمدتاً در ربع جنوب شرقی هستند، اما تعداد کمی از درختان بیمار به ربع های دیگر می ریزند.
شکل 11. مجموعه آموزشی: مکان درختان سالم و بیمار در یک جنگل مربع.

هر شکلی را به صورت ذهنی بکشید - خطوط، منحنی ها، بیضی ها ... هر چیزی - تا درختان سالم را از درختان بیمار جدا کنید. سپس، خط بعدی را برای بررسی یک جداسازی احتمالی گسترش دهید.

اشکال پیچیده نشان داده شده در شکل 12 با موفقیت همه درختان به جز دو درخت را دسته بندی کردند. اگر به شکل ها به عنوان یک مدل فکر کنیم، این یک مدل فوق العاده است.

یا هست؟ یک مدل واقعا عالی نمونه های جدید را با موفقیت دسته بندی می کند. شکل 13 نشان می دهد که چه اتفاقی می افتد وقتی همان مدل روی نمونه های جدید از مجموعه آزمایشی پیش بینی می کند:

شکل 13. دسته جدیدی از درختان سالم و بیمار که روی مدل نشان داده شده در شکل 12 پوشانده شده است. این مدل بسیاری از درختان را به اشتباه دسته بندی می کند.
شکل 13. مجموعه تست: مدلی پیچیده برای تشخیص درختان بیمار از سالم.

بنابراین، مدل پیچیده نشان داده شده در شکل 12 در مجموعه آموزشی کار بسیار خوبی انجام داد اما در مجموعه آزمایشی کار بسیار بدی را انجام داد. این یک مورد کلاسیک از تطابق بیش از حد مدل با داده های مجموعه آموزشی است.

فیتینگ، بیش از حد و کم تناسب

یک مدل باید روی داده های جدید پیش بینی های خوبی داشته باشد. یعنی هدف شما ایجاد مدلی است که با داده‌های جدید «تناسب» داشته باشد.

همانطور که دیدید، یک مدل overfit پیش‌بینی‌های عالی را در مجموعه آموزشی انجام می‌دهد اما پیش‌بینی‌های ضعیفی را در داده‌های جدید انجام می‌دهد. یک مدل underfit حتی پیش بینی خوبی در مورد داده های آموزشی انجام نمی دهد. اگر یک مدل overfit مانند محصولی است که در آزمایشگاه عملکرد خوبی دارد اما در دنیای واقعی ضعیف است، مدل underfit مانند محصولی است که حتی در آزمایشگاه نیز عملکرد خوبی ندارد.

شکل 14. نمودار دکارتی. محور X دارای برچسب "کیفیت پیش بینی ها در مجموعه تمرینی" است. محور Y دارای برچسب "کیفیت پیش بینی ها در داده های دنیای واقعی" است. یک منحنی از مبدا شروع می شود و به تدریج بالا می رود، اما سپس به همان سرعت پایین می آید. بخش پایین سمت چپ منحنی (کیفیت پایین پیش‌بینی‌ها بر روی داده‌های دنیای واقعی و کیفیت پایین پیش‌بینی‌ها در مجموعه آموزشی) دارای برچسب «مدل‌های زیرمجموعه» است. بخش پایین سمت راست منحنی (کیفیت پایین پیش‌بینی‌ها بر روی داده‌های دنیای واقعی اما کیفیت بالای پیش‌بینی‌ها در مجموعه آموزشی) با عنوان «مدل‌های اضافه برازش» نامگذاری شده است. اوج منحنی (کیفیت بالای پیش‌بینی‌ها بر روی داده‌های دنیای واقعی و کیفیت متوسط ​​پیش‌بینی‌ها در مجموعه آموزشی) با عنوان «مدل‌های مناسب» مشخص می‌شود.
شکل 14. مدل های Underfit، fit و overfit.

تعمیم مخالف بیش از حد برازش است. یعنی مدلی که به خوبی تعمیم می‌یابد، پیش‌بینی‌های خوبی را روی داده‌های جدید انجام می‌دهد. هدف شما ایجاد مدلی است که به خوبی به داده های جدید تعمیم یابد.

تشخیص بیش از حد برازش

منحنی های زیر به شما کمک می کنند تا بیش از حد برازش را تشخیص دهید:

  • منحنی های از دست دادن
  • منحنی های تعمیم

یک منحنی ضرر، ضرر مدل را در برابر تعداد تکرارهای آموزشی ترسیم می کند. نموداری که دو یا چند منحنی ضرر را نشان می دهد، منحنی تعمیم نامیده می شود. منحنی تعمیم زیر دو منحنی ضرر را نشان می دهد:

شکل 15. تابع ضرر برای مجموعه آموزشی به تدریج کاهش می یابد. تابع ضرر برای مجموعه اعتبارسنجی نیز کاهش می یابد، اما پس از تعداد معینی از تکرار شروع به افزایش می کند.
شکل 15. منحنی تعمیم که به شدت دلالت بر برازش بیش از حد دارد.

توجه داشته باشید که دو منحنی از دست دادن در ابتدا یکسان رفتار می کنند و سپس واگرا می شوند. یعنی پس از تعداد معینی از تکرار، ضرر کاهش می یابد یا برای مجموعه آموزشی ثابت می ماند (همگرا می شود)، اما برای مجموعه اعتبار سنجی افزایش می یابد. این نشان می دهد که بیش از حد مناسب است.

در مقابل، یک منحنی تعمیم برای یک مدل مناسب، دو منحنی از دست دادن را نشان می‌دهد که شکل‌های مشابهی دارند.

چه چیزی باعث بیش از حد مناسب می شود؟

به طور کلی، برازش بیش از حد به دلیل یکی از مشکلات زیر ایجاد می شود:

  • مجموعه آموزشی به اندازه کافی داده های واقعی (یا مجموعه اعتبارسنجی یا مجموعه آزمایشی) را نشان نمی دهد.
  • مدل خیلی پیچیده است.

شرایط تعمیم

یک مدل در یک مجموعه آموزشی تمرین می کند، اما آزمون واقعی ارزش یک مدل این است که چگونه در نمونه های جدید، به ویژه در داده های دنیای واقعی، پیش بینی می کند. هنگام توسعه یک مدل، مجموعه آزمایشی شما به عنوان یک پروکسی برای داده های دنیای واقعی عمل می کند. آموزش مدلی که به خوبی تعمیم می یابد، مستلزم شرایط مجموعه زیر است:

  • مثال‌ها باید به‌طور مستقل و یکسان توزیع شوند، که روشی جالب برای گفتن این است که مثال‌های شما نمی‌توانند روی یکدیگر تأثیر بگذارند.
  • مجموعه داده ثابت است، به این معنی که مجموعه داده به طور قابل توجهی در طول زمان تغییر نمی کند.
  • پارتیشن های مجموعه داده ها توزیع یکسانی دارند. یعنی مثال‌های مجموعه آموزشی از نظر آماری مشابه نمونه‌های مجموعه اعتبارسنجی، مجموعه تست و داده‌های دنیای واقعی هستند.

از طریق تمرینات زیر شرایط قبلی را بررسی کنید.

تمرینات: درک خود را بررسی کنید

پارتیشن های مجموعه داده زیر را در نظر بگیرید.
یک نوار افقی که به سه قسمت تقسیم می شود: 70% میله مجموعه آموزشی، 15% مجموعه اعتبار سنجی و 15% مجموعه تست است.
برای اطمینان از اینکه نمونه های مجموعه آموزشی دارای توزیع آماری مشابهی با نمونه های مجموعه اعتبار سنجی و مجموعه تست هستند، چه کاری باید انجام دهید؟
نمونه های موجود در مجموعه داده را قبل از پارتیشن بندی به طور گسترده با هم مخلوط کنید.
بله. به هم ریختن خوب مثال ها باعث می شود پارتیشن ها از نظر آماری بسیار مشابه باشند.
نمونه ها را از قدیمی ترین به جدیدترین مرتب سازی کنید.
اگر نمونه‌های مجموعه داده ثابت نباشند، مرتب‌سازی پارتیشن‌ها را کمتر شبیه می‌کند.
هیچ کاری نکن با توجه به مثال های کافی، قانون میانگین ها به طور طبیعی تضمین می کند که توزیع ها از نظر آماری مشابه خواهند بود.
متاسفانه اینطور نیست. نمونه‌های موجود در بخش‌های خاصی از مجموعه داده ممکن است با نمونه‌های موجود در بخش‌های دیگر متفاوت باشد.
یک سرویس استریم در حال توسعه مدلی برای پیش بینی محبوبیت برنامه های تلویزیونی جدید بالقوه برای سه سال آینده است. این سرویس استریم قصد دارد این مدل را بر روی مجموعه داده‌ای شامل صدها میلیون نمونه، در ده سال گذشته آموزش دهد. آیا این مدل با مشکل مواجه می شود؟
احتمالا. ذائقه بینندگان به گونه ای تغییر می کند که رفتار گذشته نمی تواند پیش بینی کند.
بله. سلیقه بیننده ثابت نیست. مدام تغییر می کنند.
قطعا نه. مجموعه داده به اندازه کافی بزرگ است تا بتوان پیش بینی های خوبی را انجام داد.
متاسفانه سلیقه بینندگان ثابت نیست.
احتمالا نه. ذائقه بینندگان به روش های چرخه ای قابل پیش بینی تغییر می کند. داده های ده ساله مدل را قادر می سازد تا پیش بینی های خوبی در مورد روندهای آینده داشته باشد.
اگرچه جنبه‌های خاصی از سرگرمی تا حدودی چرخه‌ای هستند، مدلی که از تاریخ سرگرمی گذشته آموزش دیده است، تقریباً به طور قطع در پیش‌بینی‌سازی در مورد چند سال آینده با مشکل مواجه خواهد شد.
هدف این مدل پیش‌بینی مدت زمانی است که مردم برای پیاده‌روی یک مایل طول می‌کشند بر اساس داده‌های آب و هوا (دما، نقطه شبنم و بارش) جمع‌آوری‌شده در طول یک سال در شهری که آب و هوای آن به‌طور قابل‌توجهی با فصل متفاوت است. آیا می توانید یک مدل از این مجموعه داده بسازید و آزمایش کنید، حتی اگر خوانش های آب و هوا به طور چشمگیری در فصل تغییر کند؟
بله
بله، امکان ساخت و آزمایش یک مدل از این مجموعه داده وجود دارد. فقط باید اطمینان حاصل کنید که داده ها به طور مساوی تقسیم می شوند، به طوری که داده های هر چهار فصل به طور مساوی در پارتیشن های مختلف توزیع می شوند.
خیر
با فرض اینکه این مجموعه داده شامل نمونه های کافی از دما، نقطه شبنم و بارش باشد، می توانید مدلی از این مجموعه داده بسازید و آزمایش کنید. فقط باید اطمینان حاصل کنید که داده ها به طور مساوی تقسیم می شوند، به طوری که داده های هر چهار فصل به طور مساوی در پارتیشن های مختلف توزیع می شوند.

تمرین چالشی

شما در حال ایجاد مدلی هستید که تاریخ ایده آلی را برای سواران برای خرید بلیط قطار برای یک مسیر خاص پیش بینی می کند. برای مثال، این مدل ممکن است به کاربران توصیه کند که بلیط خود را در 8 ژوئیه برای قطاری که 23 ژوئیه حرکت می‌کند، خریداری کنند. شرکت قطار قیمت‌ها را هر ساعت به‌روزرسانی می‌کند، به‌روزرسانی‌های خود را بر اساس عوامل مختلف اما عمدتاً بر اساس تعداد فعلی صندلی‌های موجود است. یعنی:

  • اگر تعداد زیادی صندلی در دسترس باشد، قیمت بلیط معمولا پایین است.
  • اگر تعداد کمی صندلی در دسترس باشد، قیمت بلیط معمولاً بالاست.
مدل شما در مجموعه اعتبارسنجی و مجموعه آزمایشی ضرر کم نشان می دهد، اما گاهی اوقات پیش بینی های وحشتناکی را روی داده های دنیای واقعی انجام می دهد. چرا؟
برای مشاهده پاسخ اینجا را کلیک کنید