این صفحه به‌وسیله ‏Cloud Translation API‏ ترجمه شده است.

مجموعه داده ها، تعمیم و برازش بیش از حد

اهداف آموزشی

چهار ویژگی مختلف داده ها و مجموعه داده ها را شناسایی کنید.
حداقل چهار علت مختلف غیرقابل اعتماد بودن داده ها را شناسایی کنید.
تعیین کنید که چه زمانی داده‌های از دست رفته را دور بیندازید و چه زمانی آن‌ها را نسبت دهید.
بین برچسب های مستقیم و مشتق شده تفاوت قائل شوید.
دو روش مختلف برای بهبود کیفیت برچسب‌های رتبه‌بندی شده توسط انسان را شناسایی کنید.
توضیح دهید که چرا باید یک مجموعه داده را به مجموعه آموزشی، مجموعه اعتبارسنجی و مجموعه آزمایشی تقسیم کرد. شناسایی یک مشکل بالقوه در تقسیم داده ها
بیش از حد مناسب را توضیح دهید و سه علت احتمالی آن را شناسایی کنید.
مفهوم قاعده مندسازی را توضیح دهید. به ویژه موارد زیر را توضیح دهید:
- سوگیری در مقابل واریانس (انطباق با نقاط پرت…)
- تنظیم L ₂ ، از جمله لامبدا (نرخ تنظیم)
- توقف زودهنگام
انواع مختلف منحنی های ضرر را تفسیر کنید. تشخیص همگرایی و برازش بیش از حد در منحنی های تلفات.

مقدمه

این ماژول با یک سوال اصلی شروع می شود. یکی از پاسخ های زیر را انتخاب کنید:

اگر بخواهید یکی از زمینه های زیر را در پروژه یادگیری ماشین خود اولویت بندی کنید، کدامیک بیشترین تأثیر را خواهد داشت؟

بهبود کیفیت مجموعه داده شما

داده ها بر همه چیز برتری دارند. کیفیت و اندازه مجموعه داده بسیار بیشتر از الگوریتم درخشانی است که برای ساخت مدل خود استفاده می کنید.

استفاده از یک تابع زیان هوشمندانه تر برای آموزش مدل خود

درست است، عملکرد بهتر از دست دادن می‌تواند به یک مدل کمک کند تا سریع‌تر تمرین کند، اما هنوز هم در رتبه دوم از موارد دیگر در این لیست قرار دارد.

و در اینجا یک سوال مهم تر وجود دارد:

حدس بزنید: در پروژه یادگیری ماشینی خود، معمولاً چقدر زمان برای آماده سازی و تبدیل داده ها صرف می کنید؟

بیش از نیمی از زمان پروژه

بله، متخصصان ML بیشتر وقت خود را صرف ساخت مجموعه داده ها و انجام مهندسی ویژگی می کنند.

کمتر از نیمی از زمان پروژه

برای بیشتر برنامه ریزی کنید! به طور معمول، 80 درصد از زمان پروژه یادگیری ماشینی صرف ساخت مجموعه داده ها و تبدیل داده ها می شود.

در این ماژول، درباره ویژگی‌های مجموعه داده‌های یادگیری ماشین، و نحوه آماده‌سازی داده‌های خود برای اطمینان از نتایج با کیفیت در هنگام آموزش و ارزیابی مدل، اطلاعات بیشتری کسب خواهید کرد.

قبلی

دانش خود را آزمایش کنید (10 دقیقه)

بعدی

مشخصات داده ها (10 دقیقه)

مجموعه داده ها، تعمیم و برازش بیش از حد با مجموعه‌ها، منظم بمانید ذخیره و طبقه‌بندی محتوا براساس اولویت‌های شما.

مقدمه

مجموعه داده ها، تعمیم و برازش بیش از حد