مجموعه داده ها، تعمیم و برازش بیش از حد

مقدمه

این ماژول با یک سوال اصلی شروع می شود. یکی از پاسخ های زیر را انتخاب کنید:

اگر بخواهید یکی از زمینه های زیر را در پروژه یادگیری ماشین خود اولویت بندی کنید، کدامیک بیشترین تأثیر را خواهد داشت؟
بهبود کیفیت مجموعه داده شما
داده ها بر همه چیز برتری دارند. کیفیت و اندازه مجموعه داده بسیار بیشتر از الگوریتم درخشانی است که برای ساخت مدل خود استفاده می کنید.
استفاده از یک تابع زیان هوشمندانه تر برای آموزش مدل خود
درست است، عملکرد بهتر از دست دادن می‌تواند به یک مدل کمک کند تا سریع‌تر تمرین کند، اما هنوز هم در رتبه دوم از موارد دیگر در این لیست قرار دارد.

و در اینجا یک سوال مهم تر وجود دارد:

حدس بزنید: در پروژه یادگیری ماشینی خود، معمولاً چقدر زمان برای آماده سازی و تبدیل داده ها صرف می کنید؟
بیش از نیمی از زمان پروژه
بله، متخصصان ML بیشتر وقت خود را صرف ساخت مجموعه داده ها و انجام مهندسی ویژگی می کنند.
کمتر از نیمی از زمان پروژه
برای بیشتر برنامه ریزی کنید! به طور معمول، 80 درصد از زمان پروژه یادگیری ماشینی صرف ساخت مجموعه داده ها و تبدیل داده ها می شود.

در این ماژول، درباره ویژگی‌های مجموعه داده‌های یادگیری ماشین، و نحوه آماده‌سازی داده‌های خود برای اطمینان از نتایج با کیفیت در هنگام آموزش و ارزیابی مدل، اطلاعات بیشتری کسب خواهید کرد.