فرآیند آماده سازی داده ها و مهندسی ویژگی

فرآیند چگونه است؟

همانطور که قبلا ذکر شد، این دوره بر ساخت مجموعه داده های شما و تبدیل داده های شما تمرکز دارد.

ساخت مجموعه داده شما شامل وظایف زیر است: 1. جمع آوری داده های خام. 2. منابع ویژگی و برچسب را شناسایی کنید. 3. استراتژی نمونه گیری را انتخاب کنید. 4. داده ها را تقسیم کنید. تبدیل داده ها شامل وظایف زیر است: 1. داده های خود را کاوش و پاک کنید. 2. مهندسی ویژگی را انجام دهید.

یادت باشه:

  • شکل یک فرآیند معمولی را نشان می دهد که ممکن است برای هر پروژه ایده آل نباشد. این دوره در درجه اول برای رگرسیون خطی و شبکه های عصبی کاربرد دارد.
  • روند نشان داده شده همیشه متوالی نیست. به عنوان مثال، ممکن است داده های خود را پس از تبدیل آن ها تقسیم کنید. ممکن است نیاز به جمع آوری داده های بیشتری داشته باشید. ممکن است لازم باشد مجموعه ویژگی‌ها را تغییر دهید، حتی پس از شروع آموزش، زیرا به طور تجربی یاد می‌گیرید که چه چیزی کار می‌کند و چه چیزی خوب نیست.

چقدر زمان می برد؟

برای سوال زیر روی فلش مورد نظر کلیک کنید تا پاسخ خود را بررسی کنید:

حدس بزنید: در پروژه یادگیری ماشینی خود، معمولاً چقدر زمان برای آماده سازی و تبدیل داده ها صرف می کنید؟
بیش از نیمی از زمان پروژه
درست است: شما بیشتر زمان را صرف پروژه یادگیری ماشینی برای ساخت مجموعه داده ها و تبدیل داده ها خواهید کرد.
کمتر از نیمی از زمان پروژه
برای بیشتر برنامه ریزی کنید! به طور معمول، 80 درصد از زمان پروژه یادگیری ماشینی صرف ساخت مجموعه داده ها و تبدیل داده ها می شود.