مقدمه ای بر ساخت مجموعه داده شما

مراحل ساخت مجموعه داده شما

برای ساخت مجموعه داده خود (و قبل از انجام تبدیل داده)، باید:

  1. داده های خام را جمع آوری کنید.
  2. منابع ویژگی و برچسب را شناسایی کنید.
  3. استراتژی نمونه گیری را انتخاب کنید.
  4. داده ها را تقسیم کنید

این مراحل بستگی زیادی به نحوه تنظیم مشکل ML خود دارد. از خودآزمایی زیر برای تازه کردن حافظه خود در مورد قاب بندی مشکل و بررسی فرضیات خود در مورد جمع آوری داده ها استفاده کنید.

خود بررسی مفاهیم چارچوب‌بندی مشکل و جمع‌آوری داده‌ها

برای سوالات زیر، روی فلش مورد نظر کلیک کنید تا پاسخ خود را بررسی کنید:

شما در یک پروژه یادگیری ماشین کاملاً جدید هستید و در شرف انتخاب اولین ویژگی های خود هستید. چند ویژگی را باید انتخاب کنید؟
1-3 ویژگی را انتخاب کنید که به نظر می رسد قدرت پیش بینی قوی دارند.
بهتر است خط لوله جمع آوری داده های شما فقط با یک یا دو ویژگی شروع شود. این به شما کمک می کند تا تأیید کنید که مدل ML همانطور که در نظر گرفته شده است کار می کند. همچنین، هنگامی که از چند ویژگی یک خط پایه ایجاد می کنید، احساس می کنید در حال پیشرفت هستید!
4-6 ویژگی را انتخاب کنید که به نظر می رسد قدرت پیش بینی قوی دارند.
ممکن است در نهایت از این تعداد ویژگی استفاده کنید، اما بهتر است با کمتر شروع کنید. ویژگی های کمتر معمولاً به معنای کمتر شدن عوارض غیر ضروری است.
تا جایی که می توانید ویژگی ها را انتخاب کنید تا بتوانید مشاهده کنید کدام ویژگی قوی ترین قدرت پیش بینی را دارد.
کوچکتر شروع کنید. هر ویژگی جدید بعد جدیدی به مجموعه داده های آموزشی شما می افزاید. وقتی ابعاد افزایش می یابد، حجم فضا آنقدر سریع افزایش می یابد که داده های آموزشی موجود پراکنده می شوند. هرچه داده‌های شما کم‌تر باشد، یادگیری رابطه بین ویژگی‌هایی که واقعاً مهم هستند و برچسب برای یک مدل دشوارتر است. این پدیده "نفرین ابعاد" نامیده می شود.
دوست شما سام در مورد نتایج اولیه تجزیه و تحلیل آماری خود هیجان زده است. او می‌گوید که داده‌ها همبستگی مثبتی بین تعداد دانلود برنامه و تعداد برداشت‌های مرور برنامه نشان می‌دهد. اما او مطمئن نیست که آیا آنها به هر حال بدون دیدن بررسی آن را دانلود می کردند یا خیر. چه پاسخی برای سام مفیدتر است؟
می‌توانید آزمایشی را برای مقایسه رفتار کاربرانی که بازبینی را ندیده‌اند با کاربران مشابهی که مشاهده کرده‌اند اجرا کنید.
درست! اگر سم مشاهده کند که کاربرانی که نظر مثبت را مشاهده کرده‌اند، احتمال بیشتری برای دانلود برنامه نسبت به کسانی که این کار را نکرده‌اند، بیشتر است، پس شواهد منطقی دارد که نشان می‌دهد این بررسی مثبت افراد را تشویق می‌کند تا برنامه را دریافت کنند.
به داده ها اعتماد کنید واضح است که این بررسی عالی دلیل دانلود اپلیکیشن توسط کاربران است.
غلط. این پاسخ سام را به مسیر درست هدایت نمی کند. شما نمی توانید علت را تنها از روی داده های مشاهده ای تعیین کنید. سام در حال مشاهده یک همبستگی (یعنی یک وابستگی آماری بین اعداد) است که ممکن است نشان دهنده علیت باشد یا نباشد. اجازه ندهید تحلیل های شما به صف همبستگی های جعلی بپیوندد.