داده های عددی: نتیجه گیری

سلامت یک مدل یادگیری ماشینی (ML) با داده های آن تعیین می شود. داده های سالم مدل خود را تغذیه کنید و رشد کند. آشغال مدل خود را تغذیه کنید و پیش بینی های آن بی ارزش خواهد بود.

بهترین روش ها برای کار با داده های عددی:

  • به یاد داشته باشید که مدل ML شما با داده های موجود در بردار ویژگی تعامل دارد، نه با داده های مجموعه داده .
  • بیشتر ویژگی های عددی را عادی کنید .
  • اگر اولین استراتژی عادی سازی شما موفق نشد، روش دیگری را برای عادی سازی داده های خود در نظر بگیرید.
  • Binning که به آن سطل سازی نیز گفته می شود، گاهی اوقات بهتر از عادی سازی است.
  • با در نظر گرفتن اینکه داده‌های شما باید چه شکلی باشند، آزمایش‌های تأیید را بنویسید تا این انتظارات را تأیید کنید. مثلا:
    • قدر مطلق عرض جغرافیایی هرگز نباید از 90 تجاوز کند. می توانید آزمایشی بنویسید تا بررسی کنید که آیا مقدار عرض جغرافیایی بزرگتر از 90 در داده های شما ظاهر می شود یا خیر.
    • اگر داده‌های شما محدود به ایالت فلوریدا است، می‌توانید آزمایش‌هایی بنویسید تا بررسی کنید که عرض‌های جغرافیایی بین 24 تا 31 قرار می‌گیرد.
  • داده های خود را با نمودارهای پراکنده و هیستوگرام تجسم کنید. به دنبال ناهنجاری ها باشید.
  • آمار را نه تنها در کل مجموعه داده، بلکه در زیر مجموعه های کوچکتر مجموعه داده جمع آوری کنید. این به این دلیل است که آمار کل گاهی اوقات مشکلات را در بخش های کوچکتر یک مجموعه داده مبهم می کند.
  • تمام تحولات داده خود را مستند کنید.

داده ها با ارزش ترین منبع شما هستند، پس با احتیاط با آن رفتار کنید.

اطلاعات تکمیلی

بعدش چی

بابت اتمام این ماژول تبریک می گویم!

ما شما را تشویق می کنیم که ماژول های مختلف MLCC را با سرعت و علاقه خود کاوش کنید. اگر می‌خواهید یک سفارش توصیه شده را دنبال کنید، پیشنهاد می‌کنیم در ادامه به ماژول زیر بروید: نمایش داده‌های طبقه‌بندی .