سلامت یک مدل یادگیری ماشینی (ML) با داده های آن تعیین می شود. داده های سالم مدل خود را تغذیه کنید و رشد کند. آشغال مدل خود را تغذیه کنید و پیش بینی های آن بی ارزش خواهد بود.
بهترین روش ها برای کار با داده های عددی:
- به یاد داشته باشید که مدل ML شما با داده های موجود در بردار ویژگی تعامل دارد، نه با داده های مجموعه داده .
- بیشتر ویژگی های عددی را عادی کنید .
- اگر اولین استراتژی عادی سازی شما موفق نشد، روش دیگری را برای عادی سازی داده های خود در نظر بگیرید.
- Binning که به آن سطل سازی نیز گفته می شود، گاهی اوقات بهتر از عادی سازی است.
- با در نظر گرفتن اینکه دادههای شما باید چه شکلی باشند، آزمایشهای تأیید را بنویسید تا این انتظارات را تأیید کنید. به عنوان مثال:
- قدر مطلق عرض جغرافیایی هرگز نباید از 90 تجاوز کند. می توانید آزمایشی بنویسید تا بررسی کنید که آیا مقدار عرض جغرافیایی بزرگتر از 90 در داده های شما ظاهر می شود یا خیر.
- اگر دادههای شما محدود به ایالت فلوریدا است، میتوانید آزمایشهایی بنویسید تا بررسی کنید که عرضهای جغرافیایی بین 24 تا 31 قرار میگیرد.
- داده های خود را با نمودارهای پراکنده و هیستوگرام تجسم کنید. به دنبال ناهنجاری ها باشید.
- آمار را نه تنها در کل مجموعه داده، بلکه در زیر مجموعه های کوچکتر مجموعه داده جمع آوری کنید. این به این دلیل است که آمار کل گاهی اوقات مشکلات را در بخش های کوچکتر یک مجموعه داده مبهم می کند.
- تمام تحولات داده خود را مستند کنید.
داده ها با ارزش ترین منبع شما هستند، پس با احتیاط با آن رفتار کنید.
اطلاعات تکمیلی
- راهنمای قواعد یادگیری ماشین شامل بخش مهندسی ویژگی با ارزش است.
بعدش چی
بابت اتمام این ماژول تبریک می گویم!
ما شما را تشویق می کنیم که ماژول های مختلف MLCC را با سرعت و علاقه خود کاوش کنید. اگر میخواهید یک سفارش توصیه شده را دنبال کنید، پیشنهاد میکنیم در ادامه به ماژول زیر بروید: نمایش دادههای طبقهبندی .