يتم تحديد سلامة نموذج التعلم الآلي (ML) من خلال بياناته. إطعام وضع نماذج للبيانات الصحية وسوف تزدهر؛ خلاصات نموذجك غير المهم سوف تكون التنبؤات عديمة الفائدة.
أفضل ممارسات التعامل مع البيانات الرقمية:
- تذكر أن نموذج تعلُّم الآلة يتفاعل مع البيانات في متّجه الميزة ليست البيانات الموجودة في dataset:
- تسوية الأرباح القصوى الميزات الرقمية.
- إذا لم تنجح استراتيجية التسوية الأولى التي تتبعها، يمكنك استخدام طريقة لتسوية بياناتك.
- إنّ التجميع، الذي يُشار إليه أيضًا باسم التصنيف، يكون أحيانًا أفضل من التسويّة.
- بالنظر إلى الشكل الذي ينبغي أن تبدو عليه بياناتك، اكتب التحقق
الاختبارات للتحقق من صحة تلك التوقعات. مثل:
- يجب ألا تتجاوز القيمة المطلقة لخيار خط العرض 90. يمكنك كتابة اختبار للتحقق مما إذا كانت قيمة خط العرض أكبر من 90 تظهر في بياناتك.
- إذا كانت بياناتك تقتصر على ولاية فلوريدا، فيمكنك كتابة اختبارات التحقق من أن خطوط العرض تقع بين 24 و31، ضمنًا.
- تصور بياناتك باستخدام المدرّجات التكرارية ومخططات التبعثر. ابحث عن القيم الشاذة.
- اجمع إحصائيات ليس فقط على مجموعة البيانات بأكملها، ولكن أيضًا على مجموعات مجموعات فرعية من مجموعة البيانات. هذا لأن الإحصائيات المجمّعة أحيانًا غامضة في أجزاء أصغر من مجموعة البيانات.
- توثيق جميع عمليات تحويل البيانات
البيانات هي أهم مورد بالنسبة إليك، لذا تعامل معها بعناية.
معلومات إضافية
- يتضمن دليل قواعد تعلُّم الآلة مجموعة من قسم هندسة الخصائص.
الخطوات التالية
تهانينا على الانتهاء من هذه الوحدة!
ننصحك باستكشاف وحدات MLCC المختلفة بالوتيرة التي تناسبك وبطريقة تثير اهتمامك. إذا أردت اتّباع ترتيب مقترَح، ننصحك بالانتقال إلى الوحدة التالية: تمثيل البيانات الفئوية.