قبل إنشاء ناقلات السمات، ننصحك بدراسة البيانات الرقمية بطريقتين:
- عرض بياناتك في شكل مخططات أو رسوم بيانية
- الحصول على إحصاءات عن بياناتك
عرض بياناتك بشكل مرئي
يمكن أن تساعدك الرسوم البيانية في العثور على الشذوذ أو الأنماط المخفية في البيانات. لذلك، قبل التعمّق في التحليل، اطّلِع على بياناتك بشكل بياني، إما كمخطّطات نقاط مبعثرة أو مخطّطات مدرّجات تكرارية. يمكنك عرض الرسوم البيانية ليس فقط في بداية مسار البيانات، ولكن أيضًا أثناء عمليات تحويل البيانات. تساعدك الرسومات المرئية في التحقّق باستمرار من افتراضاتك.
ننصحك بالعمل مع pandas للعرض المرئي:
يُرجى العِلم أنّ بعض أدوات العروض المرئية محسَّنة لتنسيقات بيانات معيّنة. قد تساعدك أداة العروض المرئية التي تساعدك في تقييم وحدات تخزين البيانات المؤقتة للبروتوكول في تقييم بيانات CSV، وقد لا تساعدك في ذلك.
تقييم بياناتك إحصائيًا
بالإضافة إلى التحليل المرئي، ننصحك أيضًا بتقييم الميزات والعلامات المحتملة رياضيًا، من خلال جمع إحصاءات أساسية، مثل:
- المتوسط والوسيط
- الانحراف المعياري
- القيم عند تقسيم الربع: القيمة المئوية 0 و25 و50 و75 و100 الشريحة المئوية 0 هي الحد الأدنى لقيمة هذا العمود، والشريحة المئوية 100 هي الحد الأقصى لقيمة هذا العمود. (القيمة المئوية الخمسون هي المتوسط).
العثور على القيم الشاذة
القيمة الشاذة هي قيمة بعيدة عن معظم القيم الأخرى في ميزة أو تصنيف. غالبًا ما تتسبب القيم الشاذة في حدوث مشاكل في تدريب النماذج، لذا من المهم العثور عليها.
عندما يختلف الفرق بين الشريحة المئوية 0 والشريحة المئوية 25 بشكلٍ كبير عن الفرق بين الشريحة المئوية 75 والشريحة المئوية 100، من المرجّح أن تحتوي مجموعة البيانات على قيم شاذة.
يمكن أن تندرج القيم الشاذة ضمن أيّ من الفئات التالية:
- يرجع سبب القيم الشاذة إلى خطأ. على سبيل المثال، ربما أدخل أحد المختبِرين صفرًا إضافيًا عن طريق الخطأ، أو ربما حدث عطل في أداة جمع البيانات. وبشكل عام، ستحذف الأمثلة التي تحتوي على قيم شاذة للخطأ.
- القيمة الشاذة هي نقطة بيانات مشروعة، وليست خطأ.
في هذه الحالة، هل سيحتاج النموذج المدّرب
في نهاية المطاف إلى استنتاج توقّعات جيدة بشأن القيم الشاذة هذه؟
- إذا كانت الإجابة بنعم، احتفظ بهذه القيم الشاذة في مجموعة التدريب. بعد كل شيء، فإنّ القيم الشاذة في ميزات معيّنة تعكس أحيانًا القيم الشاذة في التصنيف، لذا يمكن أن تساعد القيم الشاذة النموذج في إجراء توقّعات أفضل. يُرجى الحذر، إذ إنّ القيم الشاذة للغاية يمكن أن تضرّ بنموذجك.
- إذا لم يكن الأمر كذلك، احذف القيم الشاذة أو طبِّق أساليب هندسة ميزات أكثر عدوانية، مثل الاقتصاص.