قبل إنشاء متجهات الخصائص، نوصي بدراسة البيانات الرقمية في بطريقتين:
- تصور بياناتك في المخططات أو الرسوم البيانية.
- الحصول على إحصاءات حول بياناتك.
عرض بياناتك بشكل مرئي
يمكن أن تساعدك الرسوم البيانية في العثور على القيم الشاذة أو الأنماط التي تختبئ في البيانات. لذلك، قبل المضي قدمًا في التحليل، انظر إلى البيانات بيانيًا، إما كمخططات مبعثرة أو مدرجات تكرارية. عدم عرض الرسوم البيانية فقط في بداية مسار البيانات، ولكن أيضًا في جميع أنحاء البيانات والتحولات. تساعدك التصورات على التحقق باستمرار من افتراضاتك.
نوصي بالعمل على الباندا للتصور:
لاحظ أنه تم تحسين بعض أدوات التصورات لتنسيقات بيانات معينة. قد تقوم أداة التصورات التي تساعدك في تقييم الموارد الاحتياطية للبروتوكولات أن تكون قادرًا على مساعدتك في تقييم بيانات CSV.
تقييم بياناتك إحصائيًا
بالإضافة إلى التحليل المرئي، نوصي أيضًا بتقييم الميزات التصنيفات رياضيًا، وتجميع الإحصائيات الأساسية مثل:
- المتوسط والوسيط
- الانحراف المعياري
- القيم في الأقسام الربعية: 0 و25 و50 و75 و100 الشرائح المئوية. الشريحة المئوية 0 هي أدنى قيمة لهذا العمود؛ الـ الشريحة المئوية 100 هي أقصى قيمة في هذا العمود. (الشريحة المئوية البالغة 50% هو المتوسط).
البحث عن القيم الشاذّة
القيم الشاذّة هي قيمة بعيدة من معظم القيم الأخرى في الميزة أو التسمية. غالبًا ما تتسبب القيم الشاذّة في حدوث في تطبيق النموذج، لذا من المهم اكتشاف القيم الاستثنائية.
عندما تختلف الدلتا بين الشريحتين المئويتين 0 و25 بشكل ملحوظ من الدلتا بين الشريحتين المئويتين 75 و100، فمن المحتمل أن يحتوي على قيم استثنائية.
يمكن أن تندرج القيم الشاذّة ضمن أي من الفئات التالية:
- وتعود القيمة الاستثنائية إلى خطأ. فعلى سبيل المثال، ربما أدخل أحد المختبرين عن طريق الخطأ صفرًا إضافيًا، أو ربما أداة جمع البيانات المعطلة. ستحذف بشكل عام الأمثلة التي تحتوي على قيم شاذة ناتجة عن خطأ.
- وتُعدّ القيمة الاستثنائية نقطة بيانات مشروعة، وهي ليست خطأ.
في هذه الحالة، هل سيكون النموذج المُدرَّب
إلى استنتاج تنبؤات جيدة بشأن هذه القيم الاستثنائية؟
- إذا كانت الإجابة بنعم، فاحتفظ بهذه القيم الاستثنائية في مجموعة التدريب الخاصة بك. بعد كل شيء، القيم الاستثنائية تعكس بعض الميزات أحيانًا القيم الاستثنائية في التسمية، وبالتالي القيم الشاذّة التي يمكن أن تساعد في تقديم توقعات أفضل عليك توخي الحذر لأنّ القيم المتطرفة يمكن أن تضرّ نموذجك.
- إذا كانت الإجابة "لا"، عليك حذف القيم الاستثنائية أو تطبيق هندسة مضلِّلة أكثر. مثل الاقتصاص والدمج.