تصحيح أخطاء البيانات والميزات

وستؤثر البيانات المنخفضة الجودة في أداء النموذج بشكل كبير. ومن السهل جدًا رصد البيانات المنخفضة الجودة عند الإدخال بدلاً من تخمينها بعد توقع النموذج سيئًا. راقِب بياناتك باتّباع النصائح الواردة في هذا القسم.

التحقّق من صحة بيانات الإدخال باستخدام مخطط بيانات

لمراقبة بياناتك، يجب التحقق باستمرار من بياناتك مقارنةً بالقيم الإحصائية المتوقعة من خلال كتابة قواعد يجب أن تلبيها البيانات. تُسمى هذه المجموعة من القواعد مخطط بيانات. حدِّد مخطط بيانات باتّباع الخطوات التالية:

  1. بالنسبة إلى بيانات الميزات، عليك فهم النطاق والتوزيع. بالنسبة إلى الميزات الفئوية، عليك فهم مجموعة القيم المحتملة.
  2. ترميز فهمك بالقواعد المحدّدة في المخطط إليك أمثلة على القواعد:

    • تأكّد دائمًا من أنّ التقييمات التي يرسلها المستخدمون تتراوح بين 1 و5.
    • تحقّق من حدوث "the" في أغلب الأحيان (للميزة النصية باللغة الإنجليزية).
    • تحقق من أن الميزات الفئوية لها قيم من مجموعة ثابتة.
  3. اختبِر بياناتك مقارنةً بمخطط البيانات. من المفترض أن يرصد مخططك أخطاء البيانات مثل:

    • القيم الشاذة
    • قيم غير متوقعة للمتغيّرات الفئوية
    • توزيعات البيانات غير المتوقّعة

التأكّد من جودة التقسيمات

يجب أن تكون أقسام الاختبار والتدريبات تمثيلاً متساويًا لبيانات الإدخال. إذا اختلفت أقسام الاختبار والتدريب إحصائيًا، لن تساعد بيانات التدريب في توقع بيانات الاختبار. للتعرّف على كيفية أخذ البيانات وتقسيمها، يمكنك الاطّلاع على القسم أخذ العينات وتقسيم البيانات في دورة إعداد البيانات وهندسة الميزات في دورة تعلّم الآلة.

راقِب الخصائص الإحصائية لعمليات التقسيم. إذا اختلف السمات، ارفع علامة. علاوةً على ذلك، اختبر أن نسبة الأمثلة في كل تقسيم تبقى ثابتة. على سبيل المثال، إذا تم تقسيم البيانات على 80:20، يجب ألا تتغيّر هذه النسبة.

اختبار البيانات الهندسية

على الرغم من أنّ بياناتك الأولية قد تكون صالحة، لن يرى النموذج سوى بيانات الميزات المُصمَّمة هندسيًا. ونظرًا لأن البيانات الهندسية تبدو مختلفة جدًا عن بيانات الإدخال الأولية، عليك التحقق من البيانات الهندسية بشكل منفصل. اكتب اختبارات الوحدة استنادًا إلى فهمك للبيانات التي تتضمن هندسة. على سبيل المثال، يمكنك كتابة اختبارات الوحدات للتحقق من الشروط التالية:

  • ويتم قياس كل العناصر الرقمية، على سبيل المثال بين 0 و1.
  • تحتوي المتّجهات ذات الترميز الواحد على أصفار 1 وN-1 واحدة فقط.
  • يتم استبدال البيانات المفقودة بالقيم المتوسطة أو التلقائية.
  • تتوافق توزيعات البيانات بعد التحويل مع التوقعات. على سبيل المثال، إذا كنت قد عدّلت درجات z، يكون متوسط النقاط z هو 0.
  • يتم التعامل مع القيم الشاذّة، على سبيل المثال عن طريق تغيير الحجم أو القطع.