مصائد البيانات

أهداف التعلُّم

في هذه الوحدة، ستتعلم ما يلي:

  • التحقيق في المشاكل المحتملة الكامنة في مجموعات البيانات الأولية أو التي تمت معالجتها، بما في ذلك مشكلات الجمع والجودة.
  • تحديد التحيزات والاستنتاجات غير الصالحة والاستنتاجات.
  • العثور على المشكلات الشائعة في تحليل البيانات، بما في ذلك الارتباط والصلة وعدم الصلة.
  • يفحص مخطط المشكلات الشائعة وسوء التصورات خيارات العرض والتصميم المضللة.

تحفيز تعلُّم الآلة

على الرغم من أنه ليس بهذه الروعة كبُنى النماذج وغيرها من أعمال النماذج في مرحلة ما بعد إطلاق التطبيق، يعد استكشاف البيانات والتوثيق والمعالجة المسبقة أمرًا بالغ الأهمية مجال تعلُّم الآلة. يمكن أن يندرج ممارسو تعلُّم الآلة ضمن فئة Nithya Sambasivan et al. يسمى تتاليات البيانات في دراسة ACM لعام 2021 إذا لم يفهموا جيدًا ما يلي:

  • الظروف التي يتم بموجبها جمع بياناتهم
  • جودة البيانات وخصائصها وقيودها
  • ما يمكن وما لا يمكن أن تعرضه البيانات

إن تدريب النماذج على البيانات السيئة أن تكتشف فقط في وقت المخرجات المنخفضة الجودة أن هناك مشكلات مع البيانات. وبالمثل، يمكن أن يؤدي الفشل في استيعاب قيود البيانات، والتحيزات في جمع البيانات، أو الخلط بين السببية، يمكن أن يؤدي إلى نتائج واعدة وغير مُحقَّقة بشكل مفرط، مما قد يؤدي إلى فقدان الثقة.

تتناول هذه الدورة فخاخ البيانات الشائعة والخفية التي يستخدمها التعلم الآلي قد يواجهها الممارسون في عملهم.