الملخّص

تتناول هذه الدورة التدريبية العديد من المشاكل الشائعة المتعلقة بالبيانات، بدءًا من جودة مجموعة البيانات إلى التفكير في التصور والتحليل الإحصائي.

على ممارسي تعلُّم الآلة طرح الأسئلة التالية:

  • إلى أي مدى أفهم خصائص مجموعات البيانات والشروط التي تم بموجبها جمع هذه البيانات؟
  • ما هي المشاكل المتعلّقة بالجودة أو التحيز في بياناتي؟ هل توجد عوامل مربكة؟
  • ما هي المشاكل المحتملة التي قد تنشأ عن استخدام مجموعات البيانات هذه؟
  • عند تدريب نموذج يقدّم توقّعات أو تصنيفات، هل تحتوي مجموعة البيانات التي يتم تدريب النموذج عليها على جميع المتغيرات ذات الصلة؟

بغض النظر عن النتائج التي يتوصّلون إليها، يجب على ممارسي تعلُّم الآلة دائمًا التحقّق من تحيّزهم التأكيدي، ثم مقارنة النتائج بحدسهم ومنطقهم السليم، والتحقّق من أي تعارض بين البيانات وهذه النتائج.

موادّ إضافية للقراءة

مرحبًا، ألبرتو. كيف تكذب الرسوم البيانية: كيف تصبح أكثر ذكاءً بشأن المعلومات المرئية NY: W.W. Norton, 2019.

Huff, Darrell. كيفية الكذب باستخدام الإحصاءات NY: W.W. Norton, 1954.

Monmonier, Mark. How to Lie with Maps, 3rd ed. Chicago: U of Chicago P, 2018.

جونز، بن. تجنُّب المشاكل المتعلقة بالبيانات: Hoboken, NJ: Wiley, 2020.

Wheelan, Charles. Naked Statistics: Stripping the Dread from the Data. NY: W.W. Norton, 2013