סיכום

בקורס הזה עברנו על הרבה מלכודות נפוצות שקשורות לנתונים, החל מאיכות מערך הנתונים ועד לחשיבה, להמחשה ולניתוח סטטיסטי.

מומחים ללמידת מכונה צריכים לשאול:

  • עד כמה אני מבין את המאפיינים של מערכי הנתונים שלי ואת התנאים שבהם הנתונים האלה נאספו?
  • אילו בעיות באיכות או בהטיה קיימות בנתונים שלי? האם יש גורמים מתערבים?
  • אילו בעיות פוטנציאליות יכולות להתעורר בהמשך כתוצאה משימוש במערכי הנתונים הספציפיים האלה?
  • כשמאמנים מודל שמבצע תחזיות או סיווגים: האם מערך הנתונים שעליו המודל מתאמן מכיל את כל המשתנים הרלוונטיים?

לא משנה מה הממצאים, מומלץ למומחים ללמידת מכונה לבדוק את עצמם כדי לוודא שאין הטיה לאישור, ואז להשוות את הממצאים לאינטואיציה ולשכל הישר שלהם, ולבדוק אם יש סתירה בין הנתונים לבין האינטואיציה והשכל הישר.

מקורות מידע נוספים

קהיר, אלברטו. How Charts Lie: Getting Smarter about Visual Information. NY: W.W. Norton, 2019.

האף, דארל. How to Lie with Statistics (איך לשקר באמצעות נתונים סטטיסטיים). NY: W.W. Norton, 1954.

Monmonier, Mark. How to Lie with Maps, 3rd ed. Chicago: U of Chicago P, 2018.

ג'ונס, בן. איך להימנע מטעויות בנתונים Hoboken, NJ: Wiley, 2020.

‫Wheelan, Charles. Naked Statistics: Stripping the Dread from the Data. NY: W.W. Norton, 2013