סיכום

בקורס הזה למדנו על הרבה מלכודות נתונים נפוצות, החל מאיכות מערך הנתונים. דרך חשיבה חזותית וניתוח סטטיסטי.

בעלי מקצוע בתחום למידת מכונה צריכים לשאול:

  • עד כמה הבנתי את המאפיינים של מערכי הנתונים שלי שבהם הנתונים נאספו?
  • אילו בעיות של איכות או הטיה קיימות בנתונים שלי? גורמים מטרידים כיום?
  • אילו בעיות אפשריות ב-downstream עלולות להתעורר אם תשתמשו במאפיינים האלה מערכי נתונים?
  • כשאימון מודל שמבצע חיזויים או סיווגים: מערך הנתונים שעליו מאמנים את המודל מכיל את כל המשתנים הרלוונטיים?

ללא קשר לממצאים שלהם, לעוסקים בלמידת מכונה צריכים תמיד לבחון את עצמם כדי לזהות הטיית אישור, ואז לבדוק את הממצאים שלהם לעומת אינטואיטיביות והיגיון בריא, ולחקור בכל מקום שבו קיימת מחלוקת לגבי הנתונים עם אלה.

מקורות מידע נוספים

קהיר, אלברטו. How Charts Lie: Getting Smarter about Visual Information. ניו יורק: W.W. Norton, 2019.

האף, דארל. איך להסתמך על נתונים סטטיסטיים. ניו יורק: W.W. נורטון, 1954.

אלמון, מארק. How to Lie with Maps, מהדורה 3 שיקגו: U of Chicago P, 2018.

ג'ונס, בן. הימנעות ממלכודות נתונים. הובוקן, ניו ג'רזי: Wiley, 2020.

ווילן, צ'ארלס. נתונים סטטיסטיים עירומים: להסיר את הדאגה מהנתונים. ניו יורק: W.W. נורטון, 2013