מלכודות נתונים

יעדי למידה

במודול הזה נלמד:

  • לחקור בעיות פוטנציאליות שבבסיס מערכי נתונים גולמיים או מעובדים, כולל בעיות באיסוף ובאיכות.
  • זיהוי הטיות, מסקנות לא חוקיות ונימוקים.
  • למצוא בעיות נפוצות בניתוח נתונים, כולל מתאם, קשורות וחוסר רלוונטיות.
  • לבדוק תרשים כדי לאתר בעיות נפוצות, תפיסות שגויות בחירות מטעות בכל הנוגע לתצוגה ולעיצוב.

המוטיבציה של למידת מכונה

למרות שהיא לא זוהרת כמו ארכיטקטורות מודלים ועבודות אחרות של מודלים במורד הזרם, ניתוח נתונים, תיעוד ועיבוד מראש הם חיוניים למידת מכונה. אנשים שמתמחים בלמידת מכונה יכולים להיכלל ב-Nitya Sambasivan ואחרים. קראו העברות נתונים במאמר של ACM לשנת 2021 אם הם לא מבינים לעומק:

  • התנאים שבהם הנתונים האלה נאספים
  • האיכות, המאפיינים והמגבלות של הנתונים
  • מה הנתונים יכולים או לא יכולים להציג

מאוד יקר לאמן מודלים על נתונים שגויים רק כאשר פלט באיכות נמוכה היו בעיות של הנתונים. בדומה לכך, כאשר אנחנו לא מבינים את מגבלות הנתונים, הטיות באיסוף נתונים, או טעיה בקשר לסיבתיות, עלולות אובדן אמון.

בקורס הזה מוסבר על מלכודות נתונים נפוצות אבל קלות, של למידת מכונה המתרגלים עשויים להיתקל בעבודה שלהם.