ניפוי באגים מנתונים ותכונות

נתונים באיכות נמוכה ישפיעו באופן משמעותי על הביצועים של המודל. קל יותר לזהות נתונים באיכות נמוכה במהלך הקלט במקום לנחש את עצם קיומם לאחר שהחיזוי של המודל גרוע. עקבו אחר הנתונים שלכם לפי ההנחיות שמופיעות בקטע הזה.

אימות של נתוני קלט באמצעות סכימת נתונים

כדי לעקוב אחר הנתונים, עליכם לבדוק באופן קבוע את הנתונים לעומת הערכים הסטטיסטיים הצפויים על ידי כתיבת כללים שהנתונים צריכים לעמוד בהם. אוסף הכללים הזה נקרא סכימת נתונים. כדי להגדיר סכימת נתונים:

  1. בנתוני התכונות, חשוב להבין את הטווח וההפצה. כדי להשתמש בתכונות של קטגוריות, עליכם להבין את קבוצת הערכים האפשריים.
  2. מקודדים את ההבנה בכללים שמוגדרים בסכימה. דוגמאות לכללים:

    • יש לוודא שהדירוגים שנשלחו על ידי משתמשים הם תמיד בין 1 ל-5.
    • בודקים שהמאפיין "the" מתרחש בתדירות הגבוהה ביותר (אם מדובר בתכונת טקסט באנגלית).
    • בודקים שלתכונות בקטגוריות יש ערכים מקבוצה קבועה.
  3. בודקים את הנתונים מול סכימת הנתונים. הסכימה שלכם אמורה לאתר שגיאות נתונים כמו:

    • חריגות
    • ערכים לא צפויים של משתנים בקטגוריות
    • התפלגות נתונים לא צפויה

בדיקת האיכות של הפיצולים

חלוקות הבדיקה וההדרכה חייבות לייצג באופן שווה את נתוני הקלט שלך. אם יש הבדלים בין חלוקה של בדיקות לבין הדרכות, נתוני האימון לא יעזרו לחזות את נתוני הבדיקה. כדי ללמוד כיצד לדגום ולפצל נתונים, עיינו בקטע דגימה ופיצול נתונים בקורס בנושא הכנת נתונים והנדסת תכונות בלמידת מכונה.

מעקב אחר המאפיינים הסטטיסטיים של הפיצולים. אם המאפיינים מתפצלים, דווחו על סימון. כמו כן, ודאו שיחס הדוגמאות בכל חלוקה נשאר קבוע. לדוגמה, אם הפיצול של הנתונים הוא 80:20, היחס לא אמור להשתנות.

בדיקת ההנדסה של הנתונים

הנתונים הגולמיים עשויים להיות חוקיים, אבל המודל יראה רק נתוני תכונות מהונדסות. מאחר שהנתונים המהנדסים נראים שונים מאוד מנתוני קלט גולמיים, עליך לבדוק נתונים מותאמים אישית בנפרד. על סמך ההבנה של הנתונים המהנדסים שלכם, תוכלו לכתוב בדיקות של יחידות. לדוגמה, אפשר לכתוב בדיקות יחידה כדי לבדוק את התנאים הבאים:

  • כל המאפיינים המספריים משתנים. למשל, בין 0 ל-1.
  • וקטורים מכילים קוד חם מכילים רק אפסים אחדים ו-N-1.
  • הנתונים החסרים מוחלפים בערכים הממוצעים או בברירת המחדל.
  • התפלגות הנתונים לאחר השינוי תואמת לציפיות. לדוגמה, אם ביצעתם נירמול של ציון z, הממוצע של ציון z הוא 0.
  • טיפול בשוליים חריגים, למשל על ידי התאמה או חיתוך.