הכנת נתונים

בקטע הזה נפרט את שלבי הכנת הנתונים שהכי רלוונטיים לקיבוץ מ- עבודה עם נתונים מספריים בקורס מקוצר על למידת מכונה.

באשכולות, אתם מחשבים את הדמיון בין שתי דוגמאות על ידי שילוב את כל נתוני התכונות עבור הדוגמאות האלה לערך מספרי. לשם כך נדרשת להיות בעלי אותו קנה מידה, שאפשר להשיג באמצעות נירמול, שינוי או יצירת כמותים. אם רוצים לבצע טרנספורמציה את הנתונים שלכם בלי לבדוק את ההתפלגות שלהם, תוכלו להגדיר כברירת מחדל את הערכים הכוללים.

נרמול הנתונים

אפשר לשנות נתונים של מספר תכונות באותו קנה מידה באמצעות נירמול של הנתונים.

תוצאות Z

בכל פעם שרואים מערך נתונים בעל צורה גסה של הפצה גאוסיאנית, צריך לחשב ציוני דרך של הנתונים. ציוני ה-Z הם מספר סטיות התקן שהוגדר לערך ממוצע. אפשר גם להשתמש בציוני הדרך כשמערך הנתונים לא גדול מספיק של כמות מסוימת.

צפייה התאמה לסולם ה-Z כדי לבדוק את השלבים.

לפניכם המחשה של שתי תכונות במערך נתונים לפני ואחרי קנה מידה בציון הדרך:

שני תרשימים שמשווים נתוני תכונות לפני ואחרי הנירמול
איור 1: השוואה בין נתוני התכונות לפני ואחרי הנירמול.

במערך הנתונים הלא מנורמל משמאל, תכונה 1 ותכונה 2, בהתאמה בגרף על הצירים x ו-y, אין את אותו קנה מידה. ב משמאל, הדוגמה האדומה נראה קרוב יותר, או דומה יותר, לכחול מאשר לצהוב. בצד ימין, אחרי דירוג z-Score, תכונה 1 ותכונה 2 הן בעלות סולם זהה, הדוגמה מופיעה קרוב יותר לדוגמה הצהובה. מערך הנתונים המנורמל נותן כדי למדוד בצורה מדויקת יותר את הדמיון בין נקודות.

שינויים ביומן

כשמערך נתונים תואם בצורה מושלמת התפלגות חוקי כוח, כאשר נתונים מוצמדים מאוד בערכים הנמוכים ביותר, צריך להשתמש בטרנספורמציה ביומן. צפייה שינוי קנה מידה של יומנים כדי לבדוק את השלבים.

לפניכם המחשה של מערך נתונים של חוקי כוח לפני ואחרי טרנספורמציה ביומן:

תרשים עמודות שבו רוב הנתונים נמוכים
איור 2: התפלגות של חוקי כוח.
תרשים שמראה התפלגות נורמלית (גאוס)
איור 3: טרנספורמציה ביומן של איור 2.

לפני שינוי קנה המידה של היומן (איור 2), הדוגמה האדומה נראית דומה יותר לצהוב. לאחר שינוי קנה המידה של היומן (איור 3), הצבע האדום נראה יותר דומה לכחול.

מלכים

ריכוז הנתונים לכמויות פועל היטב כשמערך הנתונים לא תואם להתפלגות ידועה. ניקח לדוגמה את מערך הנתונים הזה:

תרשים שמראה התפלגות נתונים לפני כל עיבוד מראש
איור 4: התפלגות שלא ניתנת לשיוך לפני כל עיבוד מראש.

באופן אינטואיטיבי, שתי דוגמאות הן דומות יותר אם רק מעט דוגמאות נמצאות ביניהן ללא קשר לערכים שלהם, ועוד הבדלים כאלה, אם יש הרבה דוגמאות נופלים ביניהם. התצוגה החזותית שלמעלה מקשה לראות את הנתונים מספר הדוגמאות שנמצאות בין אדום לצהוב, או בין אדום לכחול.

כדי להבין את הדמיון הזה, אפשר לחלק את מערך הנתונים רבעונים, או רווחים שכל אחד מהם מכיל מספרים שווים של דוגמאות, וכן ומקצים את האינדקס הכמותית לכל דוגמה. צפייה חלוקה לקטגוריות כדי לבדוק את השלבים.

זוהי ההתפלגות הקודמת שמחליקה לכמויות, ומראה שאדום הוא במרחק של אחוז אחד מהצהוב ושלושה רבעונים רחוקים מהכחול:

תרשים שבו מוצגים הנתונים אחרי ההמרה
  לפלחים של נתונים. הקו מייצג 20 אינטרוולים.]
איור 5: ההתפלגות באיור 4 לאחר ההמרה ל-20 רבעונים.

אפשר לבחור כל מספר \(n\) של כמות. עם זאת, שמייצגים באופן משמעותי את הנתונים הבסיסיים, מערך הנתונים צריך להכיל לפחות \(10n\) דוגמאות. אם אין לכם מספיק נתונים, אפשר לנרמל במקום זאת.

בדיקת ההבנה

לשאלות הבאות, נניח שיש לכם מספיק נתונים כדי ליצור כמותונים.

שאלה ראשונה

תרשים שמציג שלוש התפלגויות נתונים
איך חשוב לעבד את התפלגות הנתונים שמוצגת בקטע הקודם גרפי?
יוצרים כמותונים.
נכון. בגלל שההתפלגות לא תואמת בהתפלגות הנתונים הרגילה, יצירת כמותים.
נרמול.
בדרך כלל כדאי לנרמל נתונים אם:
  • התפלגות הנתונים היא גאוסיאנית.
  • יש לכם תובנות מסוימות לגבי מה שהנתונים מייצגים שמרמז על כך שהנתונים לא צריכים לעבור טרנספורמציה לא ליניארית.
אף מקרה לא רלוונטי במקרה הזה. התפלגות הנתונים היא לא גאוסיאנית כי הוא לא סימטרי. ואתם לא יודעים אילו ערכים מייצגים בעולם האמיתי.
יומן טרנספורמציה.
זאת לא הפצה מושלמת של חוק חזקת, לכן לא כדאי להשתמש ביומן ונבצע טרנספורמציה.

שאלה שנייה

תרשים שמציג שלוש התפלגויות נתונים
איך הייתם מעבדים את התפלגות הנתונים הזו?
נרמול.
נכון. זוהי התפלגות גאוסיאנית.
יוצרים כמותונים.
תשובה לא נכונה. מאחר שזו התפלגות גאוסיאנית, העדיפות וטרנספורמציה היא נירמול.
יומן טרנספורמציה.
תשובה לא נכונה. החילו טרנספורמציה ביומן רק על הפצות של חוקי כוח.

נתונים חסרים

אם במערך הנתונים יש דוגמאות עם ערכים חסרים במאפיין מסוים, שהדוגמאות האלה קיימות רק לעיתים רחוקות, אפשר להסיר אותן. אם הדוגמאות האלה קורה לעיתים קרובות, אפשר להסיר את התכונה הזו לגמרי, או לחזות את הערכים החסרים בדוגמאות אחרות באמצעות מסורתי. לדוגמה, אפשר: לרמז על נתונים מספריים חסרים באמצעות שימוש את מודל הרגרסיה שאומן על נתוני תכונות קיימים.