בקטע הזה נפרט את שלבי הכנת הנתונים שהכי רלוונטיים לקיבוץ מ- עבודה עם נתונים מספריים בקורס מקוצר על למידת מכונה.
באשכולות, אתם מחשבים את הדמיון בין שתי דוגמאות על ידי שילוב את כל נתוני התכונות עבור הדוגמאות האלה לערך מספרי. לשם כך נדרשת להיות בעלי אותו קנה מידה, שאפשר להשיג באמצעות נירמול, שינוי או יצירת כמותים. אם רוצים לבצע טרנספורמציה את הנתונים שלכם בלי לבדוק את ההתפלגות שלהם, תוכלו להגדיר כברירת מחדל את הערכים הכוללים.
נרמול הנתונים
אפשר לשנות נתונים של מספר תכונות באותו קנה מידה באמצעות נירמול של הנתונים.
תוצאות Z
בכל פעם שרואים מערך נתונים בעל צורה גסה של הפצה גאוסיאנית, צריך לחשב ציוני דרך של הנתונים. ציוני ה-Z הם מספר סטיות התקן שהוגדר לערך ממוצע. אפשר גם להשתמש בציוני הדרך כשמערך הנתונים לא גדול מספיק של כמות מסוימת.
צפייה התאמה לסולם ה-Z כדי לבדוק את השלבים.
לפניכם המחשה של שתי תכונות במערך נתונים לפני ואחרי קנה מידה בציון הדרך:
במערך הנתונים הלא מנורמל משמאל, תכונה 1 ותכונה 2, בהתאמה בגרף על הצירים x ו-y, אין את אותו קנה מידה. ב משמאל, הדוגמה האדומה נראה קרוב יותר, או דומה יותר, לכחול מאשר לצהוב. בצד ימין, אחרי דירוג z-Score, תכונה 1 ותכונה 2 הן בעלות סולם זהה, הדוגמה מופיעה קרוב יותר לדוגמה הצהובה. מערך הנתונים המנורמל נותן כדי למדוד בצורה מדויקת יותר את הדמיון בין נקודות.
שינויים ביומן
כשמערך נתונים תואם בצורה מושלמת התפלגות חוקי כוח, כאשר נתונים מוצמדים מאוד בערכים הנמוכים ביותר, צריך להשתמש בטרנספורמציה ביומן. צפייה שינוי קנה מידה של יומנים כדי לבדוק את השלבים.
לפניכם המחשה של מערך נתונים של חוקי כוח לפני ואחרי טרנספורמציה ביומן:
לפני שינוי קנה המידה של היומן (איור 2), הדוגמה האדומה נראית דומה יותר לצהוב. לאחר שינוי קנה המידה של היומן (איור 3), הצבע האדום נראה יותר דומה לכחול.
מלכים
ריכוז הנתונים לכמויות פועל היטב כשמערך הנתונים לא תואם להתפלגות ידועה. ניקח לדוגמה את מערך הנתונים הזה:
באופן אינטואיטיבי, שתי דוגמאות הן דומות יותר אם רק מעט דוגמאות נמצאות ביניהן ללא קשר לערכים שלהם, ועוד הבדלים כאלה, אם יש הרבה דוגמאות נופלים ביניהם. התצוגה החזותית שלמעלה מקשה לראות את הנתונים מספר הדוגמאות שנמצאות בין אדום לצהוב, או בין אדום לכחול.
כדי להבין את הדמיון הזה, אפשר לחלק את מערך הנתונים רבעונים, או רווחים שכל אחד מהם מכיל מספרים שווים של דוגמאות, וכן ומקצים את האינדקס הכמותית לכל דוגמה. צפייה חלוקה לקטגוריות כדי לבדוק את השלבים.
זוהי ההתפלגות הקודמת שמחליקה לכמויות, ומראה שאדום הוא במרחק של אחוז אחד מהצהוב ושלושה רבעונים רחוקים מהכחול:
אפשר לבחור כל מספר \(n\) של כמות. עם זאת, שמייצגים באופן משמעותי את הנתונים הבסיסיים, מערך הנתונים צריך להכיל לפחות \(10n\) דוגמאות. אם אין לכם מספיק נתונים, אפשר לנרמל במקום זאת.
בדיקת ההבנה
לשאלות הבאות, נניח שיש לכם מספיק נתונים כדי ליצור כמותונים.
שאלה ראשונה
- התפלגות הנתונים היא גאוסיאנית.
- יש לכם תובנות מסוימות לגבי מה שהנתונים מייצגים שמרמז על כך שהנתונים לא צריכים לעבור טרנספורמציה לא ליניארית.
שאלה שנייה
נתונים חסרים
אם במערך הנתונים יש דוגמאות עם ערכים חסרים במאפיין מסוים, שהדוגמאות האלה קיימות רק לעיתים רחוקות, אפשר להסיר אותן. אם הדוגמאות האלה קורה לעיתים קרובות, אפשר להסיר את התכונה הזו לגמרי, או לחזות את הערכים החסרים בדוגמאות אחרות באמצעות מסורתי. לדוגמה, אפשר: לרמז על נתונים מספריים חסרים באמצעות שימוש את מודל הרגרסיה שאומן על נתוני תכונות קיימים.