דליים

נתחיל בסקירה מהירה של רעיון מרכזי לגבי קורס קריסה של למידת מכונה. מעיינים בהתפלגות בתרשים שבהמשך.

חלקת בתים לכל קו רוחב. עלילה זו אינה סדירה, ולכן היא כוללת תופי רדיוס סביב קו רוחב 36 ועליות חדות סביב קווי רוחב 34 ו-38. איור 1: מחירי בתים לעומת קו רוחב.

 

ליד השאלה הבאה, לוחצים על החץ הרצוי כדי לבדוק את התשובה:

כדאי לשקול את איור 1. אם לדעתכם קו הרוחב יכול לספק אינדיקציה טובה לערכי הדיור, האם כדאי להשאיר את קו הרוחב כערך נקודה צפה? למה או למה לא? (נניח שהמודל הזה לינארי).
כן. אם קו הרוחב הוא ערך של נקודה צפה (floating-point) במערך הנתונים, אין לשנות אותו.
אם מזינים את הערכים של נקודות צפות ברשת, הוא ינסה ללמוד קשר לינארי בין התכונה לבין התווית. אבל קשר לינארי אינו צפוי לגבי קו הרוחב. עלייה של מעלה אחת בקו הרוחב (למשל, מ-34 עד 35 מעלות) עשויה להוביל לשינוי כלשהו בפלט של המודל, ואילו עלייה שונה במעלה אחת (למשל מ-35 ל-36 מעלות) עשויה להוביל לשינוי אחר. זו התנהגות לא לינארית.
לא. אין קשר לינארי בין קו הרוחב לבין ערכי הדיור.
יש לך חשד שקווי רוחב וערכי דיור מסוימים קשורים זה לזה, אבל הקשר לא לינארי.

במקרים כמו קו הרוחב, עליכם לפצל את קווי הרוחב לקטגוריות כדי ללמוד משהו שונה על ערכים לכל דיור. הטרנספורמציה הזו של תכונות מספריות לתכונות קטגוריות באמצעות ספי סף נקראת קטגוריה (או הבחנה). בדוגמה זו של קטגוריות, הגבולות מופרדים באופן שווה.

עלווה של קו הרוחב לעומת מחירי דיור של המספר הקודם. עם זאת, הזמן הזה מחולק ל-11 "bins" בין קווי רוחב של מספרים שלמים.

 

איור 2: מחירי הבית לעומת קו הרוחב, עכשיו מחולקים לקטגוריות.

קטגוריית קווילינט

אנחנו מזמינים אותך לחזור אל מערך הנתונים של מחיר הרכב ולהוסיף קטגוריות. בכל קטגוריה יש קיבולת אחת לכל קטגוריה, & נראה שזה בזבוז. איך אנחנו יכולים לשפר את המצב הזה?

עלילה של מחיר הרכב לכל מספר מכוניות שנמכרות במחיר הזה. העלילה מחולקת ל-10 קטגוריות בגודל זהה עם טווח של 5,000 (מחיר הרכב). שלוש הקטגוריות הראשונות כוללות דוגמאות רבות, אך 7 הקטגוריות האחרונות מכילות מעט מאוד דוגמאות.

איור 3: מספר המכוניות שנמכרות במחירים שונים.

 

הבעיה היא שקטגוריות עם רווחים שווים לא מזהות את ההתפלגות בצורה טובה. הפתרון הוא ליצור קטגוריות שכל אחת מהן מכילה את אותו מספר נקודות. השיטה הזו נקראת כמות היא קטגוריה. לדוגמה, המספר הבא מחלק את מחירי הרכבים לקטגוריות של רבעונים. כדי לקבל מספר זהה של דוגמאות בכל אחת מהקטגוריות, חלק מהקטגוריות כוללות טווח מחיר צר, ואילו אחרות כוללות טווח מחירים רחב מאוד.

זהה לאלה של איור 3, למעט עם קטגוריות. כלומר, בקטגוריות יש עכשיו גדלים שונים. הקטגוריה הקטנה ביותר כוללת טווח של כ-1,000 דולר, והקטגוריה הגדולה ביותר כוללת טווח של כ-25,000 דולר.
כיום, מספר המכוניות בכל קטגוריה זהה.

איור 4: קטגוריות רביעיות מספקות לכל קטגוריה לגבי אותו מספר מכוניות.

סיכום הקטגוריות

אם אתם מחלקים את התכונות המספריות לקטגוריות, צריך להבין בבירור איך אתם מגדירים את הגבולות ואילו סוגי קטגוריות אתם מחילים:

  • סוגריים מרובעים עם גבולות שווים: הגבולות קבועים ומקיפים את אותו טווח (לדוגמה, 0-4 מעלות, 5-9 מעלות ו-10 עד 14 מעלות, או 5,000-$9,999, $10,000-$14,999 ו-15,000-$19,999). חלק מהקטגוריות עשויות להכיל נקודות רבות, ואילו אחרות יכולות להכיל מעט מאוד או לא לכלול כלל.
  • סוגריים מרובעים עם גבולות רבעוניים: לכל קטגוריה יש אותו מספר נקודות. הגבולות אינם קבועים, והם עשויים לכלול טווח ערכים צר או רחב.