נתחיל בסקירה מהירה של רעיון מרכזי לגבי קורס קריסה של למידת מכונה. מעיינים בהתפלגות בתרשים שבהמשך.
איור 1: מחירי בתים לעומת קו רוחב.
ליד השאלה הבאה, לוחצים על החץ הרצוי כדי לבדוק את התשובה:
במקרים כמו קו הרוחב, עליכם לפצל את קווי הרוחב לקטגוריות כדי ללמוד משהו שונה על ערכים לכל דיור. הטרנספורמציה הזו של תכונות מספריות לתכונות קטגוריות באמצעות ספי סף נקראת קטגוריה (או הבחנה). בדוגמה זו של קטגוריות, הגבולות מופרדים באופן שווה.
איור 2: מחירי הבית לעומת קו הרוחב, עכשיו מחולקים לקטגוריות.
קטגוריית קווילינט
אנחנו מזמינים אותך לחזור אל מערך הנתונים של מחיר הרכב ולהוסיף קטגוריות. בכל קטגוריה יש קיבולת אחת לכל קטגוריה, & נראה שזה בזבוז. איך אנחנו יכולים לשפר את המצב הזה?
איור 3: מספר המכוניות שנמכרות במחירים שונים.
הבעיה היא שקטגוריות עם רווחים שווים לא מזהות את ההתפלגות בצורה טובה. הפתרון הוא ליצור קטגוריות שכל אחת מהן מכילה את אותו מספר נקודות. השיטה הזו נקראת כמות היא קטגוריה. לדוגמה, המספר הבא מחלק את מחירי הרכבים לקטגוריות של רבעונים. כדי לקבל מספר זהה של דוגמאות בכל אחת מהקטגוריות, חלק מהקטגוריות כוללות טווח מחיר צר, ואילו אחרות כוללות טווח מחירים רחב מאוד.
איור 4: קטגוריות רביעיות מספקות לכל קטגוריה לגבי אותו מספר מכוניות.
סיכום הקטגוריות
אם אתם מחלקים את התכונות המספריות לקטגוריות, צריך להבין בבירור איך אתם מגדירים את הגבולות ואילו סוגי קטגוריות אתם מחילים:
- סוגריים מרובעים עם גבולות שווים: הגבולות קבועים ומקיפים את אותו טווח (לדוגמה, 0-4 מעלות, 5-9 מעלות ו-10 עד 14 מעלות, או 5,000-$9,999, $10,000-$14,999 ו-15,000-$19,999). חלק מהקטגוריות עשויות להכיל נקודות רבות, ואילו אחרות יכולות להכיל מעט מאוד או לא לכלול כלל.
- סוגריים מרובעים עם גבולות רבעוניים: לכל קטגוריה יש אותו מספר נקודות. הגבולות אינם קבועים, והם עשויים לכלול טווח ערכים צר או רחב.