נתונים קטגוריים: הצלבות תכונות

מעברי תכונות נוצרים על ידי הצלב (שימוש במכפלה הקרטזית של) שניים או יותר קטגוריות או קטגוריות של מערך הנתונים. כמו פולינום מבצעת טרנספורמציה, הצלבות מאפיינים מאפשרות למודלים ליניאריים להתמודד עם לא ליניאריות. הצלבות פיצ'רים גם מקודדים אינטראקציות בין תכונות.

לדוגמה, נבחן מערך נתונים עלים עם תכונות קטגוריות:

  • edges, שמכיל את הערכים smooth, toothed ו-lobed
  • arrangement, שמכיל את הערכים opposite ו-alternate

נניח שהסדר שלמעלה הוא הסדר של עמודות התכונות ייצוג בו-זמנית, כך עלה עם smooth קצוות וסידור opposite מיוצגת בתור {(1, 0, 0), (1, 0)}.

צלב התכונות, או המכפלה הקרטזית, של שתי התכונות האלה יהיה:

{Smooth_Opposite, Smooth_Alternate, Toothed_Opposite, Toothed_Alternate, Lobed_Opposite, Lobed_Alternate}

כאשר הערך של כל מונח הוא מכפלה של ערכי תכונת הבסיס, למשל ש:

  • Smooth_Opposite = edges[0] * arrangement[0]
  • Toothed_Opposite = edges[1] * arrangement[0]
  • Lobed_Alternate = edges[2] * arrangement[1]

בכל דוגמה נתונה במערך הנתונים, צלב התכונות יהיה שווה ל-1 רק אם את שתי התכונות הבסיסיות הווקטורים החד-פעמיים המקוריים היו 1 עבור הקטגוריות המוצלבות. כלומר, עלה של אלון עם קצה אונה וסידור חלופי יהיה של 1 בלבד עבור Lobed_Alternate, ושילוב התכונות שלמעלה יהיה:

{0, 0, 0, 0, 0, 1}

אפשר להשתמש במערך הנתונים הזה כדי לסווג עלים לפי זני עצים, כי המאפיינים אינם שונים בתוך מין מסוים.

מתי כדאי להשתמש בהצלבות פיצ'רים

ידע בתחום יכול להציע שילוב מועיל של תכונות לפני המעבר. ללא ידע בתחום, קשה לקבוע צלבים של ישויות או טרנספורמציות פולינומיות באופן ידני. לרוב זה אפשרי, אם החישוב שלו יקר, רשתות נוירונים באופן אוטומטי למצוא ולהחיל שילובים שימושיים של תכונות במהלך האימון.

זהירות – החצייה של שתי תכונות מעטות יוצרת מודל חדש במידה מספקת יותר יותר משתי התכונות המקוריות. לדוגמה, אם תכונה א' היא פיצ'ר S דליל של 100 אלמנטים ופיצ'ר B הוא תכונה דלה של 200 אלמנטים שילוב של פיצ'רים בין A ל-B מניב תכונה דלילה של 20,000 רכיבים.