صليب الميزات: عبور نقاط التحرك باتجاه واحد

حتى الآن، ركّزنا على ميزتَين تعبّر عن الميزات العاكسة الفردية للعائم. من الناحية العملية، نادرًا ما تتجاوز نماذج تعلُّم الآلة الميزات المستمرة. ومع ذلك، فإن نماذج تعلُّم الآلة تتجاوز عادةً متّجهات الميزات بنقرة واحدة. فكِّر في الصلبان العادية الخاصة بالمتّجهات الساخنة كعمليات إقران منطقية. على سبيل المثال، لنفترض أنّ لدينا ميزتَين: البلد واللغة. يؤدي ترميز كل نقطة إلى إنشاء متّجهَين باستخدام ميزات ثنائية يمكن تفسيرها على أنها country=USA, country=France أو language=English, language=Spanish. بعد ذلك، إذا أجريت ميزة عبر هذه الترميزات السريعة، ستحصل على ميزات ثنائية يمكن تفسيرها على أنها عمليات ربط منطقية، مثل:

  country:usa AND language:spanish

كمثال آخر، لنفترض أنّك تضع خط الطول وخط العرض، ما يؤدي إلى إنشاء متّجهين منفصلَين لخمسة عناصر. على سبيل المثال، يمكن تمثيل خط الطول وخط العرض كما يلي:

  binned_latitude = [0, 0, 0, 1, 0]
  binned_longitude = [0, 1, 0, 0, 0]

لنفترض أنك تنشئ تقاطعًا بين عنصرَين من متيّزَي الميزات:

  binned_latitude X binned_longitude

هذه الميزة المتقاطعة هي متّجه واحد من 25 عنصرًا (24 صفرًا وواحد). يحدّد الرقم 1 الفردي في الصليب تقاطعًا معينًا لخط العرض وخط الطول. ويمكن أن يتعلّم النموذج بعد ذلك ارتباطات معيّنة حول هذا الربط.

لنفترض أننا نعتمد بعض خطوط الطول والعرض على نحو أكثر وضوحًا، كما يلي:

binned_latitude(lat) = [
  0  < lat <= 10
  10 < lat <= 20
  20 < lat <= 30
]

binned_longitude(lon) = [
  0  < lon <= 15
  15 < lon <= 30
]

يؤدي إنشاء ميزة عبر هذه السلالات الخشنة إلى ميزة اصطناعية تحمل المعاني التالية:

binned_latitude_X_longitude(lat, lon) = [
  0  < lat <= 10 AND 0  < lon <= 15
  0  < lat <= 10 AND 15 < lon <= 30
  10 < lat <= 20 AND 0  < lon <= 15
  10 < lat <= 20 AND 15 < lon <= 30
  20 < lat <= 30 AND 0  < lon <= 15
  20 < lat <= 30 AND 15 < lon <= 30
]

لنفترض أنّ نموذجنا يحتاج إلى توقّع مدى رضا الكلاب عن الكلاب، وذلك بالاستناد إلى ميزتَين:

  • نوع السلوك (النباح، البكاء، الاحتضان وما إلى ذلك)
  • الوقت من اليوم

إذا صمّمنا ميزة جديدة من كلتا الميزتين:

  [behavior type X time of day]

سننتقل عندئذٍ إلى إمكانات تنبئية أكثر بكثير من أي ميزة بحد ذاتها. على سبيل المثال، إذا بكاء كلب (بسعادة) في الساعة 5:00 مساءً عندما يعود المالك من العمل، من المرجّح أن يكون هذا مؤشرًا إيجابيًا كبيرًا على رضا المالك. إنّ البكاء (باحتمال فاشل) في الساعة 3:00 صباحًا عندما كان المالك نائمًا من المحتمل أن يكون توقّعًا سلبيًا كبيرًا عن رضا المالك.

يمكن للطلّاب الخطيين توسيع نطاق وصولهم إلى بيانات ضخمة. ويُعدّ استخدام سمات متعدّدة على مجموعات بيانات ضخمة إحدى الاستراتيجيات الفعّالة لتعلّم النماذج المعقّدة للغاية. الشبكات العصبونية تقدّم استراتيجية أخرى.