البيانات الرقمية: التحويلات متعددة الحدود

في بعض الأحيان، عندما تكون لدى ممارس تعلُّم الآلة معرفة بالمجال أن أحد المتغيرات يرتبط بالمربع أو المكعب أو قوى أخرى متغير، فمن المفيد إنشاء ميزة اصطناعية من منتج واحد من الميزات الرقمية الحالية.

ضع في الاعتبار الانتشار التالي لنقاط البيانات، حيث تمثل الدوائر الوردية فئة أو فئة واحدة (مثلاً، نوع من الأشجار) ومثلثات خضراء فئة أخرى (أو نوع من الأشجار):

الشكل 17. انتشار y=x^2 لنقاط البيانات، مع وجود مثلثات أسفل
            المنحنى والدوائر فوق المنحنى.
الشكل 17. فئتان لا يمكن فصلهما بسطر.

لا يمكن رسم خط مستقيم يفصل بينهما تمامًا ولكن من الممكن رسم منحنى يؤدي ذلك:

الشكل 18. نفس صورة الشكل 17، فقط هذه المرة بـ y=x^2
            لإنشاء حدود واضحة بين المثلّثات
            ودوائر.
الشكل 18. فصل الصفوف باستخدام y = x2

كما تمت مناقشته في وحدة الانحدار الخطي يتم وصف نموذج خطي ذو خاصية واحدة، $x_1$، بواسطة المعادلة الخطية:

$$y = b + w_1x_1$$

تتم معالجة الميزات الإضافية من خلال إضافة البنود \(w_2x_2\)، \(w_3x_3\)، إلخ.

ويجد انحدار التدرج الوزن $w_1$ (أو الأوزان \(w_1\)و \(w_2\)و \(w_3\)، في حالة الميزات الإضافية) التي تقلل خسارة النموذج. ولكن لا يمكن فصل نقاط البيانات المعروضة بخط. ما الذي يمكنني فعله؟

من الممكن الحفاظ على كل من المعادلة الخطية والسماح بالعلاقة غير الخطية عن طريق تحديد مصطلح جديد، \(x_2\)، والذي يمثل \(x_1\) مربعًا ببساطة:

$$x_2 = x_1^2$$

تُعامَل هذه الخاصية الاصطناعية، المسماة التحويل متعدد الحدود، مثل أي من الميزات الأخرى. تصبح الصيغة الخطية السابقة على النحو التالي:

$$y = b + w_1x_1 + w_2x_2$$

لا يزال من الممكن التعامل مع هذا الانحدار الخطي والأوزان التي تم تحديدها من خلال انحدار التدرج، كالعادة، على الرغم من تحتوي على حد مربع مخفي، وهو التحويل متعدد الحدود. بدون التغيير طريقة تطبيق النموذج الخطي، فإن إضافة التحويل متعدد الحدود يتيح لفصل نقاط البيانات باستخدام منحنى نموذج $y = b + w_1x + w_2x^2$.

وعادة ما يتم ضرب الخاصية العددية للفائدة في نفسها، أي، رفعه إلى بعض القوة. في بعض الأحيان، يمكن لممارس التعلم الآلي إجراء تخمين مستنير حول الأس المناسب. فعلى سبيل المثال، هناك العديد من العلاقات في العمل والعالم بعبارات تربيعية، بما في ذلك التسارع الناتج عن الجاذبية، توهان الضوء أو الصوت عبر المسافة، وطاقة الوضع المرنة.

هناك مفهوم ذو صلة في البيانات الفئوية هي تقاطع الميزات، مما يزيد من تجمع بشكل متكرر ميزتين مختلفتين.