حتى الآن، لقد منحناك انطباعًا بأن نموذجًا ما يعمل بشكل مباشر على وصفوف مجموعة البيانات؛ ولكن النماذج تستوعب البيانات بشكل مختلف بعض الشيء.
على سبيل المثال، لنفترض أن مجموعة البيانات توفر خمسة أعمدة، لكن اثنين فقط منها
(b
وd
) هي ميزات في النموذج. عند المعالجة
كما يتضح في الصف 3، هل النموذج يقوم ببساطة بجلب محتويات
قمت بتمييز خليتين (3b و3d) على النحو التالي؟
في الواقع، يستوعب النموذج مصفوفة من قيم النقاط العائمة تسمى متّجه الميزة. يمكنك التفكير لمتجه خاصية كقيم النقطة العائمة التي تشكل مثالاً واحدًا.
ومع ذلك، نادرًا ما تستخدم متجهات الخصائص القيم الأولية لمجموعة البيانات. بدلاً من ذلك، يجب عليك عادةً معالجة قيم مجموعة البيانات في تمثيلات التي يمكن لنموذجك التعلم منها بشكل أفضل. لذلك، لوحة أكثر واقعية قد يبدو متجه الميزة على النحو التالي:
ألن ينتج عن النموذج تنبؤات أفضل بالتدريب من الفعلية في مجموعة البيانات عن القيم المعدَّلة؟ من المستغرب أن الإجابة هي لا.
يجب تحديد أفضل طريقة لتمثيل قيم مجموعة البيانات الأولية كقيم قابلة للتدريب. القيم في الخط المتجه للخاصية. تُسمى هذه العملية هندسة الميزات، وهي جزء حيوي من التعلم الآلي. تقنيات هندسة الميزات الأكثر شيوعًا هي:
- التسوية: التحويل القيم الرقمية في نطاق قياسي.
- الربط (يُشار إليه أيضًا باسم التجميع): تحويل الأعداد القيم إلى مجموعات من النطاقات.
تتناول هذه الوحدة التسوية والربط. الوحدة التالية، العمل باستخدام البيانات الفئوية، أشكال أخرى من المعالجة المسبقة، مثل تحويل البيانات غير الرقمية، مثل السلاسل، إلى قيم النقاط العائمة.
يجب أن تكون كل قيمة في متجه الميزة قيمة نقطة عائمة. ومع ذلك، فإن العديد من والميزات عبارة عن سلاسل بطبيعة الحال أو قيم أخرى غير رقمية. وبالتالي، يمثل جزء كبير من هندسة الميزات القيم غير الرقمية القيم الرقمية. سترى الكثير من هذا في الوحدات اللاحقة.