حتى الآن، قدّمنا لك انطباعًا بأنّ النموذج يعمل مباشرةً على صفوف مجموعة بيانات معيّنة، ولكنّ النماذج تعالج البيانات بشكل مختلف نوعًا ما.
على سبيل المثال، لنفترض أنّ مجموعة البيانات توفّر خمسة أعمدة، ولكن عمودَين فقط من هذه
الأعمدة (b
وd
) هما سمتان في النموذج. عند معالجة
المثال في الصف 3، هل يأخذ النموذج ببساطة محتويات
الخليتين المميّزتين (3b و3d) على النحو التالي؟
في الواقع، يعالج النموذج مصفوفة من القيم الكسورية العشرية تُسمى متجه السمات. يمكنك اعتبار متجه السمات على أنّه القيم الكسورية التي تتألف من مثال واحد.
ومع ذلك، نادرًا ما تستخدِم ناقلات السمات القيم الأوّلية لمجموعة البيانات. بدلاً من ذلك، عليك عادةً معالجة قيم مجموعة البيانات إلى تمثيلات يمكن لنموذجك التعلّم منها بشكل أفضل. وبالتالي، قد يبدو متجه ميزات أكثر واقعية على النحو التالي:
ألا يُفترض أن يقدّم النموذج تنبؤات أفضل من خلال التدريب على القيمة الفعلية في مجموعة البيانات بدلاً من القيم المعدَّلة؟ والمفاجأة هي أنّ الإجابة هي "لا".
يجب تحديد أفضل طريقة لتمثيل قيم مجموعة البيانات الأولية كقيم قابلة للتدريب في متجه السمات. تُعرف هذه العملية باسم هندسة الميزات، وهي جزء حيوي من التعلم الآلي. في ما يلي الأساليب الأكثر شيوعًا لهندسة الميزات:
- التسوية: تحويل القيم الرقمية إلى نطاق عادي
- التجميع (يُشار إليه أيضًا باسم التصنيف): تحويل القيم العددية إلى مجموعات من النطاقات.
تتناول هذه الوحدة تسويّة البيانات وتجميعها. تتناول الوحدة التالية، العمل مع البيانات الفئوية، أشكالًا أخرى من المعالجة الأولية، مثل تحويل البيانات غير الرقمية، مثل السلاسل، إلى قيم نقطية عائمة.
يجب أن تكون كل قيمة في مصفوفة السمات قيمة عددية عشرية. ومع ذلك، فإنّ العديد من السمات هي سلاسل أو قيم غير رقمية أخرى. نتيجةً لذلك، يتمثل جزء كبير من هندسة الميزات في تمثيل القيم غير الرقمية كقيمة رقمية. سترى الكثير من هذه الممارسات في الوحدات اللاحقة.