تمت ترجمة هذه الصفحة بواسطة Cloud Translation API‏.

البيانات الرقمية: كيف يستوعب نموذج البيانات باستخدام متجهات الخصائص

حتى الآن، قدّمنا لك انطباعًا بأنّ النموذج يعمل مباشرةً على صفوف مجموعة بيانات معيّنة، ولكنّ النماذج تعالج البيانات بشكل مختلف نوعًا ما.

على سبيل المثال، لنفترض أنّ مجموعة البيانات توفّر خمسة أعمدة، ولكن عمودَين فقط من هذه الأعمدة (b وd) هما سمتان في النموذج. عند معالجة المثال في الصف 3، هل يأخذ النموذج ببساطة محتويات الخليتين المميّزتين (3b و3d) على النحو التالي؟

الشكل 1. نموذج يستوعب مثالاً مباشرةً من مجموعة بيانات
تم تمييز العمودَين "ب" و"د" في الصف 3. — **الشكل 1.** لا يشير ذلك إلى الطريقة الدقيقة التي يحصل بها النموذج على أمثلة.

في الواقع، يعالج النموذج مصفوفة من القيم الكسورية العشرية تُسمى متجه السمات. يمكنك اعتبار متجه السمات على أنّه القيم الكسورية التي تتألف من مثال واحد.

الشكل 2. يمثّل متجه السمات وسيطًا بين مجموعة البيانات
والنموذج. — **الشكل 2.** قريبة من الحقيقة، ولكن ليست واقعية

ومع ذلك، نادرًا ما تستخدِم ناقلات السمات القيم الأوّلية لمجموعة البيانات. بدلاً من ذلك، عليك عادةً معالجة قيم مجموعة البيانات إلى تمثيلات يمكن لنموذجك التعلّم منها بشكل أفضل. وبالتالي، قد يبدو متجه ميزات أكثر واقعية على النحو التالي:

الشكل 3. يحتوي متجه السمات على قيمتَين بفاصل عشري:
0.13 و0.47. مصفوفة ميزات أكثر واقعية — **الشكل 3.** مصفوفة ميزات أكثر واقعية

ألا يُفترض أن يقدّم النموذج تنبؤات أفضل من خلال التدريب على القيمة الفعلية في مجموعة البيانات بدلاً من القيم المعدَّلة؟ والمفاجأة هي أنّ الإجابة هي "لا".

يجب تحديد أفضل طريقة لتمثيل قيم مجموعة البيانات الأولية كقيم قابلة للتدريب في متجه السمات. تُعرف هذه العملية باسم هندسة الميزات، وهي جزء حيوي من التعلم الآلي. في ما يلي الأساليب الأكثر شيوعًا لهندسة الميزات:

التسوية: تحويل القيم الرقمية إلى نطاق عادي
التجميع (يُشار إليه أيضًا باسم التصنيف): تحويل القيم العددية إلى مجموعات من النطاقات.

تتناول هذه الوحدة تسويّة البيانات وتجميعها. تتناول الوحدة التالية، العمل مع البيانات الفئوية، أشكالًا أخرى من المعالجة الأولية، مثل تحويل البيانات غير الرقمية، مثل السلاسل، إلى قيم نقطية عائمة.

يجب أن تكون كل قيمة في مصفوفة السمات قيمة عددية عشرية. ومع ذلك، فإنّ العديد من السمات هي سلاسل أو قيم غير رقمية أخرى. نتيجةً لذلك، يتمثل جزء كبير من هندسة الميزات في تمثيل القيم غير الرقمية كقيمة رقمية. سترى الكثير من هذه الممارسات في الوحدات اللاحقة.

المقدّمة (3 دقائق)

الخطوات الأولى (5 دقائق)

البيانات الرقمية: كيف يستوعب نموذج البيانات باستخدام متجهات الخصائص تنظيم صفحاتك في مجموعات يمكنك حفظ المحتوى وتصنيفه حسب إعداداتك المفضّلة.

البيانات الرقمية: كيف يستوعب نموذج البيانات باستخدام متجهات الخصائص