التمثيل

لا يمكن لنموذج تعلُّم الآلة رؤية الأمثلة التي تم إدخالها أو سماعها أو استشعارها مباشرةً. بدلاً من ذلك، يجب عليك إنشاء تمثيل للبيانات لتزويد النموذج بنقطة أفضل مفيدة حول الصفات الرئيسية للبيانات. أي، لتدريب نموذج، يجب عليك اختيار مجموعة الميزات التي تمثل البيانات على أفضل وجه.

التمثيل

الفكرة هي تعيين كل جزء من الخط المتجه على اليسار في حقل واحد أو أكثر في متجه الميزة على اليمين.

يتم تعيين البيانات الأولية لمتجه خاصية من خلال عملية تسمى هندسة الخصائص.
مثال على ميزة يمكن نسخها مباشرةً من البيانات الأولية
مثال على ميزة سلسلة (اسم الشارع) التي لا يمكن نسخها مباشرةً من البيانات الأولية
يتم ربط قيمة سلسلة (
  • يربط القاموس كل اسم شارع بعدد صحيح في {0, ...,V-1}.
  • الآن، نعبر عن الخط المتجه الواحد أعلاه على النحو <i>

يجب أن تظهر قيم الميزات بقيمة غير صفرية أكثر من عدد قليل من المرات في مجموعة البيانات.

my_device_id:8SK982ZZ1242Z

device_model:galaxy_s6

يجب أن يكون للميزات معنى واضح وواضح.

user_age:23

user_age:123456789

يجب ألا تأخذ الميزات قيمًا "سحرية"

(استخدِم ميزة منطقية إضافية، مثل watch_time_is_تعريف بدلاً من ذلك).

watch_time: -1.0

watch_time: 1.023

watch_time_is_defined: 1.0

يجب ألا يتغير تعريف الميزة بمرور الوقت.

(عليك توخّي الحذر من الاعتماد على أنظمة تعلُّم الآلة الأخرى).

city_id:"br/sao_paulo"

inferred_city_cluster_id:219

يجب ألا يحتوي التوزيع على قيم استثنائية قصوى

من المفترض أن يتم تحويل جميع الميزات إلى نطاق مشابه، مثل (-1، 1) أو (0، 5).

التوزيع باستخدام القيم المتطرفة والتوزيع باستخدام حد أقصى
رسم بياني يوضح توزيعًا مع منحنى ملاءمة بناءً على الموقع الجغرافي
رسم بياني يوضح توزيعًا مع منحنى ملاءمة بناءً على الموقع الجغرافي
  • إنشاء العديد من الوحدات المنطقية، وتعيين كل منها إلى ميزة فريدة جديدة
  • تسمح للنموذج باحتواء قيمة مختلفة لكل سلة

معرفة البيانات

  • التمثيل البصري: اعرِض المدرّجات التكرارية، من الأكثر إلى الأقل شيوعًا.
  • تصحيح الأخطاء: هل هناك أمثلة مكررة؟ هل هناك قيم مفقودة؟ القيم الاستثنائية؟ تتفق البيانات مع لوحات المعلومات؟ هل تتشابه بيانات التدريب والتحقّق من الصحة؟
  • أداة المراقبة: هل هي قيم الميزة، وعدد الأمثلة بمرور الوقت؟