لا يمكن لنموذج تعلُّم الآلة رؤية الأمثلة التي تم إدخالها أو سماعها أو استشعارها مباشرةً. بدلاً من ذلك، يجب عليك إنشاء تمثيل للبيانات لتزويد النموذج بنقطة أفضل مفيدة حول الصفات الرئيسية للبيانات. أي، لتدريب نموذج، يجب عليك اختيار مجموعة الميزات التي تمثل البيانات على أفضل وجه.
التمثيل
من البيانات الأولية إلى الميزات
الفكرة هي تعيين كل جزء من الخط المتجه على اليسار في حقل واحد أو أكثر في متجه الميزة على اليمين.
من البيانات الأولية إلى الميزات
من البيانات الأولية إلى الميزات
من البيانات الأولية إلى الميزات
- يربط القاموس كل اسم شارع بعدد صحيح في {0, ...,V-1}.
- الآن، نعبر عن الخط المتجه الواحد أعلاه على النحو <i>
خصائص الميزة الجيدة
يجب أن تظهر قيم الميزات بقيمة غير صفرية أكثر من عدد قليل من المرات في مجموعة البيانات.
my_device_id:8SK982ZZ1242Z
device_model:galaxy_s6
خصائص الميزة الجيدة
يجب أن يكون للميزات معنى واضح وواضح.
user_age:23
user_age:123456789
خصائص الميزة الجيدة
يجب ألا تأخذ الميزات قيمًا "سحرية"
(استخدِم ميزة منطقية إضافية، مثل watch_time_is_تعريف بدلاً من ذلك).
watch_time: -1.0
watch_time: 1.023
watch_time_is_defined: 1.0
خصائص الميزة الجيدة
يجب ألا يتغير تعريف الميزة بمرور الوقت.
(عليك توخّي الحذر من الاعتماد على أنظمة تعلُّم الآلة الأخرى).
city_id:"br/sao_paulo"
inferred_city_cluster_id:219
خصائص الميزة الجيدة
يجب ألا يحتوي التوزيع على قيم استثنائية قصوى
من المفترض أن يتم تحويل جميع الميزات إلى نطاق مشابه، مثل (-1، 1) أو (0، 5).
لعبة الربط
لعبة الربط
- إنشاء العديد من الوحدات المنطقية، وتعيين كل منها إلى ميزة فريدة جديدة
- تسمح للنموذج باحتواء قيمة مختلفة لكل سلة
العادات الحميدة
معرفة البيانات
- التمثيل البصري: اعرِض المدرّجات التكرارية، من الأكثر إلى الأقل شيوعًا.
- تصحيح الأخطاء: هل هناك أمثلة مكررة؟ هل هناك قيم مفقودة؟ القيم الاستثنائية؟ تتفق البيانات مع لوحات المعلومات؟ هل تتشابه بيانات التدريب والتحقّق من الصحة؟
- أداة المراقبة: هل هي قيم الميزة، وعدد الأمثلة بمرور الوقت؟