اكتشفت هذه الوحدة طرقًا لتعيين البيانات الأولية في شكل متّجهات الميزة. تشارك الميزات الرقمية الجيدة في الصفات الموضحة في هذا القسم.
ذات الأسماء الواضحة
ينبغي أن يكون لكل ميزة معنى واضح ومعقول وواضح لأي إنسان في للمشروع. على سبيل المثال، معنى قيمة الميزة التالية هو مربكة:
سمة غير مقترَحة
House_age: 851472000
في المقابل، اسم الميزة التالية وقيمتها أكثر وضوحًا:
مقترَح
House_age_years: 27
تم إجراء تقييم أو اختبار قبل التدريب
على الرغم من أن هذه الوحدة خصصت الكثير من الوقت
القيم المتطرفة، فإن هذا الموضوع
مهمًا بما يكفي لتبرير الإشارة الأخيرة مرة واحدة. في بعض الحالات، قد تكون البيانات السيئة
(بدلاً من اختيارات هندسية سيئة) إلى تقديم قيم غير واضحة. على سبيل المثال:
إنّ user_age_in_years
التالية واردة من مصدر لم يتحقّق من
القيم المناسبة:
سمة غير مقترَحة
user_age_in_years: 224
ولكن قد يكون عمر الأشخاص 24 عامًا:
مقترَح
user_age_in_years: 24
التحقق من بياناتك!
واضحة
"قيمة سحرية" هو انقطاع هادف في إدارة مستمرة
الجديدة. على سبيل المثال، لنفترض أنّ هناك ميزة مستمرة تُسمى watch_time_in_seconds
.
يمكن أن يحتوي على أي قيمة نقطة عائمة بين 0 و30 ولكنه يمثل الغياب
للقياس بالقيمة السحرية -1:
سمة غير مقترَحة
Watch_time_in_seconds: -1
قد تجبر القيمة watch_time_in_seconds
من -1 النموذج على محاولة حساب
معرفة معنى مشاهدة فيلم بالزمن السابق. سيكون النموذج الناتج
ربما لا تقدم تنبؤات جيدة.
وهناك أسلوب أفضل وهو إنشاء خاصية منطقية منفصلة تشير إلى
ما إذا كانت watch_time_in_seconds
أم لا
تقديم قيمة محددة. على سبيل المثال:
مقترَح
Watch_time_in_seconds: 4.82
is_watch_time_in_seconds_defined=TrueWatch_time_in_seconds: 0
is_watch_time_in_seconds_defined=False
ضع في اعتبارك الآن قائمة منفصلة سمة عددية يجب أن تنتمي قيمها إلى مجموعة محدودة من القيم. في هذه الدورة، الحالة، عندما تكون إحدى القيم مفقودة، إلى الإشارة إلى أن القيمة المفقودة باستخدام قيمة جديدة في المجموعة المحدودة. باستخدام أي خاصية منفصلة، سيتعلم النموذج الأوزان المختلفة لكل قيمة، بما في ذلك الترجيحات الأصلية للميزات المفقودة.