البيانات العددية: صفات الخصائص العددية الجيدة

اكتشفت هذه الوحدة طرقًا لتعيين البيانات الأولية في شكل متّجهات الميزة. تشارك الميزات الرقمية الجيدة في الصفات الموضحة في هذا القسم.

ذات الأسماء الواضحة

ينبغي أن يكون لكل ميزة معنى واضح ومعقول وواضح لأي إنسان في للمشروع. على سبيل المثال، معنى قيمة الميزة التالية هو مربكة:

سمة غير مقترَحة

House_age: 851472000

في المقابل، اسم الميزة التالية وقيمتها أكثر وضوحًا:

مقترَح

House_age_years: 27

تم إجراء تقييم أو اختبار قبل التدريب

على الرغم من أن هذه الوحدة خصصت الكثير من الوقت القيم المتطرفة، فإن هذا الموضوع مهمًا بما يكفي لتبرير الإشارة الأخيرة مرة واحدة. في بعض الحالات، قد تكون البيانات السيئة (بدلاً من اختيارات هندسية سيئة) إلى تقديم قيم غير واضحة. على سبيل المثال: إنّ user_age_in_years التالية واردة من مصدر لم يتحقّق من القيم المناسبة:

سمة غير مقترَحة

user_age_in_years: 224

ولكن قد يكون عمر الأشخاص 24 عامًا:

مقترَح

user_age_in_years: 24

التحقق من بياناتك!

واضحة

"قيمة سحرية" هو انقطاع هادف في إدارة مستمرة الجديدة. على سبيل المثال، لنفترض أنّ هناك ميزة مستمرة تُسمى watch_time_in_seconds. يمكن أن يحتوي على أي قيمة نقطة عائمة بين 0 و30 ولكنه يمثل الغياب للقياس بالقيمة السحرية -1:

سمة غير مقترَحة

Watch_time_in_seconds: -1

قد تجبر القيمة watch_time_in_seconds من -1 النموذج على محاولة حساب معرفة معنى مشاهدة فيلم بالزمن السابق. سيكون النموذج الناتج ربما لا تقدم تنبؤات جيدة.

وهناك أسلوب أفضل وهو إنشاء خاصية منطقية منفصلة تشير إلى ما إذا كانت watch_time_in_seconds أم لا تقديم قيمة محددة. على سبيل المثال:

مقترَح

Watch_time_in_seconds: 4.82
is_watch_time_in_seconds_defined=True

Watch_time_in_seconds: 0
is_watch_time_in_seconds_defined=False

ضع في اعتبارك الآن قائمة منفصلة سمة عددية يجب أن تنتمي قيمها إلى مجموعة محدودة من القيم. في هذه الدورة، الحالة، عندما تكون إحدى القيم مفقودة، إلى الإشارة إلى أن القيمة المفقودة باستخدام قيمة جديدة في المجموعة المحدودة. باستخدام أي خاصية منفصلة، سيتعلم النموذج الأوزان المختلفة لكل قيمة، بما في ذلك الترجيحات الأصلية للميزات المفقودة.