البيانات العددية: صفات الخصائص العددية الجيدة

لقد استكشافت هذه الوحدة طرق ربط البيانات الأولية بمواد مناسبة للخطوط المتّجهة للخصائص. تشترك الميزات الرقمية الجيدة في الصفات الموضّحة في هذا القسم.

أن يكون لها اسم واضح

يجب أن يكون لكل ميزة معنى واضح وعقلاني وواضح لأي شخص في المشروع. على سبيل المثال، معنى قيمة الميزة التالية هو مربّك:

سمة غير مقترَحة

house_age: 851472000

في المقابل، يكون اسم الميزة وقيمتها أدناه أكثر وضوحًا:

مقترَح

house_age_years: 27

تم التحقّق منها أو اختبارها قبل التدريب

على الرغم من أنّ هذه الوحدة قد خصّصت الكثير من الوقت لمناقشة القيم الشاذة، إلا أنّ هذا الموضوع مهم بما يكفي ليستحقّ ذكرًا نهائيًا. في بعض الحالات، تؤدي البيانات غير الصالحة (بدلاً من الخيارات الهندسية السيئة) إلى ظهور قيم غير واضحة. على سبيل المثال، جاءت user_age_in_years التالية من مصدر لم يتحقّق من قيمه المناسبة:

سمة غير مقترَحة

user_age_in_years: 224

ولكن يمكن أن يكون عمر المستخدم 24 عامًا في الحالات التالية:

مقترَح

user_age_in_years: 24

تحقّق من بياناتك.

معقول

"القيمة السحرية" هي انقطاع مقصود في سمة كانت مستمرة على سبيل المثال، لنفترض أنّ سمة مستمرة باسم watch_time_in_seconds يمكنها احتواء أي قيمة عشرية بين 0 و30، ولكنها تمثّل عدم توفّر قياس باستخدام القيمة السحرية -1:

سمة غير مقترَحة

watch_time_in_seconds: -1

سيؤدي القيمة -1 في watch_time_in_seconds إلى إجبار النموذج على محاولة معرفة ما يعنيه مشاهدة فيلم عكسيًا في الوقت. ومن المرجّح أنّ النموذج الناتج لن يقدّم توقّعات جيدة.

من الأساليب الأفضل إنشاء سمة منطقية منفصلة تشير إلى ما إذا تم تقديم قيمة watch_time_in_seconds أم لا. على سبيل المثال:

مقترَح

watch_time_in_seconds: 4.82
is_watch_time_in_seconds_defined=True

watch_time_in_seconds: 0
is_watch_time_in_seconds_defined=False

هذه طريقة للتعامل مع مجموعة بيانات مستمرة تتضمّن قيمًا غير متوفّرة. لنفترض الآن سمة رقمية متقطّعة ، مثل product_category، والتي يجب أن تنتمي قيمها إلى مجموعة محدودة من القيم. في هذا الحالة، عندما تكون القيمة غير متوفّرة، يمكنك الإشارة إلى هذه القيمة باستخدام قيمة جديدة في المجموعة المحدودة. باستخدام سمة منفصلة، سيتعرّف النموذج على أوزان مختلفة لكل قيمة، بما في ذلك الأوزان الأصلية للسمات غير المتوفّرة.

على سبيل المثال، يمكننا تخيل القيم المحتملة التي تلائم المجموعة:

{0: 'electronics', 1: 'books', 2: 'clothing', 3: 'missing_category'}.