داده های عددی: کیفیت ویژگی های عددی خوب

این واحد راه هایی را برای نگاشت داده های خام به بردارهای ویژگی مناسب بررسی کرده است. ویژگی‌های عددی خوب با کیفیت‌های توصیف‌شده در این بخش مشترک هستند.

به وضوح نامگذاری شده است

هر ویژگی باید برای هر انسانی در پروژه معنایی روشن، معقول و واضح داشته باشد. به عنوان مثال، معنای مقدار ویژگی زیر گیج کننده است:

توصیه نمی شود

خانه_سن: 851472000

در مقابل، نام ویژگی و مقدار زیر بسیار واضح تر است:

توصیه می شود

خانه_سن_سال: 27

قبل از آموزش بررسی یا تست شده است

اگرچه این ماژول زمان زیادی را به موارد پرت اختصاص داده است، موضوع آنقدر مهم است که یک اشاره نهایی را تضمین کند. در برخی موارد، داده های بد (به جای انتخاب های مهندسی بد) باعث مقادیر نامشخص می شود. برای مثال، user_age_in_years زیر از منبعی آمده است که مقادیر مناسب را بررسی نکرده است:

توصیه نمی شود

user_age_in_years: 224

اما افراد می توانند 24 ساله باشند:

توصیه می شود

user_age_in_years: 24

داده های خود را بررسی کنید!

معقول

یک "ارزش جادویی" یک ناپیوستگی هدفمند در یک ویژگی پیوسته است. برای مثال، فرض کنید یک ویژگی پیوسته به نام watch_time_in_seconds می تواند هر مقدار ممیز شناور را بین 0 تا 30 نگه دارد، اما نشان دهنده عدم وجود اندازه گیری با مقدار جادویی -1 است:

توصیه نمی شود

ساعت_در_ثانیه: -1

watch_time_in_seconds از -1، مدل را مجبور می کند تا بفهمد تماشای فیلم به عقب در زمان چیست. مدل حاصل احتمالاً پیش‌بینی خوبی نخواهد داشت.

یک تکنیک بهتر این است که یک ویژگی Boolean جداگانه ایجاد کنید که نشان دهد مقدار watch_time_in_seconds ارائه شده است یا خیر. به عنوان مثال:

توصیه می شود

ساعت_در_ثانیه: 4.82
is_watch_time_in_seconds_defined=درست است

ساعت_در_ثانیه: 0
is_watch_time_in_seconds_defined=نادرست است

حال یک ویژگی عددی گسسته را در نظر بگیرید که مقادیر آن باید به مجموعه ای محدود از مقادیر تعلق داشته باشد. در این حالت، زمانی که یک مقدار گم شده است، با استفاده از یک مقدار جدید در مجموعه محدود، آن مقدار گم شده را نشان دهید. با یک ویژگی مجزا، مدل وزن‌های مختلفی را برای هر مقدار، از جمله وزن‌های اصلی برای ویژگی‌های گمشده، یاد می‌گیرد.