این واحد راه هایی را برای نگاشت داده های خام به بردارهای ویژگی مناسب بررسی کرده است. ویژگیهای عددی خوب با کیفیتهای توصیفشده در این بخش مشترک هستند.
به وضوح نامگذاری شده است
هر ویژگی باید برای هر انسانی در پروژه معنایی روشن، معقول و واضح داشته باشد. به عنوان مثال، معنای مقدار ویژگی زیر گیج کننده است:
توصیه نمی شود
خانه_سن: 851472000
در مقابل، نام ویژگی و مقدار زیر بسیار واضح تر است:
توصیه می شود
خانه_سن_سال: 27
قبل از آموزش بررسی یا تست شده است
اگرچه این ماژول زمان زیادی را به موارد پرت اختصاص داده است، موضوع آنقدر مهم است که یک اشاره نهایی را تضمین کند. در برخی موارد، داده های بد (به جای انتخاب های مهندسی بد) باعث مقادیر نامشخص می شود. برای مثال، user_age_in_years
زیر از منبعی آمده است که مقادیر مناسب را بررسی نکرده است:
توصیه نمی شود
user_age_in_years: 224
اما افراد می توانند 24 ساله باشند:
توصیه می شود
user_age_in_years: 24
داده های خود را بررسی کنید!
معقول
یک "ارزش جادویی" یک ناپیوستگی هدفمند در یک ویژگی پیوسته است. برای مثال، فرض کنید یک ویژگی پیوسته به نام watch_time_in_seconds
می تواند هر مقدار ممیز شناور را بین 0 تا 30 نگه دارد، اما نشان دهنده عدم وجود اندازه گیری با مقدار جادویی -1 است:
توصیه نمی شود
ساعت_در_ثانیه: -1
watch_time_in_seconds
از -1، مدل را مجبور می کند تا بفهمد تماشای فیلم به عقب در زمان چیست. مدل حاصل احتمالاً پیشبینی خوبی نخواهد داشت.
یک تکنیک بهتر این است که یک ویژگی Boolean جداگانه ایجاد کنید که نشان دهد مقدار watch_time_in_seconds
ارائه شده است یا خیر. به عنوان مثال:
توصیه می شود
ساعت_در_ثانیه: 4.82
is_watch_time_in_seconds_defined=درست استساعت_در_ثانیه: 0
is_watch_time_in_seconds_defined=نادرست است
حال یک ویژگی عددی گسسته را در نظر بگیرید که مقادیر آن باید به مجموعه ای محدود از مقادیر تعلق داشته باشد. در این حالت، زمانی که یک مقدار گم شده است، با استفاده از یک مقدار جدید در مجموعه محدود، آن مقدار گم شده را نشان دهید. با یک ویژگی مجزا، مدل وزنهای مختلفی را برای هر مقدار، از جمله وزنهای اصلی برای ویژگیهای گمشده، یاد میگیرد.