یک مدل یادگیری ماشینی نمیتواند مستقیماً نمونههای ورودی را ببیند، بشنود یا حس کند. در عوض، شما باید نمایشی از داده ها ایجاد کنید تا مدل را با یک نقطه برتری مفید در مورد کیفیت های کلیدی داده ها ارائه دهید. یعنی برای آموزش یک مدل باید مجموعه ای از ویژگی هایی را انتخاب کنید که داده ها را به بهترین شکل نشان می دهد.
نمایندگی
از داده های خام تا ویژگی ها
ایده این است که هر قسمت از بردار سمت چپ را به یک یا چند فیلد در بردار ویژگی سمت راست نگاشت کنیم.
از داده های خام تا ویژگی ها
از داده های خام تا ویژگی ها
از داده های خام تا ویژگی ها
فرهنگ لغت نام هر خیابان را به یک int در {0، ...، V-1} ترسیم می کند.
اکنون بردار تک داغ در بالا را به صورت < i > نشان دهید
ویژگی های یک ویژگی خوب
مقادیر مشخصه باید بیش از چند بار در مجموعه داده با مقدار غیر صفر ظاهر شوند.
my_device_id:8SK982ZZ1242Z
device_model:galaxy_s6
ویژگی های یک ویژگی خوب
ویژگی ها باید معنای روشن و واضحی داشته باشند.
user_age:23
user_age:123456789
ویژگی های یک ویژگی خوب
ویژگی ها نباید مقادیر "جادویی" به خود بگیرند
(به جای آن از یک ویژگی بولی اضافی مانند watch_time_is_defined استفاده کنید!)
watch_time: -1.0
watch_time: 1.023
watch_time_is_defined: 1.0
ویژگی های یک ویژگی خوب
تعریف یک ویژگی نباید در طول زمان تغییر کند.
(مراقب وابستگی به سایر سیستم های ML باشید!)
city_id:"br/sao_paulo"
inferred_city_cluster_id:219
ویژگی های یک ویژگی خوب
توزیع نباید دارای نقاط پرت شدید باشد
در حالت ایدهآل، همه ویژگیها به یک محدوده مشابه تبدیل میشوند، مانند (-1، 1) یا (0، 5).
ترفند Binning
ترفند Binning
چندین bin boolean ایجاد کنید که هر کدام به یک ویژگی منحصر به فرد جدید نگاشت می شوند
به مدل اجازه میدهد تا مقدار متفاوتی را برای هر bin مناسب کند
عادتهای خوب
داده های خود را بدانید
تجسم : هیستوگرامها را رسم کنید، رتبهبندی بیشترین تا کممعمولترین.
اشکال زدایی : نمونه های تکراری؟ ارزش از دست رفته؟ موارد پرت؟ داده ها با داشبورد موافق هستند؟ داده های آموزشی و اعتبارسنجی مشابه است؟