داده های خام باید با ویژگی مهندسی شده (تبدیل شوند). چه زمانی باید داده ها را تبدیل کنید؟ به طور کلی، می توانید مهندسی ویژگی را در هر یک از دو دوره زیر انجام دهید:
- قبل از آموزش مدل
- در حین آموزش مدل
تبدیل داده ها قبل از آموزش
در این رویکرد، شما دو مرحله را دنبال می کنید:
- کد بنویسید یا از ابزارهای تخصصی استفاده کنیدبرای تبدیل داده های خام
- داده های تبدیل شده را در جایی ذخیره کنید که مدل بتواند آن را جذب کند، مانند روی دیسک.
مزایا
- این سیستم تنها یک بار داده های خام را تبدیل می کند.
- سیستم می تواند کل مجموعه داده را برای تعیین بهترین استراتژی تبدیل تجزیه و تحلیل کند.
معایب
- شما باید تحولات را در زمان پیش بینی دوباره ایجاد کنید. مراقب انحرافات آموزشی باشید!
هنگامی که سیستم شما استنتاج پویا (آنلاین) را انجام می دهد، انحراف خدمات آموزشی خطرناک تر است. در سیستمی که از استنتاج پویا استفاده میکند، نرمافزاری که مجموعه داده خام را تبدیل میکند، معمولاً با نرمافزاری که پیشبینیها را ارائه میکند، متفاوت است، که میتواند باعث انحراف در ارائه آموزش شود. در مقابل، سیستم هایی که از استنتاج ثابت (آفلاین) استفاده می کنند، گاهی اوقات می توانند از همان نرم افزار استفاده کنند.
تبدیل داده ها در حین آموزش
در این رویکرد، تبدیل بخشی از کد مدل است. مدل داده های خام را جذب کرده و آن را تبدیل می کند.
مزایا
- اگر تبدیلها را تغییر دهید، همچنان میتوانید از همان فایلهای داده خام استفاده کنید.
- از همان تحولات در زمان تمرین و پیشبینی مطمئن هستید.
معایب
- تبدیل های پیچیده می توانند تاخیر مدل را افزایش دهند.
- تحولات برای هر دسته رخ می دهد.
تبدیل داده ها در هر دسته می تواند مشکل باشد. به عنوان مثال، فرض کنید می خواهید از نرمال سازی امتیاز Z برای تبدیل داده های عددی خام استفاده کنید. عادی سازی امتیاز Z به میانگین و انحراف استاندارد ویژگی نیاز دارد. با این حال، تبدیل در هر دسته به این معنی است که شما فقط به یک دسته از داده ها دسترسی خواهید داشت، نه به مجموعه داده کامل. بنابراین، اگر دستهها بسیار متنوع باشند، امتیاز Z مثلاً 2.5- در یک دسته، معنایی مشابه با -2.5 در دسته دیگر نخواهد داشت. به عنوان یک راه حل، سیستم شما می تواند میانگین و انحراف استاندارد را در کل مجموعه داده از قبل محاسبه کند و سپس از آنها به عنوان ثابت در مدل استفاده کند.