سیستم های ML تولیدی: چه زمانی داده ها را تبدیل کنیم؟

داده های خام باید با ویژگی مهندسی شده (تبدیل شوند). چه زمانی باید داده ها را تبدیل کنید؟ به طور کلی، می توانید مهندسی ویژگی را در هر یک از دو دوره زیر انجام دهید:

  • قبل از آموزش مدل
  • در حین آموزش مدل

تبدیل داده ها قبل از آموزش

در این رویکرد، شما دو مرحله را دنبال می کنید:

  1. کد بنویسید یا از ابزارهای تخصصی استفاده کنیدبرای تبدیل داده های خام
  2. داده های تبدیل شده را در جایی ذخیره کنید که مدل بتواند آن را جذب کند، مانند روی دیسک.

مزایا

  • این سیستم تنها یک بار داده های خام را تبدیل می کند.
  • سیستم می تواند کل مجموعه داده را برای تعیین بهترین استراتژی تبدیل تجزیه و تحلیل کند.

معایب

  • شما باید تحولات را در زمان پیش بینی دوباره ایجاد کنید. مراقب انحرافات آموزشی باشید!

هنگامی که سیستم شما استنتاج پویا (آنلاین) را انجام می دهد، انحراف خدمات آموزشی خطرناک تر است. در سیستمی که از استنتاج پویا استفاده می‌کند، نرم‌افزاری که مجموعه داده خام را تبدیل می‌کند، معمولاً با نرم‌افزاری که پیش‌بینی‌ها را ارائه می‌کند، متفاوت است، که می‌تواند باعث انحراف در ارائه آموزش شود. در مقابل، سیستم هایی که از استنتاج ثابت (آفلاین) استفاده می کنند، گاهی اوقات می توانند از همان نرم افزار استفاده کنند.

تبدیل داده ها در حین آموزش

در این رویکرد، تبدیل بخشی از کد مدل است. مدل داده های خام را جذب کرده و آن را تبدیل می کند.

مزایا

  • اگر تبدیل‌ها را تغییر دهید، همچنان می‌توانید از همان فایل‌های داده خام استفاده کنید.
  • از همان تحولات در زمان تمرین و پیش‌بینی مطمئن هستید.

معایب

  • تبدیل های پیچیده می توانند تاخیر مدل را افزایش دهند.
  • تحولات برای هر دسته رخ می دهد.

تبدیل داده ها در هر دسته می تواند مشکل باشد. به عنوان مثال، فرض کنید می خواهید از نرمال سازی امتیاز Z برای تبدیل داده های عددی خام استفاده کنید. عادی سازی امتیاز Z به میانگین و انحراف استاندارد ویژگی نیاز دارد. با این حال، تبدیل در هر دسته به این معنی است که شما فقط به یک دسته از داده ها دسترسی خواهید داشت، نه به مجموعه داده کامل. بنابراین، اگر دسته‌ها بسیار متنوع باشند، امتیاز Z مثلاً 2.5- در یک دسته، معنایی مشابه با -2.5 در دسته دیگر نخواهد داشت. به عنوان یک راه حل، سیستم شما می تواند میانگین و انحراف استاندارد را در کل مجموعه داده از قبل محاسبه کند و سپس از آنها به عنوان ثابت در مدل استفاده کند.