داده های عددی: تبدیل های چند جمله ای

گاهی اوقات، زمانی که متخصص ML دارای دانش دامنه ای است که نشان می دهد یک متغیر با مربع، مکعب یا قدرت دیگر متغیر دیگر مرتبط است، ایجاد یک ویژگی ترکیبی از یکی از ویژگی های عددی موجود مفید است.

گسترش نقاط داده زیر را در نظر بگیرید، که در آن دایره های صورتی یک طبقه یا دسته (به عنوان مثال، گونه ای از درخت) را نشان می دهند و مثلث های سبز یک کلاس دیگر (یا گونه های درخت) را نشان می دهند:

شکل 17. گسترش y=x^2 نقاط داده، با مثلث های زیر منحنی و دایره های بالای منحنی.
شکل 17. دو کلاس که با یک خط قابل جدا شدن نیستند.

نمی توان یک خط مستقیم رسم کرد که دو کلاس را به طور تمیز از هم جدا کند، اما می توان منحنی را ترسیم کرد که این کار را انجام دهد:

شکل 18. تصویر مشابه شکل 17، فقط این بار با y=x^2 روکش شده تا مرز واضحی بین مثلث ها و دایره ها ایجاد شود.
شکل 18. جداسازی کلاس ها با y = x 2 .

همانطور که در ماژول رگرسیون خطی بحث شد، یک مدل خطی با یک ویژگی، $x_1$، با معادله خطی توصیف می‌شود:

$$y = b + w_1x_1$$

ویژگی‌های اضافی با افزودن عبارت‌های \(w_2x_2\)،\(w_3x_3\)و غیره مدیریت می‌شوند.

نزول گرادیان وزن $w_1$ (یا وزن‌های\(w_1\), \(w_2\), \(w_3\)را در مورد ویژگی‌های اضافی) پیدا می‌کند که از دست دادن مدل را به حداقل می‌رساند. اما نقاط داده نشان داده شده را نمی توان با یک خط جدا کرد. چه کاری می توان کرد؟

با تعریف یک عبارت جدید، \(x_2\)، که به سادگی \(x_1\) مربع است، می توان معادله خطی را حفظ کرد و غیرخطی بودن را مجاز کرد:

$$x_2 = x_1^2$$

این ویژگی مصنوعی که تبدیل چند جمله ای نامیده می شود، مانند هر ویژگی دیگری در نظر گرفته می شود. فرمول خطی قبلی به صورت زیر می شود:

$$y = b + w_1x_1 + w_2x_2$$

این هنوز هم می‌تواند مانند یک مسئله رگرسیون خطی باشد و وزن‌ها از طریق نزول گرادیان، طبق معمول، با وجود یک عبارت مربع پنهان، تبدیل چند جمله‌ای، تعیین شوند. بدون تغییر نحوه آموزش مدل خطی، افزودن یک تبدیل چند جمله ای به مدل اجازه می دهد تا نقاط داده را با استفاده از منحنی به شکل $y = b + w_1x + w_2x^2$ جدا کند.

معمولاً ویژگی عددی علاقه در خودش ضرب می‌شود، یعنی به مقداری توان بالا می‌رود. گاهی اوقات یک متخصص ML می تواند در مورد توان مناسب حدس بزند. به عنوان مثال، بسیاری از روابط در دنیای فیزیکی به عبارات مربع مربوط می شود، از جمله شتاب ناشی از گرانش، تضعیف نور یا صدا در فاصله، و انرژی پتانسیل الاستیک.

یک مفهوم مرتبط در داده های طبقه بندی شده ، متقاطع ویژگی است که بیشتر دو ویژگی متفاوت را ترکیب می کند.