این ماژول مفاهیم رگرسیون خطی را معرفی می کند.
رگرسیون خطی یک تکنیک آماری است که برای یافتن رابطه بین متغیرها استفاده می شود. در زمینه ML، رگرسیون خطی رابطه بین ویژگی ها و برچسب را پیدا می کند.
به عنوان مثال، فرض کنید میخواهیم بازده سوخت یک خودرو را بر حسب مایل در هر گالن بر اساس سنگینی خودرو پیشبینی کنیم و مجموعه داده زیر را داریم:
پوند در 1000 ثانیه (ویژگی) | مایل در هر گالن (برچسب) |
---|---|
3.5 | 18 |
3.69 | 15 |
3.44 | 18 |
3.43 | 16 |
4.34 | 15 |
4.42 | 14 |
2.37 | 24 |
اگر این نقاط را رسم کنیم، نمودار زیر را بدست می آوریم:
شکل 1 . سنگینی ماشین (به پوند) در مقابل امتیاز مایل در هر گالن. همانطور که یک ماشین سنگین تر می شود، امتیاز مایل در هر گالن آن به طور کلی کاهش می یابد.
ما میتوانیم مدل خودمان را با ترسیم بهترین خط مناسب در میان نقاط ایجاد کنیم:
شکل 2 . بهترین خطی که از طریق داده های شکل قبل ترسیم شده است.
معادله رگرسیون خطی
در شرایط جبری، مدل به صورت $ y = mx + b $ تعریف می شود، جایی که
- $ y $ مایل در هر گالن است - مقداری که می خواهیم پیش بینی کنیم.
- $ m $ شیب خط است.
- $ x $ پوند است - ارزش ورودی ما.
- $ b $ نقطه ی y است.
در ML معادله یک مدل رگرسیون خطی را به صورت زیر می نویسیم:
کجا:
- $ y' $ برچسب پیش بینی شده - خروجی است.
- $ b $ سوگیری مدل است. انحراف همان مفهومی است که در معادله جبری برای یک خط قطع می شود. در ML، سوگیری گاهی اوقات به عنوان $ w_0 $ نامیده می شود. سوگیری پارامتری از مدل است و در طول آموزش محاسبه می شود.
- $ w_1 $ وزن ویژگی است. وزن همان مفهوم شیب $ m $ در معادله جبری برای یک خط است. وزن پارامتری از مدل است و در حین تمرین محاسبه می شود.
- $ x_1 $ یک ویژگی است - ورودی.
در طول تمرین، مدل وزن و سوگیری را محاسبه می کند که بهترین مدل را تولید می کند.
شکل 3 . نمایش ریاضی یک مدل خطی.
در مثال ما وزن و سوگیری را از روی خطی که ترسیم کردیم محاسبه می کنیم. بایاس 30 است (جایی که خط محور y را قطع می کند)، و وزن آن 3.6- است (شیب خط). مدل به صورت $ y' = 30 + (-3.6) (x_1) $ تعریف می شود و می توانیم از آن برای پیش بینی استفاده کنیم. به عنوان مثال، با استفاده از این مدل، یک خودروی 4000 پوندی بازده سوخت پیش بینی شده 15.6 مایل در هر گالن خواهد بود.
شکل 4 . با استفاده از این مدل، یک خودروی 4000 پوندی دارای راندمان سوخت پیش بینی شده 15.6 مایل در هر گالن است.
مدل هایی با ویژگی های متعدد
اگرچه مثال در این بخش فقط از یک ویژگی استفاده می کند - سنگینی ماشین - یک مدل پیچیده تر ممکن است به چندین ویژگی متکی باشد که هر کدام وزن جداگانه ای دارند ($ w_1 $ ، $ w_2 $ و غیره). به عنوان مثال، مدلی که بر پنج ویژگی متکی است به صورت زیر نوشته می شود:
$ y' = b + w_1x_1 + w_2x_2 + w_3x_3 + w_4x_4 + w_5x_5 دلار
به عنوان مثال، مدلی که مسافت پیموده شده گاز را پیشبینی میکند، میتواند از ویژگیهایی مانند موارد زیر نیز استفاده کند:
- جابجایی موتور
- شتاب
- تعداد سیلندر
- اسب بخار
این مدل به صورت زیر نوشته می شود:
شکل 5 . مدلی با پنج ویژگی برای پیشبینی میزان مایل خودرو در هر گالن.
با ترسیم نمودار برخی از این ویژگی های اضافی، می بینیم که آنها همچنین یک رابطه خطی با برچسب، مایل در هر گالن دارند:
شکل 6 . جابجایی خودرو بر حسب سانتی متر مکعب و امتیاز مایل آن در هر گالن. با بزرگتر شدن موتور خودرو، امتیاز مایل در هر گالن آن به طور کلی کاهش می یابد.
شکل 7 . شتاب یک ماشین و امتیاز مایل آن در هر گالن. همانطور که شتاب خودرو بیشتر طول می کشد، امتیاز مایل در هر گالن به طور کلی افزایش می یابد.
شکل 8 . اسب بخار یک ماشین و امتیاز مایل آن در هر گالن. با افزایش اسب بخار ماشین، امتیاز مایل در هر گالن به طور کلی کاهش می یابد.