رگرسیون خطی

این ماژول مفاهیم رگرسیون خطی را معرفی می کند.

رگرسیون خطی یک تکنیک آماری است که برای یافتن رابطه بین متغیرها استفاده می شود. در زمینه ML، رگرسیون خطی رابطه بین ویژگی ها و برچسب را پیدا می کند.

به عنوان مثال، فرض کنید می‌خواهیم بازده سوخت یک خودرو را بر حسب مایل در هر گالن بر اساس سنگینی خودرو پیش‌بینی کنیم و مجموعه داده زیر را داریم:

پوند در 1000 ثانیه (ویژگی) مایل در هر گالن (برچسب)
3.5 18
3.69 15
3.44 18
3.43 16
4.34 15
4.42 14
2.37 24

اگر این نقاط را رسم کنیم، نمودار زیر را بدست می آوریم:

شکل 1. نقاط داده نشان دهنده روند شیب نزولی از چپ به راست است.

شکل 1 . سنگینی ماشین (به پوند) در مقابل امتیاز مایل در هر گالن. همانطور که یک ماشین سنگین تر می شود، امتیاز مایل در هر گالن آن به طور کلی کاهش می یابد.

ما می‌توانیم مدل خودمان را با ترسیم بهترین خط مناسب در میان نقاط ایجاد کنیم:

شکل 2. نقاط داده با بهترین خط برازش کشیده شده از طریق آنها نشان دهنده مدل است.

شکل 2 . بهترین خطی که از طریق داده های شکل قبل ترسیم شده است.

معادله رگرسیون خطی

در شرایط جبری، مدل به صورت $ y = mx + b $ تعریف می شود، جایی که

  • $ y $ مایل در هر گالن است - مقداری که می خواهیم پیش بینی کنیم.
  • $ m $ شیب خط است.
  • $ x $ پوند است - ارزش ورودی ما.
  • $ b $ نقطه ی y است.

در ML معادله یک مدل رگرسیون خطی را به صورت زیر می نویسیم:

$$ y' = b + w_1x_1 $$

کجا:

  • $ y' $ برچسب پیش بینی شده - خروجی است.
  • $ b $ سوگیری مدل است. انحراف همان مفهومی است که در معادله جبری برای یک خط قطع می شود. در ML، سوگیری گاهی اوقات به عنوان $ w_0 $ نامیده می شود. سوگیری پارامتری از مدل است و در طول آموزش محاسبه می شود.
  • $ w_1 $ وزن ویژگی است. وزن همان مفهوم شیب $ m $ در معادله جبری برای یک خط است. وزن پارامتری از مدل است و در حین تمرین محاسبه می شود.
  • $ x_1 $ یک ویژگی است - ورودی.

در طول تمرین، مدل وزن و سوگیری را محاسبه می کند که بهترین مدل را تولید می کند.

شکل 3. معادله y' = b + w1x1، که هر جزء با هدف خود مشروح شده است.

شکل 3 . نمایش ریاضی یک مدل خطی.

در مثال ما وزن و سوگیری را از روی خطی که ترسیم کردیم محاسبه می کنیم. بایاس 30 است (جایی که خط محور y را قطع می کند)، و وزن آن 3.6- است (شیب خط). مدل به صورت $ y' = 30 + (-3.6) (x_1) $ تعریف می شود و می توانیم از آن برای پیش بینی استفاده کنیم. به عنوان مثال، با استفاده از این مدل، یک خودروی 4000 پوندی بازده سوخت پیش بینی شده 15.6 مایل در هر گالن خواهد بود.

شکل 4. همان نمودار شکل 2، که نقطه (4، 15.6) برجسته شده است.

شکل 4 . با استفاده از این مدل، یک خودروی 4000 پوندی دارای راندمان سوخت پیش بینی شده 15.6 مایل در هر گالن است.

مدل هایی با ویژگی های متعدد

اگرچه مثال در این بخش فقط از یک ویژگی استفاده می کند - سنگینی ماشین - یک مدل پیچیده تر ممکن است به چندین ویژگی متکی باشد که هر کدام وزن جداگانه ای دارند ($ w_1 $ ، $ w_2 $ و غیره). به عنوان مثال، مدلی که بر پنج ویژگی متکی است به صورت زیر نوشته می شود:

$ y' = b + w_1x_1 + w_2x_2 + w_3x_3 + w_4x_4 + w_5x_5 دلار

به عنوان مثال، مدلی که مسافت پیموده شده گاز را پیش‌بینی می‌کند، می‌تواند از ویژگی‌هایی مانند موارد زیر نیز استفاده کند:

  • جابجایی موتور
  • شتاب
  • تعداد سیلندر
  • اسب بخار

این مدل به صورت زیر نوشته می شود:

شکل 5. معادله رگرسیون خطی با پنج ویژگی.

شکل 5 . مدلی با پنج ویژگی برای پیش‌بینی میزان مایل خودرو در هر گالن.

با ترسیم نمودار برخی از این ویژگی های اضافی، می بینیم که آنها همچنین یک رابطه خطی با برچسب، مایل در هر گالن دارند:

شکل 6. جابجایی در سانتی متر مکعب نمودار بر حسب مایل در گالن نشان داده شده است که یک رابطه خطی منفی را نشان می دهد.

شکل 6 . جابجایی خودرو بر حسب سانتی متر مکعب و امتیاز مایل آن در هر گالن. با بزرگتر شدن موتور خودرو، امتیاز مایل در هر گالن آن به طور کلی کاهش می یابد.

شکل 7. شتاب صفر تا شصت در ثانیه نمودار شده بر حسب مایل در گالن که یک رابطه خطی مثبت را نشان می دهد.

شکل 7 . شتاب یک ماشین و امتیاز مایل آن در هر گالن. همانطور که شتاب خودرو بیشتر طول می کشد، امتیاز مایل در هر گالن به طور کلی افزایش می یابد.

شکل 8. اسب بخار نمودار شده بر حسب مایل در گالن که یک رابطه خطی منفی را نشان می دهد.

شکل 8 . اسب بخار یک ماشین و امتیاز مایل آن در هر گالن. با افزایش اسب بخار ماشین، امتیاز مایل در هر گالن به طور کلی کاهش می یابد.

تمرین: درک خود را بررسی کنید

چه بخش هایی از معادله رگرسیون خطی در طول آموزش به روز می شود؟
تعصب و وزن
در طول تمرین، مدل سوگیری و وزن‌ها را بر اساس از دست دادن به‌روزرسانی می‌کند.
پیش بینی
پیش بینی ها در طول آموزش به روز نمی شوند.
مقادیر ویژگی
مقادیر ویژگی بخشی از مجموعه داده است، بنابراین در طول آموزش به روز نمی شوند.