رگرسیون خطی: ضرر

ضرر یک متریک عددی است که نشان می‌دهد پیش‌بینی‌های یک مدل چقدر اشتباه هستند. Loss فاصله بین پیش بینی های مدل و برچسب های واقعی را اندازه گیری می کند. هدف از آموزش یک مدل به حداقل رساندن ضرر و کاهش آن به کمترین مقدار ممکن است.

در تصویر زیر می‌توانید از دست دادن را به صورت فلش‌هایی که از داده‌ها به مدل نشان می‌دهند، تجسم کنید. فلش ها نشان می دهد که پیش بینی های مدل چقدر از مقادیر واقعی فاصله دارد.

شکل 9. خطوط از دست دادن نقاط داده را به مدل

شکل 9 . ضرر از مقدار واقعی تا مقدار پیش بینی شده اندازه گیری می شود.

فاصله از دست دادن

در آمار و یادگیری ماشین، ضرر تفاوت بین مقادیر پیش‌بینی‌شده و واقعی را اندازه‌گیری می‌کند. Loss بر فاصله بین مقادیر تمرکز می کند نه جهت. به عنوان مثال، اگر یک مدل 2 را پیش‌بینی کند، اما مقدار واقعی آن 5 باشد، برای ما اهمیتی نمی‌دهد که ضرر منفی -3 $ ($2-5=-3 $) باشد. در عوض، ما اهمیت می دهیم که فاصله بین مقادیر 3 $ باشد. بنابراین، تمام روش های محاسبه ضرر علامت را حذف می کنند.

دو روش رایج برای حذف علامت عبارتند از:

  • قدر مطلق تفاوت بین مقدار واقعی و پیش بینی را در نظر بگیرید.
  • مربع تفاوت بین مقدار واقعی و پیش بینی.

انواع ضرر

در رگرسیون خطی، چهار نوع اصلی زیان وجود دارد که در جدول زیر به آنها اشاره شده است.

نوع ضرر تعریف معادله
L 1 باخت مجموع مقادیر مطلق تفاوت بین مقادیر پیش بینی شده و مقادیر واقعی. $ ∑ | واقعی\ ارزش - پیش بینی شده\ ارزش | $
میانگین خطای مطلق (MAE) میانگین تلفات L 1 در مجموعه ای از نمونه ها. $ \frac{1}{N} ∑ | واقعی\ ارزش - پیش بینی شده\ ارزش | $
L 2 باخت مجموع مجذور اختلاف بین مقادیر پیش بینی شده و مقادیر واقعی. $ ∑ (مقدار\ واقعی - مقدار\ پیش بینی شده)^2 $
میانگین مربعات خطا (MSE) میانگین تلفات L 2 در مجموعه ای از نمونه ها. $ \frac{1}{N} ∑ (مقدار\ واقعی - ارزش\ پیش‌بینی شده)^2 $

تفاوت عملکردی بین از دست دادن L 1 و از دست دادن L 2 (یا بین MAE و MSE) مربع است. وقتی تفاوت بین پیش‌بینی و برچسب زیاد است، مربع کردن ضرر را حتی بیشتر می‌کند. هنگامی که تفاوت کوچک است (کمتر از 1)، مربع کردن ضرر را حتی کمتر می کند.

هنگام پردازش چندین مثال به طور همزمان، توصیه می کنیم میانگین تلفات را در تمام نمونه ها، چه با استفاده از MAE یا MSE، محاسبه کنید.

مثال محاسبه ضرر

با استفاده از خط بهترین تناسب قبلی، ضرر L 2 را برای یک مثال محاسبه می‌کنیم. از بهترین خط مناسب، مقادیر زیر را برای وزن و سوگیری داشتیم:

  • $ \small{وزن: -3.6} $
  • $ \small{تعصب: 30} $

اگر مدل پیش‌بینی کند که یک خودروی 2370 پوندی 21.5 مایل در هر گالن دریافت می‌کند، اما در واقع 24 مایل در هر گالن دریافت می‌کند، ضرر L 2 را به صورت زیر محاسبه می‌کنیم:

ارزش معادله نتیجه
پیش بینی

$\small{bias + (وزن * ویژگی\ ارزش)}$

$\small{30 + (-3.6*2.37)}$

$\small{21.5}$
ارزش واقعی $ \small{ label } $ $ \small{ 24 } $
L 2 باخت

$ \small (پیش‌بینی - مقدار واقعی)^2} $

$\small{ (21.5 - 24)^2 }$

$\small{6.25}$

در این مثال، تلفات L 2 برای آن نقطه داده واحد 6.25 است.

انتخاب ضرر

تصمیم‌گیری در مورد استفاده از MAE یا MSE می‌تواند به مجموعه داده‌ها و روشی که می‌خواهید پیش‌بینی‌های خاصی را مدیریت کنید بستگی دارد. اکثر مقادیر ویژگی در یک مجموعه داده معمولاً در یک محدوده مجزا قرار می گیرند. به عنوان مثال، خودروها به طور معمول بین 2000 تا 5000 پوند هستند و بین 8 تا 50 مایل در هر گالن هستند. یک خودروی 8000 پوندی، یا خودرویی که 100 مایل در هر گالن سرعت می‌گیرد، خارج از محدوده معمولی است و به عنوان یک خودروی پرت در نظر گرفته می‌شود.

پرت همچنین می تواند به این اشاره داشته باشد که پیش بینی های یک مدل چقدر از مقادیر واقعی فاصله دارد. به عنوان مثال، 3000 پوند در محدوده وزن معمولی خودرو قرار دارد و 40 مایل در هر گالن در محدوده بازده سوخت معمولی است. با این حال، یک خودروی 3000 پوندی که 40 مایل در هر گالن مصرف می‌کند، از نظر پیش‌بینی مدل، دور از انتظار خواهد بود، زیرا این مدل پیش‌بینی می‌کند که یک خودروی 3000 پوندی بین 18 تا 20 مایل در هر گالن حرکت می‌کند.

هنگام انتخاب بهترین تابع ضرر، نحوه رفتار مدل را در نظر بگیرید. به عنوان مثال، MSE مدل را بیشتر به سمت نقاط پرت حرکت می دهد، در حالی که MAE این کار را نمی کند. از دست دادن L 2 جریمه بسیار بالاتری را برای باخت دورتر از L 1 متحمل می شود. به عنوان مثال، تصاویر زیر یک مدل آموزش دیده با استفاده از MAE و یک مدل آموزش دیده با استفاده از MSE را نشان می دهد. خط قرمز نشان دهنده یک مدل کاملا آموزش دیده است که برای پیش بینی استفاده می شود. نقاط پرت به مدل آموزش دیده با MSE نزدیکتر از مدل آموزش دیده با MAE است.

شکل 10. مدل بیشتر به سمت نقاط پرت متمایل شده است.

شکل 10 . یک مدل آموزش دیده با MSE مدل را به نقاط پرت نزدیکتر می کند.

شکل 11. مدل بیشتر از نقاط دورتر کج شده است.

شکل 11 . مدلی که با MAE آموزش دیده است، دورتر از موارد پرت است.

به رابطه بین مدل و داده توجه کنید:

  • MSE . مدل به نقاط پرت نزدیکتر است اما از بسیاری از نقاط داده دیگر دورتر است.

  • MAE مدل دورتر از نقاط پرت است اما به بسیاری از نقاط داده دیگر نزدیکتر است.

درک خود را بررسی کنید

دو طرح زیر را در نظر بگیرید:

نمودار 10 امتیازی.       یک خط از 6 نقطه عبور می کند. 2 امتیاز 1 واحد است       بالای خط؛ 2 نقطه دیگر 1 واحد زیر خط هستند.طرح 10 امتیازی. یک خط اجرا می شود       از طریق 8 نقطه 1 امتیاز 2 واحد است       بالای خط؛ 1 نقطه دیگر 2 واحد زیر خط است.
کدام یک از دو مجموعه داده نشان داده شده در نمودارهای قبلی میانگین مربعات خطا (MSE) بالاتری دارد؟
مجموعه داده در سمت چپ.
شش مثال روی خط متحمل ضرر کلی 0 می شوند. چهار مثالی که روی خط نیستند خیلی دور از خط نیستند، بنابراین حتی مربع کردن آفست آنها همچنان مقدار کمی را به دست می دهد: $MSE = \frac{0^2 + 1 ^2 + 0^2 + 1^2 + 0^2 + 1^2 + 0^2 + 1^2 + 0^2 + 0^2} {10} = 0.4$
مجموعه داده در سمت راست.
هشت مثال روی خط متحمل ضرر کلی 0 می شوند. با این حال، اگرچه فقط دو نقطه از خط فاصله دارند، هر دوی آن نقاط دو برابر از نقاط دورتر در شکل سمت چپ دورتر از خط هستند. تلفات مربعی این تفاوت ها را تقویت می کند، بنابراین جبران دو، ضرری چهار برابر بیشتر از یک جبران می کند: $MSE = \frac{0^2 + 0^2 + 0^2 + 2^2 + 0^2 + 0^2 + 0^2 + 2^2 + 0^2 + 0^2} {10} = 0.8$