این صفحه به‌وسیله ‏Cloud Translation API‏ ترجمه شده است.

رگرسیون لجستیک: از دست دادن و منظم شدن

مدل‌های رگرسیون لجستیک با استفاده از فرآیند مشابه مدل‌های رگرسیون خطی با دو تمایز کلیدی آموزش داده می‌شوند:

مدل های رگرسیون لجستیک از Log Loss به عنوان تابع ضرر به جای تلفات مربع استفاده می کنند.
اعمال منظم برای جلوگیری از برازش بیش از حد ضروری است.

بخش های بعدی این دو ملاحظات را عمیق تر مورد بحث قرار می دهد.

از دست دادن گزارش

در ماژول رگرسیون خطی ، از تلفات مربعی (که از دست دادن L ₂ نیز نامیده می شود) به عنوان تابع ضرر استفاده کردید. تلفات مربعی برای یک مدل خطی که در آن نرخ تغییر مقادیر خروجی ثابت است به خوبی کار می کند. به عنوان مثال، با توجه به مدل خطی $y' = b + 3x_1$، هر بار که مقدار ورودی $x_1$ را 1 افزایش می دهید، مقدار خروجی $y'$ 3 افزایش می یابد.

با این حال، نرخ تغییر یک مدل رگرسیون لجستیک ثابت نیست . همانطور که در محاسبه یک احتمال دیدید، منحنی سیگموئید به جای خطی، s شکل است. وقتی مقدار log-odds ($z$) به 0 نزدیک‌تر است، افزایش‌های کوچک در $z$ منجر به تغییرات بسیار بزرگ‌تری به $y$ می‌شود تا زمانی که $z$ یک عدد مثبت یا منفی بزرگ است. جدول زیر خروجی تابع سیگموئید را برای مقادیر ورودی از 5 تا 10 و همچنین دقت متناظر مورد نیاز برای ثبت تفاوت در نتایج را نشان می دهد.

ورودی	خروجی لجستیک	ارقام مورد نیاز دقت
5	0.993	3
6	0.997	3
7	0.999	3
8	0.9997	4
9	0.9999	4
10	0.99998	5

اگر از مجذور تلفات برای محاسبه خطاها برای تابع سیگموئید استفاده می‌کردید، چون خروجی به 0 و 1 نزدیک‌تر و نزدیک‌تر می‌شد، برای حفظ دقت لازم برای ردیابی این مقادیر به حافظه بیشتری نیاز دارید.

در عوض، تابع ضرر برای رگرسیون لجستیک Log Loss است. معادله Log Loss لگاریتم بزرگی تغییر را به جای فاصله بین داده تا پیش‌بینی برمی‌گرداند. Log Los به صورت زیر محاسبه می شود:

$\text{Log Loss} = -\frac{1}{N}\sum_{i=1}^{N} y_i\log(y_i') + (1 - y_i)\log(1 - y_i')$

کجا:

$N$ تعداد نمونه های برچسب گذاری شده در مجموعه داده است
$i$ شاخص یک مثال در مجموعه داده است (به عنوان مثال، $(x_3, y_3)$سومین مثال در مجموعه داده است)
$y_i$ برچسبی است برای $i$مثال. از آنجایی که این رگرسیون لجستیک است، $y_i$ باید 0 یا 1 باشد.
$y_i'$ پیش بینی مدل شما برای $i$مثال (جایی بین 0 و 1)، با توجه به مجموعه ویژگی های موجود در $x_i$.

برای کسب اطلاعات بیشتر در مورد Log Loss روی نماد کلیک کنید.

این فرم از تابع Log Loss میانگین Log Loss را در تمام نقاط مجموعه داده محاسبه می کند. استفاده از میانگین Log Loss (برخلاف Log Loss کل) در عمل مطلوب است، زیرا ما را قادر می سازد تا تنظیم اندازه دسته و نرخ یادگیری را جدا کنیم.

منظم سازی در رگرسیون لجستیک

منظم‌سازی ، مکانیزمی برای جریمه کردن پیچیدگی مدل در طول آموزش، در مدل‌سازی رگرسیون لجستیک بسیار مهم است. بدون منظم‌سازی، ماهیت مجانبی رگرسیون لجستیک در مواردی که مدل دارای تعداد زیادی ویژگی است، ضرر را به سمت صفر نگه می‌دارد. در نتیجه، اکثر مدل‌های رگرسیون لجستیک از یکی از دو استراتژی زیر برای کاهش پیچیدگی مدل استفاده می‌کنند:

تنظیم L ₂
توقف زودهنگام : محدود کردن تعداد مراحل تمرین برای توقف تمرین در حالی که ضرر هنوز در حال کاهش است.

قبلی

محاسبه یک احتمال (10 دقیقه)

بعدی

دانش خود را آزمایش کنید (10 دقیقه)

رگرسیون لجستیک: از دست دادن و منظم شدن با مجموعه‌ها، منظم بمانید ذخیره و طبقه‌بندی محتوا براساس اولویت‌های شما.

از دست دادن گزارش

برای کسب اطلاعات بیشتر در مورد Log Loss روی نماد کلیک کنید.

منظم سازی در رگرسیون لجستیک

رگرسیون لجستیک: از دست دادن و منظم شدن