طبقه بندی: ROC و AUC

بخش قبلی مجموعه‌ای از معیارهای مدل را ارائه می‌کند که همگی در یک مقدار آستانه طبقه‌بندی محاسبه شده‌اند. اما اگر می خواهید کیفیت یک مدل را در تمام آستانه های ممکن ارزیابی کنید، به ابزارهای مختلفی نیاز دارید.

منحنی مشخصه عملکرد گیرنده (ROC)

منحنی ROC یک نمایش بصری از عملکرد مدل در تمام آستانه ها است. نسخه طولانی این نام، مشخصه عملکرد گیرنده، از کشف راداری جنگ جهانی دوم باقی مانده است.

منحنی ROC با محاسبه نرخ مثبت واقعی (TPR) و نرخ مثبت کاذب (FPR) در هر آستانه ممکن (در عمل، در فواصل زمانی انتخاب شده)، سپس نمودار TPR بر روی FPR ترسیم می شود. یک مدل کامل، که در برخی از آستانه ها دارای TPR 1.0 و FPR 0.0 است، می تواند با یک نقطه در (0، 1) در صورتی که همه آستانه های دیگر نادیده گرفته شوند، یا با موارد زیر نشان داده شود:

شکل 1. نمودار TPR (محور y) در مقابل FPR (محور x) که عملکرد یک مدل کامل را نشان می دهد: یک خط از (0،1) تا (1،1).
شکل 1. ROC و AUC یک مدل کامل فرضی.

مساحت زیر منحنی (AUC)

سطح زیر منحنی ROC (AUC) نشان دهنده این احتمال است که مدل، اگر به طور تصادفی یک مثال مثبت و منفی انتخاب شود، مثبت را بالاتر از منفی قرار دهد.

مدل کامل بالا، شامل مربعی با اضلاع به طول 1، دارای مساحت زیر منحنی (AUC) 1.0 است. این به این معنی است که احتمال 100٪ وجود دارد که مدل به درستی یک مثال مثبت انتخاب شده به طور تصادفی را بالاتر از یک مثال منفی تصادفی انتخاب کند. به عبارت دیگر، با نگاهی به گسترش نقاط داده در زیر، AUC این احتمال را می دهد که مدل یک مربع به طور تصادفی انتخاب شده را در سمت راست دایره ای که به طور تصادفی انتخاب شده است، مستقل از جایی که آستانه تنظیم شده است، قرار دهد.

خط داده ویجت بدون نوار لغزنده

به عبارت دقیق تر، یک طبقه بندی کننده هرزنامه با AUC 1.0 همیشه به یک ایمیل هرزنامه تصادفی احتمال بیشتری نسبت به ایمیل های قانونی تصادفی برای اسپم بودن اختصاص می دهد. طبقه بندی واقعی هر ایمیل به آستانه ای که انتخاب می کنید بستگی دارد.

برای یک طبقه‌بندی‌کننده باینری، مدلی که دقیقاً به خوبی حدس‌های تصادفی یا چرخش سکه انجام می‌دهد، دارای یک ROC است که یک خط مورب از (۰،۰) تا (۱،۱) است. AUC 0.5 است که نشان دهنده 50% احتمال رتبه بندی صحیح یک مثال تصادفی مثبت و منفی است.

در مثال طبقه‌بندی کننده هرزنامه، یک طبقه‌بندی کننده هرزنامه با AUC 0.5 به یک ایمیل هرزنامه تصادفی احتمال بیشتری برای اسپم بودن نسبت به ایمیل‌های قانونی تصادفی اختصاص می‌دهد.

شکل 2. نمودار TPR (محور y) در مقابل FPR (محور x) که عملکرد یک حدس‌زن تصادفی 50-50 را نشان می‌دهد: یک خط مورب از (0,0) تا (1,1).
شکل 2. ROC و AUC از حدس های کاملا تصادفی.

(اختیاری، پیشرفته) منحنی فراخوان دقیق

AUC و ROC برای مقایسه مدل‌ها زمانی که مجموعه داده تقریباً بین کلاس‌ها متعادل است، به خوبی کار می‌کنند. هنگامی که مجموعه داده نامتعادل است، منحنی های فراخوان دقیق (PRC) و ناحیه زیر آن منحنی ها ممکن است تجسم مقایسه ای بهتری از عملکرد مدل ارائه دهند. منحنی‌های فراخوان دقیق با ترسیم دقت بر روی محور y و فراخوانی در محور x در تمام آستانه‌ها ایجاد می‌شوند.

مثال منحنی فراخوان دقیق با منحنی محدب رو به پایین از (0,1) تا (1,0)

AUC و ROC برای انتخاب مدل و آستانه

AUC یک معیار مفید برای مقایسه عملکرد دو مدل مختلف است، تا زمانی که مجموعه داده تقریباً متعادل باشد. (برای مجموعه داده های نامتعادل به منحنی فراخوان دقیق ، در بالا مراجعه کنید.) مدلی که سطح زیر منحنی بیشتری دارد، عموماً مدل بهتری است.

شکل 3.a. نمودار ROC/AUC یک مدل با AUC=0.65.شکل 3.b. نمودار ROC/AUC یک مدل با AUC=0.93.
شکل 3. ROC و AUC دو مدل فرضی. منحنی سمت راست، با AUC بیشتر، نشان‌دهنده بهتری از دو مدل است.

نقاط روی یک منحنی ROC نزدیک‌ترین به (0،1) طیفی از آستانه‌های با بهترین عملکرد را برای مدل داده شده نشان می‌دهند. همانطور که در بخش آستانه ها ، ماتریس سردرگمی و انتخاب متریک و مبادلات بحث شد، آستانه ای که انتخاب می کنید بستگی به این دارد که کدام متریک برای مورد استفاده خاص مهم است. نقاط A، B و C را در نمودار زیر در نظر بگیرید که هر کدام یک آستانه را نشان می دهند:

شکل 4. یک منحنی ROC با AUC=0.84 که سه نقطه را در قسمت محدب منحنی نزدیک به (0،1) نشان می دهد که به ترتیب A، B، C نشان داده شده است.
شکل 4. سه نقطه برچسب گذاری شده که آستانه ها را نشان می دهد.

اگر موارد مثبت کاذب (آژیرهای کاذب) بسیار پرهزینه هستند، ممکن است منطقی باشد که آستانه ای را انتخاب کنید که FPR کمتری می دهد، مانند آنچه در نقطه A است، حتی اگر TPR کاهش یابد. برعکس، اگر مثبت های کاذب ارزان و منفی های کاذب (مثبت های واقعی از دست رفته) بسیار پرهزینه باشند، آستانه نقطه C، که TPR را به حداکثر می رساند، ممکن است ارجح باشد. اگر هزینه ها تقریباً معادل باشند، نقطه B ممکن است بهترین تعادل را بین TPR و FPR ارائه دهد.

در اینجا منحنی ROC برای داده‌هایی که قبلا دیده‌ایم است:

تمرین: درک خود را بررسی کنید

در عمل، منحنی های ROC بسیار کمتر از تصاویر ارائه شده در بالا منظم هستند. کدام یک از مدل های زیر که با منحنی ROC و AUC نشان داده می شوند، بهترین عملکرد را دارند؟
منحنی ROC که از (0,0) تا (1,1) به سمت بالا و سپس به سمت راست قوس می شود. منحنی دارای AUC 0.77 است.
این مدل دارای بالاترین AUC است که با بهترین عملکرد مطابقت دارد.
منحنی ROC که تقریباً یک خط مستقیم از (۰،۰) تا (۱،۱)، با چند زیگزاگ است. منحنی دارای AUC 0.508 است.
منحنی ROC که از (0,0) به (1,1) بالا و سمت راست زیگ زاگ می شود.            منحنی دارای AUC 0.623 است.
منحنی ROC که از (0,0) به (1,1) به سمت راست و سپس به سمت بالا قوس می‌دهد. منحنی دارای AUC 0.31 است.
کدام یک از مدل های زیر بدتر از شانس عمل می کند؟
منحنی ROC که از (0,0) به (1,1) به سمت راست و سپس به سمت بالا قوس می‌دهد. منحنی دارای AUC 0.32 است.
این مدل دارای AUC کمتر از 0.5 است که به معنای عملکرد بدتر از شانس است.
منحنی ROC که تقریباً یک خط مستقیم از (۰،۰) تا (۱،۱)، با چند زیگزاگ است. منحنی دارای AUC 0.508 است.
این مدل کمی بهتر از شانس عمل می کند.
منحنی ROC که یک خط مستقیم مورب از (0,0) تا (1,1) است. منحنی دارای AUC 0.5 است.
این مدل مانند شانس عمل می کند.
منحنی ROC که از دو خط عمود بر هم تشکیل شده است: یک خط عمودی از (0,0) تا (0,1) و یک خط افقی از (0,1) تا (1,1).       این منحنی دارای AUC 1.0 است.
این یک طبقه بندی کننده کامل فرضی است.

(اختیاری، پیشرفته) سوال جایزه

کدام یک از تغییرات زیر را می توان در مدل بدتر از شانس در سوال قبل ایجاد کرد تا عملکرد آن بهتر از شانس باشد؟
پیش بینی ها را معکوس کنید، بنابراین پیش بینی های 1 تبدیل به 0 و پیش بینی های 0 تبدیل به 1 می شوند.
اگر یک طبقه‌بندی‌کننده باینری به‌طور قابل اعتمادی نمونه‌ها را بیشتر از شانس در کلاس‌های اشتباه قرار می‌دهد، تغییر برچسب کلاس بلافاصله بدون نیاز به آموزش مجدد مدل، پیش‌بینی‌های آن را بهتر از شانس می‌کند.
آیا همیشه کلاس منفی را پیش بینی کند.
این ممکن است عملکرد بالاتر از شانس را بهبود بخشد یا خیر. همچنین، همانطور که در بخش دقت بحث شد، این مدل مفیدی نیست.
آیا آن را همیشه پیش بینی طبقه مثبت است.
این ممکن است عملکرد بالاتر از شانس را بهبود بخشد یا خیر. همچنین، همانطور که در بخش دقت بحث شد، این مدل مفیدی نیست.

وضعیتی را تصور کنید که در آن بهتر است اجازه دهید مقداری هرزنامه به صندوق ورودی برسد تا اینکه یک ایمیل مهم تجاری به پوشه هرزنامه ارسال کنید. شما یک طبقه‌بندی کننده هرزنامه را برای این وضعیت آموزش داده‌اید که در آن کلاس مثبت هرزنامه است و کلاس منفی هرزنامه نیست. کدام یک از نقاط زیر در منحنی ROC برای طبقه بندی کننده شما ارجح است؟

منحنی ROC AUC=0.84 که سه نقطه را در قسمت محدب منحنی نشان می دهد که نزدیک به (0،1) هستند. نقطه A تقریباً (0.25، 0.75) است. نقطه B تقریباً در (0.30، 0.90) است و نقطه ای است که TPR را به حداکثر می رساند در حالی که FPR را به حداقل می رساند. نقطه C تقریباً (0.4، 0.95) است.
نقطه الف
در این مورد، بهتر است که مثبت های کاذب را به حداقل برسانید، حتی اگر مثبت های واقعی نیز کاهش پیدا کنند.
نقطه B
این آستانه بین مثبت‌های درست و نادرست تعادل برقرار می‌کند.
نقطه ج
این آستانه، موارد مثبت واقعی (پرچم‌گذاری هرزنامه‌های بیشتر) را با هزینه بیشتر مثبت کاذب (ایمیل‌های قانونی بیشتر که به عنوان هرزنامه پرچم‌گذاری شده‌اند) به حداکثر می‌رساند.