طبقه بندی: دقت، یادآوری، دقت و معیارهای مرتبط

از مثبت و منفی درست و غلط برای محاسبه چندین معیار مفید برای ارزیابی مدل ها استفاده می شود. اینکه کدام معیارهای ارزیابی معنادارتر هستند به مدل خاص و کار خاص، هزینه طبقه‌بندی‌های اشتباه مختلف و متعادل یا نامتعادل بودن مجموعه داده بستگی دارد.

تمام معیارهای این بخش در یک آستانه ثابت محاسبه می‌شوند و با تغییر آستانه تغییر می‌کنند. اغلب، کاربر آستانه را برای بهینه سازی یکی از این معیارها تنظیم می کند.

دقت

دقت نسبت تمام طبقه بندی هایی است که درست بوده اند، خواه مثبت یا منفی. از نظر ریاضی به صورت زیر تعریف می شود:

\[\text{Accuracy} = \frac{\text{correct classifications}}{\text{total classifications}} = \frac{TP+TN}{TP+TN+FP+FN}\]

در مثال طبقه‌بندی هرزنامه، دقت کسری از ایمیل‌هایی که به‌درستی طبقه‌بندی شده‌اند را اندازه‌گیری می‌کند.

یک مدل کامل دارای صفر مثبت کاذب و صفر منفی کاذب و در نتیجه دقت 1.0 یا 100 درصد خواهد بود.

از آنجایی که هر چهار نتیجه از ماتریس سردرگمی (TP، FP، TN، FN) را در بر می گیرد، با توجه به یک مجموعه داده متعادل، با تعداد نمونه های مشابه در هر دو کلاس، دقت می تواند به عنوان یک معیار درشت دانه برای کیفیت مدل عمل کند. به همین دلیل، اغلب معیار ارزیابی پیش‌فرض برای مدل‌های عمومی یا نامشخصی است که وظایف عمومی یا نامشخص را انجام می‌دهند.

با این حال، هنگامی که مجموعه داده نامتعادل است، یا جایی که یک نوع اشتباه (FN یا FP) هزینه بیشتری نسبت به دیگری دارد، که در بیشتر برنامه‌های کاربردی دنیای واقعی صدق می‌کند، بهتر است در عوض برای یکی از معیارهای دیگر بهینه‌سازی شود.

برای مجموعه داده‌های به شدت نامتعادل، که در آن یک کلاس به ندرت ظاهر می‌شود، مثلاً 1٪ مواقع، مدلی که 100٪ مواقع منفی را پیش‌بینی می‌کند، با وجود بی‌فایده بودن، 99٪ از نظر دقت امتیاز کسب می‌کند.

به یاد بیاورید یا نرخ مثبت واقعی

نرخ مثبت واقعی (TPR) یا نسبت تمام موارد مثبت واقعی که به درستی به عنوان مثبت طبقه بندی شده اند، به عنوان فراخوان نیز شناخته می شود.

یادآوری از نظر ریاضی به صورت زیر تعریف می شود:

\[\text{Recall (or TPR)} = \frac{\text{correctly classified actual positives}}{\text{all actual positives}} = \frac{TP}{TP+FN}\]

منفی های کاذب، مثبت های واقعی هستند که به اشتباه به عنوان منفی طبقه بندی شده اند، به همین دلیل است که در مخرج ظاهر می شوند. در مثال طبقه‌بندی هرزنامه، فراخوان بخشی از ایمیل‌های هرزنامه را که به درستی به عنوان هرزنامه طبقه‌بندی شده‌اند، اندازه‌گیری می‌کند. به همین دلیل است که نام دیگر برای فراخوان احتمال شناسایی است: به این سؤال پاسخ می دهد که "چه بخشی از ایمیل های هرزنامه توسط این مدل شناسایی می شوند؟"

یک مدل کامل فرضی دارای صفر منفی کاذب و در نتیجه فراخوانی (TPR) 1.0 است که به عبارتی نرخ تشخیص 100 درصد است.

در یک مجموعه داده نامتعادل که در آن تعداد موارد مثبت واقعی بسیار بسیار کم است، مثلاً 1-2 مثال در کل، یادآوری کمتر معنادار است و به عنوان یک معیار کمتر مفید است.

نرخ مثبت کاذب

نرخ مثبت کاذب (FPR) نسبت تمام منفی های واقعی است که به اشتباه به عنوان مثبت طبقه بندی شده اند، همچنین به عنوان احتمال هشدار نادرست شناخته می شود. از نظر ریاضی به صورت زیر تعریف می شود:

\[\text{FPR} = \frac{\text{incorrectly classified actual negatives}} {\text{all actual negatives}} = \frac{FP}{FP+TN}\]

مثبت های کاذب، منفی های واقعی هستند که به اشتباه طبقه بندی شده اند، به همین دلیل است که در مخرج ظاهر می شوند. در مثال طبقه‌بندی هرزنامه، FPR بخشی از ایمیل‌های قانونی را که به اشتباه به‌عنوان هرزنامه طبقه‌بندی شده‌اند، یا میزان هشدارهای نادرست مدل را اندازه‌گیری می‌کند.

یک مدل کامل دارای مقادیر مثبت کاذب صفر و در نتیجه FPR 0.0 خواهد بود، یعنی نرخ هشدار نادرست 0٪.

در یک مجموعه داده نامتعادل که در آن تعداد منفی های واقعی بسیار بسیار کم است، مثلاً 1-2 مثال در کل، FPR کمتر معنادار است و به عنوان یک معیار کمتر مفید است.

دقت

دقت، نسبت تمام طبقه بندی های مثبت مدل است که در واقع مثبت هستند. از نظر ریاضی به صورت زیر تعریف می شود:

\[\text{Precision} = \frac{\text{correctly classified actual positives}} {\text{everything classified as positive}} = \frac{TP}{TP+FP}\]

در مثال طبقه‌بندی هرزنامه، دقت بخشی از ایمیل‌هایی که به عنوان هرزنامه طبقه‌بندی شده‌اند و در واقع هرزنامه هستند را اندازه‌گیری می‌کند.

یک مدل کامل فرضی دارای صفر مثبت کاذب و در نتیجه دقت 1.0 خواهد بود.

در یک مجموعه داده نامتعادل که تعداد موارد مثبت واقعی بسیار بسیار کم است، مثلاً در مجموع 1-2 مثال، دقت کمتر معنادار است و به عنوان یک معیار کمتر مفید است.

دقت با کاهش مثبت کاذب بهبود می یابد، در حالی که یادآوری زمانی بهبود می یابد که منفی کاذب کاهش یابد. اما همانطور که در بخش قبل مشاهده شد، افزایش آستانه طبقه بندی منجر به کاهش تعداد مثبت کاذب و افزایش تعداد منفی کاذب می شود، در حالی که کاهش آستانه اثرات معکوس دارد. در نتیجه، دقت و یادآوری اغلب یک رابطه معکوس را نشان می دهد، که در آن بهبود یکی از آنها دیگری را بدتر می کند.

خودتان آن را امتحان کنید:

NaN در معیارها به چه معناست؟

NaN یا "not a number" هنگام تقسیم بر 0 ظاهر می شود که می تواند با هر یک از این معیارها اتفاق بیفتد. به عنوان مثال، وقتی TP و FP هر دو 0 هستند، فرمول دقت دارای 0 در مخرج است که منجر به NaN می شود. در حالی که در برخی موارد NaN می تواند عملکرد عالی را نشان دهد و می تواند با نمره 1.0 جایگزین شود، همچنین می تواند از مدلی باشد که عملاً بی فایده است. برای مثال، مدلی که هرگز مثبت را پیش‌بینی نمی‌کند، 0 TP و 0 FPs خواهد داشت و بنابراین محاسبه دقت آن به NaN منجر می‌شود.

انتخاب متریک و مبادله

معیار(هایی) که برای اولویت بندی انتخاب می کنید هنگام ارزیابی مدل و انتخاب یک آستانه، به هزینه ها، مزایا و خطرات مشکل خاص بستگی دارد. در مثال طبقه‌بندی هرزنامه، معمولاً اولویت دادن به یادآوری، حذف همه ایمیل‌های هرزنامه، یا دقت، تلاش برای اطمینان از اینکه ایمیل‌های دارای برچسب هرزنامه در واقع هرزنامه هستند، یا تعادلی بین این دو، بالاتر از حداقل سطح دقت، منطقی است.

متریک راهنمایی
دقت

به عنوان یک شاخص تقریبی از پیشرفت/همگرایی آموزش مدل برای مجموعه داده های متعادل استفاده کنید.

برای عملکرد مدل، فقط در ترکیب با سایر معیارها استفاده کنید.

از مجموعه داده های نامتعادل اجتناب کنید. استفاده از معیار دیگری را در نظر بگیرید.

به یاد بیاورید
(نرخ مثبت واقعی)
زمانی استفاده کنید که منفی های کاذب گران تر از مثبت های کاذب هستند.
نرخ مثبت کاذب زمانی استفاده کنید که مثبت کاذب گرانتر از منفی کاذب باشد.
دقت زمانی استفاده کنید که برای پیش بینی های مثبت دقیق بودن بسیار مهم است.

(اختیاری، پیشرفته) امتیاز F1

امتیاز F1 میانگین هارمونیک (نوعی میانگین) دقت و یادآوری است.

از نظر ریاضی به صورت زیر داده می شود:

\[\text{F1}=2*\frac{\text{precision * recall}}{\text{precision + recall}} = \frac{2\text{TP}}{2\text{TP + FP + FN}}\]

این متریک اهمیت دقت و یادآوری را متعادل می‌کند و برای مجموعه داده‌های نامتعادل کلاس به دقت ترجیح داده می‌شود. هنگامی که دقت و یادآوری هر دو دارای امتیاز کامل 1.0 باشند، F1 نیز امتیاز کامل 1.0 خواهد داشت. به طور گسترده تر، زمانی که دقت و فراخوان از نظر ارزش نزدیک باشند، F1 نزدیک به مقدار آنها خواهد بود. وقتی دقت و یادآوری فاصله زیادی از هم دارند، F1 مشابه هر معیاری خواهد بود که بدتر باشد.

تمرین: درک خود را بررسی کنید

یک مدل 5 TP، 6 TN، 3 FP و 2 FN خروجی می دهد. فراخوان را محاسبه کنید
0.714
فراخوان به صورت محاسبه می شود \(\frac{TP}{TP+FN}=\frac{5}{7}\).
0.455
یادآوری همه نکات مثبت واقعی را در نظر می گیرد، نه همه طبقه بندی های صحیح را. فرمول برای یادآوری است \(\frac{TP}{TP+FN}\).
0.625
یادآوری همه نکات مثبت واقعی را در نظر می گیرد، نه همه طبقه بندی های مثبت را. فرمول برای یادآوری است \(\frac{TP}{TP+FN}\)
یک مدل 3 TP، 4 TN، 2 FP و 1 FN خروجی می دهد. دقت را محاسبه کنید.
0.6
دقت به عنوان محاسبه می شود \(\frac{TP}{TP+FP}=\frac{3}{5}\).
0.75
دقت همه طبقه‌بندی‌های مثبت را در نظر می‌گیرد، نه همه موارد مثبت واقعی را. فرمول دقت است \(\frac{TP}{TP+FP}\).
0.429
دقت همه طبقه بندی های مثبت را در نظر می گیرد، نه همه طبقه بندی های صحیح را. فرمول دقت است \(\frac{TP}{TP+FP}\)
شما در حال ساختن یک طبقه‌بندی باینری هستید که عکس‌های تله‌های حشرات را بررسی می‌کند تا آیا یک گونه مهاجم خطرناک وجود دارد یا خیر. اگر مدل گونه را شناسایی کند، به حشره شناس (دانشمند حشره) کشیک اطلاع داده می شود. تشخیص زودهنگام این حشره برای جلوگیری از هجوم بسیار مهم است. کنترل هشدار کاذب (مثبت کاذب) آسان است: حشره شناس می بیند که عکس به اشتباه طبقه بندی شده است و آن را به عنوان علامت گذاری می کند. با فرض سطح دقت قابل قبول، این مدل باید برای کدام متریک بهینه شود؟
به یاد بیاورید
در این سناریو، آلارم‌های کاذب (FP) کم‌هزینه هستند و منفی‌های کاذب بسیار پرهزینه هستند، بنابراین حداکثر کردن فراخوان یا احتمال تشخیص منطقی است.
نرخ مثبت کاذب (FPR)
در این سناریو، هشدارهای کاذب (FP) کم هزینه هستند. تلاش برای به حداقل رساندن آنها با خطر از دست دادن نکات مثبت واقعی منطقی نیست.
دقت
در این سناریو، هشدارهای کاذب (FP) به خصوص مضر نیستند، بنابراین تلاش برای بهبود صحت طبقه بندی های مثبت منطقی نیست.