طبقه بندی: دقت، یادآوری، دقت و معیارهای مرتبط

از مثبت و منفی‌های درست و غلط برای محاسبه چندین معیار مفید برای ارزیابی مدل‌ها استفاده می‌شود. اینکه کدام معیارهای ارزیابی معنادارتر هستند، به مدل خاص و وظیفه خاص، هزینه طبقه‌بندی‌های نادرست مختلف و اینکه آیا مجموعه داده‌ها متعادل است یا نامتعادل، بستگی دارد.

تمام معیارهای این بخش در یک آستانه ثابت محاسبه می‌شوند و با تغییر آستانه، تغییر می‌کنند. اغلب، کاربر آستانه را برای بهینه‌سازی یکی از این معیارها تنظیم می‌کند.

دقت

دقت ، نسبت تمام طبقه‌بندی‌هایی است که صحیح بوده‌اند، چه مثبت و چه منفی. از نظر ریاضی به صورت زیر تعریف می‌شود:

\[\text{Accuracy} = \frac{\text{correct classifications}}{\text{total classifications}} = \frac{TP+TN}{TP+TN+FP+FN}\]

در مثال طبقه‌بندی هرزنامه، دقت، کسری از کل ایمیل‌هایی را که به درستی طبقه‌بندی شده‌اند، اندازه‌گیری می‌کند.

یک مدل بی‌نقص، صفر نتیجه مثبت کاذب و صفر نتیجه منفی کاذب خواهد داشت و بنابراین دقت آن ۱.۰ یا ۱۰۰٪ خواهد بود.

از آنجا که این روش، هر چهار نتیجه از ماتریس درهم‌ریختگی (TP، FP، TN، FN) را با توجه به یک مجموعه داده متعادل، با تعداد مشابه مثال در هر دو کلاس، در بر می‌گیرد، دقت می‌تواند به عنوان یک معیار درشت از کیفیت مدل عمل کند. به همین دلیل، اغلب معیار ارزیابی پیش‌فرض مورد استفاده برای مدل‌های عمومی یا نامشخص است که وظایف عمومی یا نامشخص را انجام می‌دهند.

با این حال، وقتی مجموعه داده‌ها نامتعادل است، یا جایی که یک نوع اشتباه (FN یا FP) پرهزینه‌تر از دیگری است، که در اکثر برنامه‌های دنیای واقعی چنین است، بهتر است به جای آن، یکی از معیارهای دیگر را بهینه‌سازی کنیم.

برای مجموعه داده‌های به شدت نامتوازن، که در آن‌ها یک کلاس به ندرت، مثلاً ۱٪ مواقع، ظاهر می‌شود، مدلی که ۱۰۰٪ مواقع منفی پیش‌بینی می‌کند، با وجود بی‌فایده بودن، ۹۹٪ دقت خواهد داشت.

به یاد بیاورید، یا نرخ مثبت واقعی

نرخ مثبت واقعی (TPR) یا نسبت تمام موارد مثبت واقعی که به درستی به عنوان مثبت طبقه‌بندی شده‌اند، به عنوان یادآوری نیز شناخته می‌شود.

یادآوری از نظر ریاضی به صورت زیر تعریف می‌شود:

\[\text{Recall (or TPR)} = \frac{\text{correctly classified actual positives}}{\text{all actual positives}} = \frac{TP}{TP+FN}\]

منفی‌های کاذب، مثبت‌های واقعی هستند که به اشتباه به عنوان منفی طبقه‌بندی شده‌اند، به همین دلیل است که در مخرج کسر ظاهر می‌شوند. در مثال طبقه‌بندی اسپم، فراخوانی، کسری از ایمیل‌های اسپم را که به درستی به عنوان اسپم طبقه‌بندی شده‌اند، اندازه‌گیری می‌کند. به همین دلیل است که نام دیگر فراخوانی، احتمال تشخیص است: این پاسخ به این سوال است که "چه کسری از ایمیل‌های اسپم توسط این مدل شناسایی می‌شوند؟"

یک مدل فرضی بی‌نقص، صفر مورد منفی کاذب خواهد داشت و بنابراین نرخ بازیابی (TPR) آن برابر با ۱.۰ است، یعنی نرخ تشخیص ۱۰۰٪.

در یک مجموعه داده نامتوازن که تعداد موارد مثبت واقعی بسیار کم است، معیار فراخوانی (Recall) نسبت به دقت (Accuracy) معنادارتر است، زیرا توانایی مدل را در شناسایی صحیح همه موارد مثبت اندازه‌گیری می‌کند. برای کاربردهایی مانند پیش‌بینی بیماری، شناسایی صحیح موارد مثبت بسیار مهم است. یک نتیجه منفی کاذب معمولاً عواقب جدی‌تری نسبت به یک نتیجه مثبت کاذب دارد. برای مثالی ملموس در مقایسه معیارهای فراخوانی و دقت، به یادداشت‌های موجود در تعریف فراخوانی مراجعه کنید.

نرخ مثبت کاذب

نرخ مثبت کاذب (FPR) نسبت تمام موارد منفی واقعی است که به اشتباه به عنوان مثبت طبقه‌بندی شده‌اند، که به عنوان احتمال هشدار کاذب نیز شناخته می‌شود. از نظر ریاضی به صورت زیر تعریف می‌شود:

\[\text{FPR} = \frac{\text{incorrectly classified actual negatives}} {\text{all actual negatives}} = \frac{FP}{FP+TN}\]

مثبت‌های کاذب، منفی‌های واقعی هستند که به اشتباه طبقه‌بندی شده‌اند، به همین دلیل است که در مخرج کسر ظاهر می‌شوند. در مثال طبقه‌بندی هرزنامه، FPR کسری از ایمیل‌های قانونی را که به اشتباه به عنوان هرزنامه طبقه‌بندی شده‌اند، یا نرخ هشدارهای کاذب مدل را اندازه‌گیری می‌کند.

یک مدل بی‌نقص، صفر مورد مثبت کاذب و بنابراین FPR برابر با ۰.۰ خواهد داشت، به عبارت دیگر، نرخ هشدار کاذب آن ۰٪ است.

برای یک مجموعه داده نامتوازن، FPR عموماً معیاری آموزنده‌تر از دقت است. با این حال، اگر تعداد موارد منفی واقعی بسیار کم باشد، FPR به دلیل نوسانش ممکن است انتخاب ایده‌آلی نباشد. به عنوان مثال، اگر فقط چهار مورد منفی واقعی در یک مجموعه داده وجود داشته باشد، یک طبقه‌بندی نادرست منجر به FPR 25٪ می‌شود، در حالی که طبقه‌بندی نادرست دوم باعث می‌شود FPR به 50٪ افزایش یابد. در مواردی مانند این، دقت (که در ادامه توضیح داده می‌شود) می‌تواند معیار پایدارتری برای ارزیابی اثرات مثبت‌های کاذب باشد.

دقت

دقت ، نسبت تمام طبقه‌بندی‌های مثبت مدل است که واقعاً مثبت هستند. این پارامتر از نظر ریاضی به صورت زیر تعریف می‌شود:

\[\text{Precision} = \frac{\text{correctly classified actual positives}} {\text{everything classified as positive}} = \frac{TP}{TP+FP}\]

در مثال طبقه‌بندی هرزنامه، دقت، کسری از ایمیل‌های طبقه‌بندی‌شده به‌عنوان هرزنامه را که در واقع هرزنامه بوده‌اند، اندازه‌گیری می‌کند.

یک مدل فرضی بی‌نقص، صفر مورد مثبت کاذب و بنابراین دقت ۱.۰ خواهد داشت.

در یک مجموعه داده نامتوازن که تعداد موارد مثبت واقعی بسیار بسیار کم است، مثلاً ۱-۲ نمونه در مجموع، دقت به عنوان یک معیار، معنای کمتری دارد و کمتر مفید است.

با کاهش موارد مثبت کاذب، دقت بهبود می‌یابد، در حالی که با کاهش موارد منفی کاذب، فراخوانی بهبود می‌یابد. اما همانطور که در بخش قبل مشاهده شد، افزایش آستانه طبقه‌بندی، تعداد موارد مثبت کاذب را کاهش و تعداد موارد منفی کاذب را افزایش می‌دهد، در حالی که کاهش آستانه اثرات معکوس دارد. در نتیجه، دقت و فراخوانی اغلب رابطه معکوسی را نشان می‌دهند، به طوری که بهبود یکی از آنها، دیگری را بدتر می‌کند.

خودتان امتحان کنید:

انتخاب معیار و بده‌بستان‌ها

معیارهایی که هنگام ارزیابی مدل و انتخاب یک آستانه، اولویت‌بندی می‌کنید، به هزینه‌ها، مزایا و خطرات مشکل خاص بستگی دارد. در مثال طبقه‌بندی هرزنامه، اغلب منطقی است که اولویت را به یادآوری، جمع‌آوری تمام ایمیل‌های هرزنامه، یا دقت، یعنی تلاش برای اطمینان از اینکه ایمیل‌های دارای برچسب هرزنامه در واقع هرزنامه هستند، یا تعادلی از این دو، بالاتر از حداقل سطح دقت، بدهید.

متریک راهنمایی
دقت

به عنوان یک شاخص تقریبی از پیشرفت/همگرایی آموزش مدل برای مجموعه داده‌های متعادل استفاده می‌شود.

برای عملکرد مدل، فقط در ترکیب با سایر معیارها استفاده شود.

برای مجموعه داده‌های نامتوازن از این گزینه اجتناب کنید. استفاده از معیار دیگری را در نظر بگیرید.

به یاد بیاورید
(نرخ مثبت واقعی)
زمانی استفاده می‌شود که نتایج منفی کاذب گران‌تر از نتایج مثبت کاذب باشند.
نرخ مثبت کاذب زمانی استفاده می‌شود که نتایج مثبت کاذب گران‌تر از نتایج منفی کاذب باشند.
دقت زمانی استفاده می‌شود که دقت پیش‌بینی‌های مثبت بسیار مهم است.

تمرین: درک خود را بسنجید

یک مدل ۵ TP، ۶ TN، ۳ FP و ۲ FN خروجی می‌دهد. میزان فراخوانی را محاسبه کنید.
۰.۷۱۴
یادآوری به صورت زیر محاسبه می‌شود: \(\frac{TP}{TP+FN}=\frac{5}{7}\).
۰.۴۵۵
یادآوری، تمام موارد مثبت واقعی را در نظر می‌گیرد، نه همه طبقه‌بندی‌های صحیح را. فرمول یادآوری به صورت زیر است: \(\frac{TP}{TP+FN}\).
۰.۶۲۵
یادآوری، تمام موارد مثبت واقعی را در نظر می‌گیرد، نه همه طبقه‌بندی‌های مثبت را. فرمول یادآوری به صورت زیر است: \(\frac{TP}{TP+FN}\)
یک مدل ۳ TP، ۴ TN، ۲ FP و ۱ FN خروجی می‌دهد. دقت را محاسبه کنید.
۰.۶
دقت به صورت زیر محاسبه می‌شود: \(\frac{TP}{TP+FP}=\frac{3}{5}\).
۰.۷۵
دقت، تمام طبقه‌بندی‌های مثبت را در نظر می‌گیرد، نه تمام موارد مثبت واقعی را. فرمول دقت به صورت زیر است: \(\frac{TP}{TP+FP}\).
۰.۴۲۹
دقت، همه طبقه‌بندی‌های مثبت را در نظر می‌گیرد، نه همه طبقه‌بندی‌های صحیح را. فرمول دقت به صورت زیر است: \(\frac{TP}{TP+FP}\)
شما در حال ساخت یک طبقه‌بندی‌کننده دودویی هستید که عکس‌های تله‌های حشرات را برای وجود گونه‌های مهاجم خطرناک بررسی می‌کند. اگر مدل، گونه مورد نظر را تشخیص دهد، به حشره‌شناس (دانشمند حشرات) که در حال انجام وظیفه است، اطلاع داده می‌شود. تشخیص زودهنگام این حشره برای جلوگیری از هجوم آن بسیار مهم است. مدیریت هشدار کاذب (مثبت کاذب) آسان است: حشره‌شناس متوجه می‌شود که عکس به اشتباه طبقه‌بندی شده است و آن را به عنوان چنین چیزی علامت‌گذاری می‌کند. با فرض سطح دقت قابل قبول، این مدل باید برای کدام معیار بهینه شود؟
به یاد بیاورید
در این سناریو، هشدارهای کاذب (FP) کم‌هزینه هستند و هشدارهای منفی کاذب بسیار پرهزینه هستند، بنابراین منطقی است که فراخوان یا احتمال تشخیص را به حداکثر برسانیم.
نرخ مثبت کاذب (FPR)
در این سناریو، هشدارهای کاذب (FP) کم‌هزینه هستند. تلاش برای به حداقل رساندن آنها با ریسک از دست دادن هشدارهای مثبت واقعی، منطقی نیست.
دقت
در این سناریو، هشدارهای کاذب (FP) چندان مضر نیستند، بنابراین تلاش برای بهبود صحت طبقه‌بندی‌های مثبت منطقی نیست.