از مثبت و منفیهای درست و غلط برای محاسبه چندین معیار مفید برای ارزیابی مدلها استفاده میشود. اینکه کدام معیارهای ارزیابی معنادارتر هستند، به مدل خاص و وظیفه خاص، هزینه طبقهبندیهای نادرست مختلف و اینکه آیا مجموعه دادهها متعادل است یا نامتعادل، بستگی دارد.
تمام معیارهای این بخش در یک آستانه ثابت محاسبه میشوند و با تغییر آستانه، تغییر میکنند. اغلب، کاربر آستانه را برای بهینهسازی یکی از این معیارها تنظیم میکند.
دقت
دقت ، نسبت تمام طبقهبندیهایی است که صحیح بودهاند، چه مثبت و چه منفی. از نظر ریاضی به صورت زیر تعریف میشود:
\[\text{Accuracy} = \frac{\text{correct classifications}}{\text{total classifications}} = \frac{TP+TN}{TP+TN+FP+FN}\]
در مثال طبقهبندی هرزنامه، دقت، کسری از کل ایمیلهایی را که به درستی طبقهبندی شدهاند، اندازهگیری میکند.
یک مدل بینقص، صفر نتیجه مثبت کاذب و صفر نتیجه منفی کاذب خواهد داشت و بنابراین دقت آن ۱.۰ یا ۱۰۰٪ خواهد بود.
از آنجا که این روش، هر چهار نتیجه از ماتریس درهمریختگی (TP، FP، TN، FN) را با توجه به یک مجموعه داده متعادل، با تعداد مشابه مثال در هر دو کلاس، در بر میگیرد، دقت میتواند به عنوان یک معیار درشت از کیفیت مدل عمل کند. به همین دلیل، اغلب معیار ارزیابی پیشفرض مورد استفاده برای مدلهای عمومی یا نامشخص است که وظایف عمومی یا نامشخص را انجام میدهند.
با این حال، وقتی مجموعه دادهها نامتعادل است، یا جایی که یک نوع اشتباه (FN یا FP) پرهزینهتر از دیگری است، که در اکثر برنامههای دنیای واقعی چنین است، بهتر است به جای آن، یکی از معیارهای دیگر را بهینهسازی کنیم.
برای مجموعه دادههای به شدت نامتوازن، که در آنها یک کلاس به ندرت، مثلاً ۱٪ مواقع، ظاهر میشود، مدلی که ۱۰۰٪ مواقع منفی پیشبینی میکند، با وجود بیفایده بودن، ۹۹٪ دقت خواهد داشت.
به یاد بیاورید، یا نرخ مثبت واقعی
نرخ مثبت واقعی (TPR) یا نسبت تمام موارد مثبت واقعی که به درستی به عنوان مثبت طبقهبندی شدهاند، به عنوان یادآوری نیز شناخته میشود.
یادآوری از نظر ریاضی به صورت زیر تعریف میشود:
\[\text{Recall (or TPR)} = \frac{\text{correctly classified actual positives}}{\text{all actual positives}} = \frac{TP}{TP+FN}\]
منفیهای کاذب، مثبتهای واقعی هستند که به اشتباه به عنوان منفی طبقهبندی شدهاند، به همین دلیل است که در مخرج کسر ظاهر میشوند. در مثال طبقهبندی اسپم، فراخوانی، کسری از ایمیلهای اسپم را که به درستی به عنوان اسپم طبقهبندی شدهاند، اندازهگیری میکند. به همین دلیل است که نام دیگر فراخوانی، احتمال تشخیص است: این پاسخ به این سوال است که "چه کسری از ایمیلهای اسپم توسط این مدل شناسایی میشوند؟"
یک مدل فرضی بینقص، صفر مورد منفی کاذب خواهد داشت و بنابراین نرخ بازیابی (TPR) آن برابر با ۱.۰ است، یعنی نرخ تشخیص ۱۰۰٪.
در یک مجموعه داده نامتوازن که تعداد موارد مثبت واقعی بسیار کم است، معیار فراخوانی (Recall) نسبت به دقت (Accuracy) معنادارتر است، زیرا توانایی مدل را در شناسایی صحیح همه موارد مثبت اندازهگیری میکند. برای کاربردهایی مانند پیشبینی بیماری، شناسایی صحیح موارد مثبت بسیار مهم است. یک نتیجه منفی کاذب معمولاً عواقب جدیتری نسبت به یک نتیجه مثبت کاذب دارد. برای مثالی ملموس در مقایسه معیارهای فراخوانی و دقت، به یادداشتهای موجود در تعریف فراخوانی مراجعه کنید.
نرخ مثبت کاذب
نرخ مثبت کاذب (FPR) نسبت تمام موارد منفی واقعی است که به اشتباه به عنوان مثبت طبقهبندی شدهاند، که به عنوان احتمال هشدار کاذب نیز شناخته میشود. از نظر ریاضی به صورت زیر تعریف میشود:
\[\text{FPR} = \frac{\text{incorrectly classified actual negatives}} {\text{all actual negatives}} = \frac{FP}{FP+TN}\]
مثبتهای کاذب، منفیهای واقعی هستند که به اشتباه طبقهبندی شدهاند، به همین دلیل است که در مخرج کسر ظاهر میشوند. در مثال طبقهبندی هرزنامه، FPR کسری از ایمیلهای قانونی را که به اشتباه به عنوان هرزنامه طبقهبندی شدهاند، یا نرخ هشدارهای کاذب مدل را اندازهگیری میکند.
یک مدل بینقص، صفر مورد مثبت کاذب و بنابراین FPR برابر با ۰.۰ خواهد داشت، به عبارت دیگر، نرخ هشدار کاذب آن ۰٪ است.
برای یک مجموعه داده نامتوازن، FPR عموماً معیاری آموزندهتر از دقت است. با این حال، اگر تعداد موارد منفی واقعی بسیار کم باشد، FPR به دلیل نوسانش ممکن است انتخاب ایدهآلی نباشد. به عنوان مثال، اگر فقط چهار مورد منفی واقعی در یک مجموعه داده وجود داشته باشد، یک طبقهبندی نادرست منجر به FPR 25٪ میشود، در حالی که طبقهبندی نادرست دوم باعث میشود FPR به 50٪ افزایش یابد. در مواردی مانند این، دقت (که در ادامه توضیح داده میشود) میتواند معیار پایدارتری برای ارزیابی اثرات مثبتهای کاذب باشد.
دقت
دقت ، نسبت تمام طبقهبندیهای مثبت مدل است که واقعاً مثبت هستند. این پارامتر از نظر ریاضی به صورت زیر تعریف میشود:
\[\text{Precision} = \frac{\text{correctly classified actual positives}} {\text{everything classified as positive}} = \frac{TP}{TP+FP}\]
در مثال طبقهبندی هرزنامه، دقت، کسری از ایمیلهای طبقهبندیشده بهعنوان هرزنامه را که در واقع هرزنامه بودهاند، اندازهگیری میکند.
یک مدل فرضی بینقص، صفر مورد مثبت کاذب و بنابراین دقت ۱.۰ خواهد داشت.
در یک مجموعه داده نامتوازن که تعداد موارد مثبت واقعی بسیار بسیار کم است، مثلاً ۱-۲ نمونه در مجموع، دقت به عنوان یک معیار، معنای کمتری دارد و کمتر مفید است.
با کاهش موارد مثبت کاذب، دقت بهبود مییابد، در حالی که با کاهش موارد منفی کاذب، فراخوانی بهبود مییابد. اما همانطور که در بخش قبل مشاهده شد، افزایش آستانه طبقهبندی، تعداد موارد مثبت کاذب را کاهش و تعداد موارد منفی کاذب را افزایش میدهد، در حالی که کاهش آستانه اثرات معکوس دارد. در نتیجه، دقت و فراخوانی اغلب رابطه معکوسی را نشان میدهند، به طوری که بهبود یکی از آنها، دیگری را بدتر میکند.
خودتان امتحان کنید:
انتخاب معیار و بدهبستانها
معیارهایی که هنگام ارزیابی مدل و انتخاب یک آستانه، اولویتبندی میکنید، به هزینهها، مزایا و خطرات مشکل خاص بستگی دارد. در مثال طبقهبندی هرزنامه، اغلب منطقی است که اولویت را به یادآوری، جمعآوری تمام ایمیلهای هرزنامه، یا دقت، یعنی تلاش برای اطمینان از اینکه ایمیلهای دارای برچسب هرزنامه در واقع هرزنامه هستند، یا تعادلی از این دو، بالاتر از حداقل سطح دقت، بدهید.
| متریک | راهنمایی |
|---|---|
| دقت | به عنوان یک شاخص تقریبی از پیشرفت/همگرایی آموزش مدل برای مجموعه دادههای متعادل استفاده میشود. برای عملکرد مدل، فقط در ترکیب با سایر معیارها استفاده شود. برای مجموعه دادههای نامتوازن از این گزینه اجتناب کنید. استفاده از معیار دیگری را در نظر بگیرید. |
| به یاد بیاورید (نرخ مثبت واقعی) | زمانی استفاده میشود که نتایج منفی کاذب گرانتر از نتایج مثبت کاذب باشند. |
| نرخ مثبت کاذب | زمانی استفاده میشود که نتایج مثبت کاذب گرانتر از نتایج منفی کاذب باشند. |
| دقت | زمانی استفاده میشود که دقت پیشبینیهای مثبت بسیار مهم است. |