از مثبت و منفی درست و غلط برای محاسبه چندین معیار مفید برای ارزیابی مدل ها استفاده می شود. اینکه کدام معیارهای ارزیابی معنادارتر هستند به مدل خاص و کار خاص، هزینه طبقهبندیهای اشتباه مختلف و متعادل یا نامتعادل بودن مجموعه داده بستگی دارد.
تمام معیارهای این بخش در یک آستانه ثابت محاسبه میشوند و با تغییر آستانه تغییر میکنند. اغلب، کاربر آستانه را برای بهینه سازی یکی از این معیارها تنظیم می کند.
دقت
دقت نسبت تمام طبقه بندی هایی است که درست بوده اند، خواه مثبت یا منفی. از نظر ریاضی به صورت زیر تعریف می شود:
\[\text{Accuracy} = \frac{\text{correct classifications}}{\text{total classifications}} = \frac{TP+TN}{TP+TN+FP+FN}\]
در مثال طبقهبندی هرزنامه، دقت کسری از ایمیلهایی که بهدرستی طبقهبندی شدهاند را اندازهگیری میکند.
یک مدل کامل دارای صفر مثبت کاذب و صفر منفی کاذب و در نتیجه دقت 1.0 یا 100 درصد خواهد بود.
از آنجایی که هر چهار نتیجه از ماتریس سردرگمی (TP، FP، TN، FN) را در بر می گیرد، با توجه به یک مجموعه داده متعادل، با تعداد نمونه های مشابه در هر دو کلاس، دقت می تواند به عنوان یک معیار درشت دانه برای کیفیت مدل عمل کند. به همین دلیل، اغلب معیار ارزیابی پیشفرض برای مدلهای عمومی یا نامشخصی است که وظایف عمومی یا نامشخص را انجام میدهند.
با این حال، هنگامی که مجموعه داده نامتعادل است، یا جایی که یک نوع اشتباه (FN یا FP) هزینه بیشتری نسبت به دیگری دارد، که در بیشتر برنامههای کاربردی دنیای واقعی صدق میکند، بهتر است در عوض برای یکی از معیارهای دیگر بهینهسازی شود.
برای مجموعه دادههای به شدت نامتعادل، که در آن یک کلاس به ندرت ظاهر میشود، مثلاً 1٪ مواقع، مدلی که 100٪ مواقع منفی را پیشبینی میکند، با وجود بیفایده بودن، 99٪ از نظر دقت امتیاز کسب میکند.
به یاد بیاورید یا نرخ مثبت واقعی
نرخ مثبت واقعی (TPR) یا نسبت تمام موارد مثبت واقعی که به درستی به عنوان مثبت طبقه بندی شده اند، به عنوان فراخوان نیز شناخته می شود.
یادآوری از نظر ریاضی به صورت زیر تعریف می شود:
\[\text{Recall (or TPR)} = \frac{\text{correctly classified actual positives}}{\text{all actual positives}} = \frac{TP}{TP+FN}\]
منفی های کاذب، مثبت های واقعی هستند که به اشتباه به عنوان منفی طبقه بندی شده اند، به همین دلیل است که در مخرج ظاهر می شوند. در مثال طبقهبندی هرزنامه، فراخوان بخشی از ایمیلهای هرزنامه را که به درستی به عنوان هرزنامه طبقهبندی شدهاند، اندازهگیری میکند. به همین دلیل است که نام دیگر برای فراخوان احتمال شناسایی است: به این سؤال پاسخ می دهد که "چه بخشی از ایمیل های هرزنامه توسط این مدل شناسایی می شوند؟"
یک مدل کامل فرضی دارای صفر منفی کاذب و در نتیجه فراخوانی (TPR) 1.0 است که به عبارتی نرخ تشخیص 100 درصد است.
در یک مجموعه داده نامتعادل که در آن تعداد موارد مثبت واقعی بسیار بسیار کم است، مثلاً 1-2 مثال در کل، یادآوری کمتر معنادار است و به عنوان یک معیار کمتر مفید است.
نرخ مثبت کاذب
نرخ مثبت کاذب (FPR) نسبت تمام منفی های واقعی است که به اشتباه به عنوان مثبت طبقه بندی شده اند، همچنین به عنوان احتمال هشدار نادرست شناخته می شود. از نظر ریاضی به صورت زیر تعریف می شود:
\[\text{FPR} = \frac{\text{incorrectly classified actual negatives}} {\text{all actual negatives}} = \frac{FP}{FP+TN}\]
مثبت های کاذب، منفی های واقعی هستند که به اشتباه طبقه بندی شده اند، به همین دلیل است که در مخرج ظاهر می شوند. در مثال طبقهبندی هرزنامه، FPR بخشی از ایمیلهای قانونی را که به اشتباه بهعنوان هرزنامه طبقهبندی شدهاند، یا میزان هشدارهای نادرست مدل را اندازهگیری میکند.
یک مدل کامل دارای مقادیر مثبت کاذب صفر و در نتیجه FPR 0.0 خواهد بود، یعنی نرخ هشدار نادرست 0٪.
در یک مجموعه داده نامتعادل که در آن تعداد منفی های واقعی بسیار بسیار کم است، مثلاً 1-2 مثال در کل، FPR کمتر معنادار است و به عنوان یک معیار کمتر مفید است.
دقت
دقت، نسبت تمام طبقه بندی های مثبت مدل است که در واقع مثبت هستند. از نظر ریاضی به صورت زیر تعریف می شود:
\[\text{Precision} = \frac{\text{correctly classified actual positives}} {\text{everything classified as positive}} = \frac{TP}{TP+FP}\]
در مثال طبقهبندی هرزنامه، دقت بخشی از ایمیلهایی که به عنوان هرزنامه طبقهبندی شدهاند و در واقع هرزنامه هستند را اندازهگیری میکند.
یک مدل کامل فرضی دارای صفر مثبت کاذب و در نتیجه دقت 1.0 خواهد بود.
در یک مجموعه داده نامتعادل که تعداد موارد مثبت واقعی بسیار بسیار کم است، مثلاً در مجموع 1-2 مثال، دقت کمتر معنادار است و به عنوان یک معیار کمتر مفید است.
دقت با کاهش مثبت کاذب بهبود می یابد، در حالی که یادآوری زمانی بهبود می یابد که منفی کاذب کاهش یابد. اما همانطور که در بخش قبل مشاهده شد، افزایش آستانه طبقه بندی منجر به کاهش تعداد مثبت کاذب و افزایش تعداد منفی کاذب می شود، در حالی که کاهش آستانه اثرات معکوس دارد. در نتیجه، دقت و یادآوری اغلب یک رابطه معکوس را نشان می دهد، که در آن بهبود یکی از آنها دیگری را بدتر می کند.
خودتان آن را امتحان کنید:
NaN در معیارها به چه معناست؟
NaN یا "not a number" هنگام تقسیم بر 0 ظاهر می شود که می تواند با هر یک از این معیارها اتفاق بیفتد. به عنوان مثال، وقتی TP و FP هر دو 0 هستند، فرمول دقت دارای 0 در مخرج است که منجر به NaN می شود. در حالی که در برخی موارد NaN می تواند عملکرد عالی را نشان دهد و می تواند با نمره 1.0 جایگزین شود، همچنین می تواند از مدلی باشد که عملاً بی فایده است. برای مثال، مدلی که هرگز مثبت را پیشبینی نمیکند، 0 TP و 0 FPs خواهد داشت و بنابراین محاسبه دقت آن به NaN منجر میشود.
انتخاب متریک و مبادله
معیار(هایی) که برای اولویت بندی انتخاب می کنید هنگام ارزیابی مدل و انتخاب یک آستانه، به هزینه ها، مزایا و خطرات مشکل خاص بستگی دارد. در مثال طبقهبندی هرزنامه، معمولاً اولویت دادن به یادآوری، حذف همه ایمیلهای هرزنامه، یا دقت، تلاش برای اطمینان از اینکه ایمیلهای دارای برچسب هرزنامه در واقع هرزنامه هستند، یا تعادلی بین این دو، بالاتر از حداقل سطح دقت، منطقی است.
متریک | راهنمایی |
---|---|
دقت | به عنوان یک شاخص تقریبی از پیشرفت/همگرایی آموزش مدل برای مجموعه داده های متعادل استفاده کنید. برای عملکرد مدل، فقط در ترکیب با سایر معیارها استفاده کنید. از مجموعه داده های نامتعادل اجتناب کنید. استفاده از معیار دیگری را در نظر بگیرید. |
به یاد بیاورید (نرخ مثبت واقعی) | زمانی استفاده کنید که منفی های کاذب گران تر از مثبت های کاذب هستند. |
نرخ مثبت کاذب | زمانی استفاده کنید که مثبت کاذب گرانتر از منفی کاذب باشد. |
دقت | زمانی استفاده کنید که برای پیش بینی های مثبت دقیق بودن بسیار مهم است. |
(اختیاری، پیشرفته) امتیاز F1
امتیاز F1 میانگین هارمونیک (نوعی میانگین) دقت و یادآوری است.
از نظر ریاضی به صورت زیر داده می شود:
این متریک اهمیت دقت و یادآوری را متعادل میکند و برای مجموعه دادههای نامتعادل کلاس به دقت ترجیح داده میشود. هنگامی که دقت و یادآوری هر دو دارای امتیاز کامل 1.0 باشند، F1 نیز امتیاز کامل 1.0 خواهد داشت. به طور گسترده تر، زمانی که دقت و فراخوان از نظر ارزش نزدیک باشند، F1 نزدیک به مقدار آنها خواهد بود. وقتی دقت و یادآوری فاصله زیادی از هم دارند، F1 مشابه هر معیاری خواهد بود که بدتر باشد.