Істинні, хибні та хибні негативні результати використовуються для розрахунку кількох корисних показників для оцінки моделей. Які показники оцінки є найбільш значущими, залежить від конкретної моделі та конкретного завдання, вартості різних неправильних класифікацій та того, чи є набір даних збалансованим чи незбалансованим.
Усі показники в цьому розділі розраховуються за одним фіксованим порогом і змінюються разом зі зміною порогу. Дуже часто користувач налаштовує поріг для оптимізації одного з цих показників.
Точність
Точність – це частка всіх класифікацій, які були правильними, незалежно від того, чи були вони позитивними, чи негативними. Математично вона визначається як:
\[\text{Accuracy} = \frac{\text{correct classifications}}{\text{total classifications}} = \frac{TP+TN}{TP+TN+FP+FN}\]
У прикладі класифікації спаму точність вимірює частку всіх електронних листів, які правильно класифіковані.
Ідеальна модель мала б нуль хибнопозитивних та нуль хибнонегативних результатів, а отже, точність 1,0, або 100%.
Оскільки вона включає всі чотири результати з матриці плутанини (TP, FP, TN, FN), за умови збалансованого набору даних з подібною кількістю прикладів в обох класах, точність може служити грубозернистим показником якості моделі. З цієї причини вона часто є метрикою оцінки за замовчуванням, яка використовується для загальних або невизначених моделей, що виконують загальні або невизначені завдання.
Однак, коли набір даних незбалансований або коли один тип помилки (FN або FP) є більш витратним, ніж інший, що трапляється в більшості реальних застосувань, краще оптимізувати його для однієї з інших метрик.
Для сильно незбалансованих наборів даних, де один клас з'являється дуже рідко, скажімо, в 1% випадків, модель, яка прогнозує негативне значення у 100% випадків, матиме точність 99%, незважаючи на свою марність.
Відгук, або справжній позитивний показник
Істинний показник позитивного результату (TPR) , або частка всіх фактично позитивних результатів, які були правильно класифіковані як позитивні, також відомий як повнота результатів .
Відгук математично визначається як:
\[\text{Recall (or TPR)} = \frac{\text{correctly classified actual positives}}{\text{all actual positives}} = \frac{TP}{TP+FN}\]
Хибнонегативні результати – це фактично позитивні результати, які були помилково класифіковані як негативні, тому вони з’являються у знаменнику. У прикладі класифікації спаму повнота вимірює частку спам-листів, які були правильно класифіковані як спам. Ось чому інша назва повноти – ймовірність виявлення : вона відповідає на питання «Яку частку спам-листів виявляє ця модель?»
Гіпотетична ідеальна модель не матиме хибнонегативних результатів і, отже, матиме коефіцієнт повного відображення (TPR) 1,0, тобто 100% рівень виявлення.
У незбалансованому наборі даних, де кількість фактично позитивних результатів дуже низька, повнота є більш значущим показником, ніж точність, оскільки він вимірює здатність моделі правильно ідентифікувати всі позитивні випадки. Для таких застосувань, як прогнозування захворювань, правильне визначення позитивних випадків є критично важливим. Хибнонегативний результат зазвичай має серйозніші наслідки, ніж хибнопозитивний. Для конкретного прикладу порівняння показників повноти та точності див. примітки до визначення повноти .
Рівень хибнопозитивних результатів
Коефіцієнт хибнопозитивних результатів (FPR) – це частка всіх фактично негативних результатів, які були помилково класифіковані як позитивні, також відома як ймовірність хибної тривоги. Математично вона визначається як:
\[\text{FPR} = \frac{\text{incorrectly classified actual negatives}} {\text{all actual negatives}} = \frac{FP}{FP+TN}\]
Хибнопозитивні результати – це фактично негативні результати, які були неправильно класифіковані, тому вони з’являються у знаменнику. У прикладі класифікації спаму FPR вимірює частку легітимних електронних листів, які були неправильно класифіковані як спам, або коефіцієнт хибних тривог моделі.
Ідеальна модель мала б нуль хибнопозитивних результатів і, отже, FPR дорівнював би 0,0, тобто коефіцієнт хибних тривог становив би 0%.
Для незбалансованого набору даних FPR зазвичай є більш інформативним показником, ніж точність. Однак, якщо кількість фактичних негативних результатів дуже низька, FPR може бути не ідеальним вибором через його волатильність. Наприклад, якщо в наборі даних є лише чотири фактичні негативні результати, одна неправильна класифікація призводить до FPR 25%, тоді як друга неправильна класифікація призводить до зростання FPR до 50%. У таких випадках точність (описана далі) може бути більш стабільним показником для оцінки впливу хибнопозитивних результатів.
Точність
Точність – це частка всіх позитивних класифікацій моделі, які насправді є позитивними. Математично вона визначається як:
\[\text{Precision} = \frac{\text{correctly classified actual positives}} {\text{everything classified as positive}} = \frac{TP}{TP+FP}\]
У прикладі класифікації спаму точність вимірює частку електронних листів, класифікованих як спам, які насправді були спамом.
Гіпотетична ідеальна модель мала б нуль хибнопозитивних результатів і, отже, точність дорівнювала б 1,0.
У незбалансованому наборі даних, де кількість фактичних позитивних результатів дуже й дуже низька, скажімо, 1-2 приклади загалом, точність менш значуща та менш корисна як метрика.
Точність покращується зі зменшенням кількості хибнопозитивних результатів, тоді як повнота покращується зі зменшенням кількості хибнонегативних результатів. Але, як видно з попереднього розділу, збільшення порогу класифікації має тенденцію до зменшення кількості хибнопозитивних результатів та збільшення кількості хибнонегативних, тоді як зниження порогу має протилежні ефекти. Як результат, точність і повнота часто демонструють обернену залежність, де покращення одного з них погіршує інший.
Спробуйте самі:
Вибір метрики та компроміси
Метрика(и), які ви обираєте для визначення пріоритетів під час оцінки моделі та вибору порогового значення, залежить від витрат, вигод та ризиків конкретної проблеми. У прикладі класифікації спаму часто має сенс визначити пріоритетність повчальності, вилучення всіх спам-листів, або точності, намагаючись переконатися, що листи з позначкою «спам» насправді є спамом, або певний баланс між цими двома показниками, перевищуючи певний мінімальний рівень точності.
| Метрика | Керівництво |
|---|---|
| Точність | Використовуйте як приблизний показник прогресу/конвергенції навчання моделі для збалансованих наборів даних. Для оцінки продуктивності моделі використовуйте лише в поєднанні з іншими показниками. Уникайте для незбалансованих наборів даних. Розгляньте можливість використання іншої метрики. |
| Відкликання (Істинний позитивний коефіцієнт) | Використовуйте, коли хибнонегативні результати дорожчі за хибнопозитивні. |
| Рівень хибнопозитивних результатів | Використовуйте, коли хибнопозитивні результати дорожчі за хибнонегативні. |
| Точність | Використовуйте, коли дуже важливо, щоб позитивні прогнози були точними. |