Класифікація: точність, повнота, влучність і пов’язані метрики

Істинні, хибні та хибні негативні результати використовуються для розрахунку кількох корисних показників для оцінки моделей. Які показники оцінки є найбільш значущими, залежить від конкретної моделі та конкретного завдання, вартості різних неправильних класифікацій та того, чи є набір даних збалансованим чи незбалансованим.

Усі показники в цьому розділі розраховуються за одним фіксованим порогом і змінюються разом зі зміною порогу. Дуже часто користувач налаштовує поріг для оптимізації одного з цих показників.

Точність

Точність – це частка всіх класифікацій, які були правильними, незалежно від того, чи були вони позитивними, чи негативними. Математично вона визначається як:

\[\text{Accuracy} = \frac{\text{correct classifications}}{\text{total classifications}} = \frac{TP+TN}{TP+TN+FP+FN}\]

У прикладі класифікації спаму точність вимірює частку всіх електронних листів, які правильно класифіковані.

Ідеальна модель мала б нуль хибнопозитивних та нуль хибнонегативних результатів, а отже, точність 1,0, або 100%.

Оскільки вона включає всі чотири результати з матриці плутанини (TP, FP, TN, FN), за умови збалансованого набору даних з подібною кількістю прикладів в обох класах, точність може служити грубозернистим показником якості моделі. З цієї причини вона часто є метрикою оцінки за замовчуванням, яка використовується для загальних або невизначених моделей, що виконують загальні або невизначені завдання.

Однак, коли набір даних незбалансований або коли один тип помилки (FN або FP) є більш витратним, ніж інший, що трапляється в більшості реальних застосувань, краще оптимізувати його для однієї з інших метрик.

Для сильно незбалансованих наборів даних, де один клас з'являється дуже рідко, скажімо, в 1% випадків, модель, яка прогнозує негативне значення у 100% випадків, матиме точність 99%, незважаючи на свою марність.

Відгук, або справжній позитивний показник

Істинний показник позитивного результату (TPR) , або частка всіх фактично позитивних результатів, які були правильно класифіковані як позитивні, також відомий як повнота результатів .

Відгук математично визначається як:

\[\text{Recall (or TPR)} = \frac{\text{correctly classified actual positives}}{\text{all actual positives}} = \frac{TP}{TP+FN}\]

Хибнонегативні результати – це фактично позитивні результати, які були помилково класифіковані як негативні, тому вони з’являються у знаменнику. У прикладі класифікації спаму повнота вимірює частку спам-листів, які були правильно класифіковані як спам. Ось чому інша назва повноти – ймовірність виявлення : вона відповідає на питання «Яку частку спам-листів виявляє ця модель?»

Гіпотетична ідеальна модель не матиме хибнонегативних результатів і, отже, матиме коефіцієнт повного відображення (TPR) 1,0, тобто 100% рівень виявлення.

У незбалансованому наборі даних, де кількість фактично позитивних результатів дуже низька, повнота є більш значущим показником, ніж точність, оскільки він вимірює здатність моделі правильно ідентифікувати всі позитивні випадки. Для таких застосувань, як прогнозування захворювань, правильне визначення позитивних випадків є критично важливим. Хибнонегативний результат зазвичай має серйозніші наслідки, ніж хибнопозитивний. Для конкретного прикладу порівняння показників повноти та точності див. примітки до визначення повноти .

Рівень хибнопозитивних результатів

Коефіцієнт хибнопозитивних результатів (FPR) – це частка всіх фактично негативних результатів, які були помилково класифіковані як позитивні, також відома як ймовірність хибної тривоги. Математично вона визначається як:

\[\text{FPR} = \frac{\text{incorrectly classified actual negatives}} {\text{all actual negatives}} = \frac{FP}{FP+TN}\]

Хибнопозитивні результати – це фактично негативні результати, які були неправильно класифіковані, тому вони з’являються у знаменнику. У прикладі класифікації спаму FPR вимірює частку легітимних електронних листів, які були неправильно класифіковані як спам, або коефіцієнт хибних тривог моделі.

Ідеальна модель мала б нуль хибнопозитивних результатів і, отже, FPR дорівнював би 0,0, тобто коефіцієнт хибних тривог становив би 0%.

Для незбалансованого набору даних FPR зазвичай є більш інформативним показником, ніж точність. Однак, якщо кількість фактичних негативних результатів дуже низька, FPR може бути не ідеальним вибором через його волатильність. Наприклад, якщо в наборі даних є лише чотири фактичні негативні результати, одна неправильна класифікація призводить до FPR 25%, тоді як друга неправильна класифікація призводить до зростання FPR до 50%. У таких випадках точність (описана далі) може бути більш стабільним показником для оцінки впливу хибнопозитивних результатів.

Точність

Точність – це частка всіх позитивних класифікацій моделі, які насправді є позитивними. Математично вона визначається як:

\[\text{Precision} = \frac{\text{correctly classified actual positives}} {\text{everything classified as positive}} = \frac{TP}{TP+FP}\]

У прикладі класифікації спаму точність вимірює частку електронних листів, класифікованих як спам, які насправді були спамом.

Гіпотетична ідеальна модель мала б нуль хибнопозитивних результатів і, отже, точність дорівнювала б 1,0.

У незбалансованому наборі даних, де кількість фактичних позитивних результатів дуже й дуже низька, скажімо, 1-2 приклади загалом, точність менш значуща та менш корисна як метрика.

Точність покращується зі зменшенням кількості хибнопозитивних результатів, тоді як повнота покращується зі зменшенням кількості хибнонегативних результатів. Але, як видно з попереднього розділу, збільшення порогу класифікації має тенденцію до зменшення кількості хибнопозитивних результатів та збільшення кількості хибнонегативних, тоді як зниження порогу має протилежні ефекти. Як результат, точність і повнота часто демонструють обернену залежність, де покращення одного з них погіршує інший.

Спробуйте самі:

Вибір метрики та компроміси

Метрика(и), які ви обираєте для визначення пріоритетів під час оцінки моделі та вибору порогового значення, залежить від витрат, вигод та ризиків конкретної проблеми. У прикладі класифікації спаму часто має сенс визначити пріоритетність повчальності, вилучення всіх спам-листів, або точності, намагаючись переконатися, що листи з позначкою «спам» насправді є спамом, або певний баланс між цими двома показниками, перевищуючи певний мінімальний рівень точності.

Метрика Керівництво
Точність

Використовуйте як приблизний показник прогресу/конвергенції навчання моделі для збалансованих наборів даних.

Для оцінки продуктивності моделі використовуйте лише в поєднанні з іншими показниками.

Уникайте для незбалансованих наборів даних. Розгляньте можливість використання іншої метрики.

Відкликання
(Істинний позитивний коефіцієнт)
Використовуйте, коли хибнонегативні результати дорожчі за хибнопозитивні.
Рівень хибнопозитивних результатів Використовуйте, коли хибнопозитивні результати дорожчі за хибнонегативні.
Точність Використовуйте, коли дуже важливо, щоб позитивні прогнози були точними.

Вправа: Перевірте своє розуміння

Модель видає 5 TP, 6 TN, 3 FP та 2 FN. Обчисліть повноту.
0,714
Відгук розраховується як \(\frac{TP}{TP+FN}=\frac{5}{7}\).
0,455
Пригадування враховує всі фактичні позитивні результати, а не всі правильні класифікації. Формула для пригадування така: \(\frac{TP}{TP+FN}\).
0,625
Пригадування враховує всі фактичні позитивні моменти, а не всі позитивні класифікації. Формула для пригадування така: \(\frac{TP}{TP+FN}\)
Модель видає 3 TP, 4 TN, 2 FP та 1 FN. Обчисліть точність.
0,6
Точність розраховується як \(\frac{TP}{TP+FP}=\frac{3}{5}\).
0,75
Точність враховує всі позитивні класифікації, а не всі фактичні позитивні. Формула для точності така: \(\frac{TP}{TP+FP}\).
0,429
Точність враховує всі позитивні класифікації, а не всі правильні. Формула для точності така: \(\frac{TP}{TP+FP}\)
Ви створюєте бінарний класифікатор, який перевіряє фотографії пасток для комах на наявність небезпечних інвазивних видів. Якщо модель виявляє вид, черговий ентомолог (комахознавець) отримує повідомлення. Раннє виявлення цієї комахи має вирішальне значення для запобігання зараженню. З хибною тривогою (хибним спрацьовуванням) легко впоратися: ентомолог бачить, що фотографію було неправильно класифіковано, і позначає її як таку. Припускаючи прийнятний рівень точності, для якої метрики слід оптимізувати цю модель?
Відкликання
У цьому сценарії хибні тривоги (ХТ) є недорогими, а хибнонегативні результати – дуже дорогими, тому має сенс максимізувати повноту відображення або ймовірність виявлення.
Коефіцієнт хибнопозитивних результатів (FPR)
У цьому сценарії помилкові тривоги (ХТ) є недорогими. Намагатися мінімізувати їх, ризикуючи пропустити фактичні позитивні результати, не має сенсу.
Точність
У цьому сценарії хибні тривоги (ХТ) не є особливо шкідливими, тому спроби покращити правильність позитивних класифікацій не мають сенсу.