Істиннопозитивні, хибнопозитивні, істиннонегативні й хибнонегативні результати використовуються, щоб обчислити кілька корисних показників для оцінювання моделей. Те, які показники оцінювання найзначущіші, залежить від моделі, завдання, того, у скільки обійдуться різні неправильні результати класифікації і чи є набір даних збалансованим.
Усі показники, що розглядаються в цьому розділі, обчислюються за одним фіксованим пороговим значенням і змінюються разом із ним. Дуже часто користувачі налаштовують порогове значення, щоб оптимізувати один із цих показників.
Точність
Точність – це частка всіх правильно класифікованих даних (позитивних і негативних результатів). Математично вона виражається так:
\[\text{Accuracy} = \frac{\text{correct classifications}}{\text{total classifications}} = \frac{TP+TN}{TP+TN+FP+FN}\]
У прикладі класифікації спаму точністю вимірюють частку всіх правильно класифікованих електронних листів.
Ідеальна модель мала б нуль хибнопозитивних і нуль хибнонегативних результатів, а отже, точність би становила 1,0, або 100%.
Оскільки вона включає всі чотири результати з матриці помилок (TP, FP, TN, FN), за умови збалансованого набору даних з однаковою кількістю прикладів в обох класах точність може служити загальним показником якості моделі. Із цієї причини точність часто є показником оцінювання за умовчанням для типових моделей чи тих, які не виконують спеціальні завдання.
Однак якщо набір даних незбалансований або один вид помилки (FN або FP) обходиться дорожче, ніж інший (на практиці таке буває майже завжди), краще провести оптимізацію за одним з інших показників.
Якщо набори даних сильно незбалансовані й один клас з’являється дуже рідко (наприклад, 1% часу), точність модель, яка прогнозує негативний результат у 100% випадків, становитиме 99% попри те, що вона не приносить користі.
Повнота, або коефіцієнт істиннопозитивних результатів
Коефіцієнт істиннопозитивних результатів (TPR), або частку всіх фактичних позитивних результатів, які правильно класифіковано як позитивні, ще називають повнотою.
Математично повнота виражається так:
\[\text{Recall (or TPR)} = \frac{\text{correctly classified actual positives}}{\text{all actual positives}} = \frac{TP}{TP+FN}\]
Хибнонегативні результати – це фактичні позитивні результати, які неправильно класифіковано як негативні, тому вони в знаменнику. У прикладі класифікації спаму повнота – це частка спам-листів, які правильно класифіковано як спам. Ось чому повноту ще називають імовірністю виявлення: це відповідь на запитання "Яку частку спам-листів виявляє модель?"
Гіпотетична ідеальна модель матиме нуль хибнонегативних результатів, а отже, повноту (TPR) 1,0, тобто рівень виявлення 100%.
Якщо набір даних не збалансовано й кількість фактичних позитивних результатів дуже низька (скажімо, усього 1–2 приклади), повнота є менш значущим і менш корисним показником.
Коефіцієнт хибнопозитивних результатів
Коефіцієнт хибнопозитивних результатів (FPR), або частку всіх фактичних негативних результатів, які неправильно класифіковано як позитивні, ще називають імовірністю хибної тривоги. Математично він виражається так:
\[\text{FPR} = \frac{\text{incorrectly classified actual negatives}} {\text{all actual negatives}} = \frac{FP}{FP+TN}\]
Хибнопозитивні результати – це фактичні негативні результати, які неправильно класифіковано, тому вони в знаменнику. У прикладі класифікації спаму FPR – це частка звичайних електронних листів, які неправильно класифіковано як спам, або коефіцієнт хибних тривог у моделі.
Ідеальна модель мала б нуль хибнопозитивних результатів, а отже, FPR 0,0, тобто кількість хибних тривог становила б 0%.
Якщо набір даних не збалансовано й кількість фактичних негативних результатів дуже низька (скажімо, усього 1–2 приклади), FPR є менш значущим і менш корисним показником.
Влучність
Влучність – це частка всіх результатів, які модель класифікує як позитивні і які й справді такі. Математично вона виражається так:
\[\text{Precision} = \frac{\text{correctly classified actual positives}} {\text{everything classified as positive}} = \frac{TP}{TP+FP}\]
У прикладі класифікації спаму влучність – це частка листів, класифікованих як спам, що й справді такі.
Гіпотетична ідеальна модель мала б нуль хибнопозитивних результатів, а отже, влучність становила б 1,0.
Якщо набір даних не збалансовано й кількість фактичних позитивних результатів дуже низька (скажімо, усього 1–2 приклади), влучність є менш значущим і менш корисним показником.
Влучність покращується зі зменшенням хибнопозитивних результатів, тоді як повнота – зі зменшенням хибнонегативних. Але, як ви вже знаєте з попереднього розділу, якщо підвищити порогові значення класифікації, кількість хибнопозитивних результатів зменшиться, а кількість хибнонегативних – збільшиться, тоді як зниження порогових значень має протилежний ефект. Як наслідок, влучність і повнота часто демонструють обернено пропорційний зв’язок, тобто покращення одного із цих показників призводить до погіршення іншого.
Спробуйте самостійно:
Що означає значення показника NaN?
NaN, або "не число", з’являється через ділення на 0, що може статися під час обчислення будь-якого із цих показників. Наприклад, якщо TP й FP дорівнюють 0, у знаменнику формули влучність становитиме 0, що призведе до значення NaN. Хоча іноді значення NaN може вказувати на ідеальну ефективність і його можна замінити балом 1,0, воно також може з’являтися, якщо модель практично не приносить користі. Наприклад, модель, яка ніколи не передбачає позитивних результатів, матиме 0 TP й 0 FP; якщо обчислити її влучність, вона дорівнюватиме NaN.
Вибір показника й компроміси
Показники, яким ви надаєте пріоритет під час оцінювання моделі й вибору порогового значення, залежать від витрат на конкретну задачу, а також її переваг і ризиків. Візьмімо приклад класифікації спаму: часто є сенс віддати пріоритет не мінімальному рівню точності, а повноті (щоб визначати всі спам-листи), влучності (щоб гарантувати, що листи, позначені як спам, справді такі) або ж балансу цих двох показників.
Показник | Рекомендації |
---|---|
Точність | Використовуйте як приблизний індикатор прогресу навчання та/або збіжності моделі для збалансованих наборів даних. Щоб визначати ефективність моделі, використовуйте лише в поєднанні з іншими показниками. Уникайте, якщо працюєте з незбалансованими наборами даних. У цьому разі краще використати інший показник. |
Повнота (коефіцієнт істиннопозитивних результатів) |
Використовуйте, коли хибнонегативні результати обходяться дорожче, ніж хибнопозитивні. |
Коефіцієнт хибнопозитивних результатів | Використовуйте, коли хибнопозитивні результати обходяться дорожче, ніж хибнонегативні. |
Влучність | Використовуйте, коли дуже важливо, щоб позитивні прогнози були точними. |
Оцінка F1 (необов’язково, додатково)
Оцінка F1 – це середнє гармонічне значення влучності й повноти (щось поміж ними).
Математична формула:
Цей показник урівноважує важливість влучності й повноти і є кращим за точність для наборів даних, незбалансованих за класом. Коли як влучність, так і повнота мають ідеальні оцінки 1,0, показник F1 також матиме ідеальне значення 1,0. У широкому сенсі, коли влучність і повнота близькі за величиною, оцінка F1 буде наближена до їх значення. А коли вони далекі, оцінка F1 буде наближена до гіршого показника.