У попередньому розділі було представлено набір показників моделі, всі розраховані за одним пороговим значенням класифікації. Але якщо ви хочете оцінити якість моделі за всіма можливими пороговими значеннями, вам потрібні інші інструменти.
Крива робочої характеристики приймача (ROC)
Крива ROC — це візуальне представлення продуктивності моделі за всіма пороговими значеннями. Довга версія назви, ROC-крива (Receiver Operating Characteristic), є пережитком радіолокаційного виявлення часів Другої світової війни.
ROC-крива будується шляхом обчислення коефіцієнта істинно позитивних результатів (TPR) та коефіцієнта хибнопозитивних результатів (FPR) для кожного можливого порогу (на практиці, через вибрані інтервали), а потім побудови графіка залежності TPR від FPR. Ідеальна модель, яка для певного порогу має TPR 1,0 та FPR 0,0, може бути представлена або точкою в (0, 1), якщо всі інші пороги ігноруються, або наступним чином:

Площа під кривою (AUC)
Площа під ROC-кривою (AUC) представляє ймовірність того, що модель, якщо їй дати випадково вибраний позитивний та негативний приклад, оцінить позитивний вище, ніж негативний.
Ідеальна модель, наведена вище, що містить квадрат зі сторонами довжиною 1, має площу під кривою (AUC) 1,0. Це означає, що існує 100% ймовірність того, що модель правильно розмістить випадково вибраний позитивний приклад вище, ніж випадково вибраний негативний приклад. Іншими словами, дивлячись на розкид точок даних нижче, AUC дає ймовірність того, що модель розмістить випадково вибраний квадрат праворуч від випадково вибраного кола, незалежно від того, де встановлено поріг.

Конкретніше кажучи, класифікатор спаму з AUC 1.0 завжди призначає випадковому спам-листу вищу ймовірність того, що це спам, ніж випадковий легітимний лист. Фактична класифікація кожного листа залежить від обраного вами порогу.
Для бінарного класифікатора модель, яка виконує випадкові вгадування або підкидання монети так само добре, має ROC, що являє собою діагональну лінію від (0,0) до (1,1). AUC дорівнює 0,5, що представляє 50% ймовірність правильного ранжування випадкового позитивного та негативного прикладу.
У прикладі класифікатора спаму, класифікатор спаму з AUC 0,5 призначає випадковому спам-листу вищу ймовірність того, що він є спамом, ніж випадковому легітимному листу лише в половині випадків.

AUC та ROC для вибору моделі та порогу
AUC (площа під кривою) – корисний показник для порівняння продуктивності двох різних моделей, за умови, що набір даних приблизно збалансований. Модель з більшою площею під кривою, як правило, є кращою.


Точки на ROC-кривій, найближчі до (0,1), представляють діапазон найкращих порогових значень для заданої моделі. Як обговорювалося в розділах "Порогові значення" , "Матриця плутанини" та "Вибір метрики та компромісів" , обраний вами поріг залежить від того, яка метрика є найважливішою для конкретного випадку використання. Розглянемо точки A, B та C на наступній діаграмі, кожна з яких представляє поріг:

Якщо хибнопозитивні результати (хибні тривоги) є дуже дорогими, може бути доцільним обрати поріг, який дає нижчий FPR, як-от у точці A, навіть якщо TPR зменшується. І навпаки, якщо хибнопозитивні результати є дешевими, а хибнонегативні (пропущені істинні спрацьовування) дуже дорогими, поріг для точки C, який максимізує TPR, може бути кращим. Якщо витрати приблизно еквівалентні, точка B може запропонувати найкращий баланс між TPR та FPR.
Ось ROC-крива для даних, які ми бачили раніше:
Вправа: Перевірте своє розуміння








Уявіть собі ситуацію, коли краще дозволити деякій кількості спаму потрапляти до папки "Вхідні", ніж надсилати критично важливий для бізнесу електронний лист до папки "Спам". Ви навчили класифікатор спаму для цієї ситуації, де позитивний клас – це спам, а негативний – не спам. Яка з наступних точок на ROC-кривій для вашого класифікатора є кращою?

