Классификация: точность, полнота, прецизионность и соответствующие показатели.

Истинные и ложные положительные и отрицательные результаты используются для расчета нескольких полезных показателей для оценки моделей. Какие метрики оценки являются наиболее значимыми, зависит от конкретной модели и конкретной задачи, стоимости различных неправильных классификаций и того, является ли набор данных сбалансированным или несбалансированным.

Все показатели в этом разделе рассчитываются по одному фиксированному порогу и изменяются при изменении порога. Очень часто пользователь настраивает порог, чтобы оптимизировать одну из этих метрик.

Точность

Точность — это доля всех классификаций, которые были правильными, как положительными, так и отрицательными. Математически это определяется как:

\[\text{Accuracy} = \frac{\text{correct classifications}}{\text{total classifications}} = \frac{TP+TN}{TP+TN+FP+FN}\]

В примере с классификацией спама точность измеряет долю всех правильно классифицированных электронных писем.

Идеальная модель должна иметь ноль ложноположительных и ложноотрицательных результатов и, следовательно, точность 1,0 или 100%.

Поскольку он включает в себя все четыре результата матрицы путаницы (TP, FP, TN, FN), при наличии сбалансированного набора данных с одинаковым количеством примеров в обоих классах точность может служить грубой мерой качества модели. По этой причине это часто метрика оценки по умолчанию, используемая для общих или неопределенных моделей, выполняющих общие или неопределенные задачи.

Однако, когда набор данных несбалансирован или ошибка одного типа (FN или FP) обходится дороже, чем другая, что имеет место в большинстве реальных приложений, лучше вместо этого оптимизировать один из других показателей.

Для сильно несбалансированных наборов данных, где один класс появляется очень редко, скажем, в 1% случаев, модель, которая предсказывает отрицательное значение в 100% случаев, получит 99% точности, несмотря на свою бесполезность.

Напомним, или истинно положительный показатель

Истинно положительный уровень (TPR) или доля всех фактических положительных результатов, которые были правильно классифицированы как положительные, также известен как отзыв .

Напомним математически определяется как:

\[\text{Recall (or TPR)} = \frac{\text{correctly classified actual positives}}{\text{all actual positives}} = \frac{TP}{TP+FN}\]

Ложноотрицательные результаты — это фактически положительные результаты, которые были ошибочно классифицированы как отрицательные, поэтому они появляются в знаменателе. В примере с классификацией спама отзыв измеряет долю спам-сообщений, которые были правильно классифицированы как спам. Вот почему другое название отзыва — вероятность обнаружения : оно отвечает на вопрос: «Какая доля спам-сообщений обнаруживается этой моделью?»

Гипотетическая идеальная модель будет иметь ноль ложноотрицательных результатов и, следовательно, показатель отзыва (TPR) будет равен 1,0, то есть 100% уровень обнаружения.

В несбалансированном наборе данных, где количество фактических положительных результатов очень и очень низкое, скажем, всего 1-2 примера, отзыв менее значим и менее полезен в качестве показателя.

Ложноположительный показатель

Уровень ложных срабатываний (FPR) — это доля всех фактических отрицательных результатов, которые были ошибочно классифицированы как положительные, также известная как вероятность ложной тревоги. Математически это определяется как:

\[\text{FPR} = \frac{\text{incorrectly classified actual negatives}} {\text{all actual negatives}} = \frac{FP}{FP+TN}\]

Ложноположительные результаты — это фактически отрицательные результаты, которые были неправильно классифицированы, поэтому они появляются в знаменателе. В примере с классификацией спама FPR измеряет долю законных электронных писем, которые были ошибочно классифицированы как спам, или уровень ложных срабатываний модели.

Идеальная модель должна иметь ноль ложных срабатываний и, следовательно, FPR 0,0, то есть уровень ложных тревог 0%.

В несбалансированном наборе данных, где количество фактических негативов очень и очень мало, скажем, всего 1-2 примера, FPR менее значим и менее полезен в качестве показателя.

Точность

Точность — это доля всех положительных классификаций модели, которые на самом деле являются положительными. Математически это определяется как:

\[\text{Precision} = \frac{\text{correctly classified actual positives}} {\text{everything classified as positive}} = \frac{TP}{TP+FP}\]

В примере с классификацией спама точность измеряет долю писем, классифицированных как спам, которые на самом деле были спамом.

Гипотетическая идеальная модель не будет иметь ложных срабатываний и, следовательно, будет иметь точность 1,0.

В несбалансированном наборе данных, где количество фактических положительных результатов очень и очень низкое, скажем, всего 1-2 примера, точность менее значима и менее полезна в качестве показателя.

Точность повышается по мере уменьшения ложноположительных результатов, а полнота улучшается по мере уменьшения ложноотрицательных результатов. Но, как видно из предыдущего раздела, увеличение порога классификации имеет тенденцию уменьшать количество ложноположительных результатов и увеличивать количество ложноотрицательных результатов, тогда как уменьшение порога имеет противоположный эффект. В результате точность и отзыв часто демонстрируют обратную зависимость, когда улучшение одного из них ухудшает другое.

Выбор метрики и компромиссы

Метрики, которые вы выбираете в качестве приоритета при оценке модели и выборе порогового значения, зависят от затрат, выгод и рисков конкретной проблемы. В примере с классификацией спама часто имеет смысл отдать приоритет отзыву, захвату всех спам-писем или точности, пытаясь гарантировать, что электронные письма, помеченные как спам, на самом деле являются спамом или неким балансом между этими двумя, выше некоторого минимального уровня точности.

Метрика Руководство
Точность

Используйте в качестве грубого индикатора прогресса/сходимости обучения модели для сбалансированных наборов данных.

Для оценки эффективности модели используйте только в сочетании с другими показателями.

Избегайте несбалансированных наборов данных. Рассмотрите возможность использования другой метрики.

Отзывать
(Истинно положительный показатель)
Используйте, когда ложноотрицательные результаты стоят дороже, чем ложноположительные.
Ложноположительный показатель Используйте, когда ложноположительные результаты обходятся дороже, чем ложноотрицательные.
Точность Используйте, когда очень важно, чтобы положительные прогнозы были точными.

(Необязательно, дополнительно) Оценка F1

Показатель F1 — это среднее гармоническое (своего рода среднее) точности и полноты.

Математически это определяется следующим образом:

\[\text{F1}=2*\frac{\text{precision * recall}}{\text{precision + recall}} = \frac{2\text{TP}}{2\text{TP + FP + FN}}\]

Эта метрика уравновешивает важность точности и полноты и предпочтительнее точности для наборов данных, несбалансированных по классам. Когда точность и отзыв имеют высший балл 1,0, F1 также будет иметь высший балл 1,0. В более широком смысле, когда точность и полнота близки по значению, F1 будет близок к их значению. Когда точность и полнота сильно различаются, F1 будет аналогичен тому показателю, который хуже.

Упражнение: Проверьте свое понимание.

Модель выводит 5 TP, 6 TN, 3 FP и 2 FN. Рассчитайте отзыв.
0,714
Отзыв рассчитывается как [\frac{TP}{TP+FN}=\frac{5}{7}].
0,455
Напомним, учитываются все реальные положительные моменты, а не все правильные классификации. Формула отзыва: [\frac{TP}{TP+FN}].
0,625
Напомним, учитываются все фактические положительные моменты, а не все положительные классификации. Формула отзыва: [\frac{TP}{TP+FN}]
Модель выводит 3 TP, 4 TN, 2 FP и 1 FN. Рассчитайте точность.
0,6
Точность рассчитывается как [\frac{TP}{TP+FP}=\frac{3}{5}].
0,75
Точность учитывает все положительные классификации, а не все реальные положительные. Формула точности: [\frac{TP}{TP+FP}].
0,429
Точность учитывает все положительные классификации, а не все правильные классификации. Формула точности: [\frac{TP}{TP+FP}]
Вы создаете бинарный классификатор, который проверяет фотографии ловушек для насекомых на наличие опасных инвазивных видов. Если модель обнаруживает вид, дежурный энтомолог (научный специалист по насекомым) уведомляется об этом. Раннее обнаружение этого насекомого имеет решающее значение для предотвращения заражения. С ложной тревогой (ложным срабатыванием) справиться легко: энтомолог видит, что фотография была неправильно классифицирована, и помечает ее как таковую. Предполагая приемлемый уровень точности, для какого показателя следует оптимизировать эту модель?
Отзывать
В этом сценарии ложные тревоги (FP) обходятся недорого, а ложноотрицательные результаты обходятся очень дорого, поэтому имеет смысл максимизировать отзыв или вероятность обнаружения.
Уровень ложноположительных результатов (FPR)
В этом сценарии ложные тревоги (FP) обходятся недорого. Попытка свести их к минимуму с риском упустить реальные положительные моменты не имеет смысла.
Точность
В этом сценарии ложные срабатывания (ЛТ) не представляют особого вреда, поэтому пытаться повысить корректность положительных классификаций не имеет смысла.