Истинные и ложные положительные и отрицательные результаты используются для расчета нескольких полезных показателей для оценки моделей. Какие метрики оценки являются наиболее значимыми, зависит от конкретной модели и конкретной задачи, стоимости различных неправильных классификаций и того, является ли набор данных сбалансированным или несбалансированным.
Все показатели в этом разделе рассчитываются по одному фиксированному порогу и изменяются при изменении порога. Очень часто пользователь настраивает порог, чтобы оптимизировать одну из этих метрик.
Точность
Точность — это доля всех классификаций, которые были правильными, как положительными, так и отрицательными. Математически это определяется как:
\[\text{Accuracy} = \frac{\text{correct classifications}}{\text{total classifications}} = \frac{TP+TN}{TP+TN+FP+FN}\]
В примере с классификацией спама точность измеряет долю всех правильно классифицированных писем.
Идеальная модель должна иметь ноль ложноположительных и ложноотрицательных результатов и, следовательно, точность 1,0 или 100%.
Поскольку он включает в себя все четыре результата матрицы путаницы (TP, FP, TN, FN), при наличии сбалансированного набора данных с одинаковым количеством примеров в обоих классах точность может служить грубой мерой качества модели. По этой причине это часто метрика оценки по умолчанию, используемая для общих или неопределенных моделей, выполняющих общие или неопределенные задачи.
Однако, когда набор данных несбалансирован или ошибка одного типа (FN или FP) обходится дороже, чем другая, что имеет место в большинстве реальных приложений, лучше вместо этого оптимизировать один из других показателей.
Для сильно несбалансированных наборов данных, где один класс появляется очень редко, скажем, в 1% случаев, модель, которая предсказывает отрицательное значение в 100% случаев, получит 99% точности, несмотря на свою бесполезность.
Напомним, или истинно положительный показатель
Истинно положительный уровень (TPR) или доля всех фактических положительных результатов, которые были правильно классифицированы как положительные, также известен как отзыв .
Напомним математически определяется как:
\[\text{Recall (or TPR)} = \frac{\text{correctly classified actual positives}}{\text{all actual positives}} = \frac{TP}{TP+FN}\]
Ложноотрицательные результаты — это фактически положительные результаты, которые были ошибочно классифицированы как отрицательные, поэтому они появляются в знаменателе. В примере с классификацией спама отзыв измеряет долю спам-сообщений, которые были правильно классифицированы как спам. Вот почему другое название отзыва — вероятность обнаружения : оно отвечает на вопрос: «Какая доля спам-сообщений обнаруживается этой моделью?»
Гипотетическая идеальная модель будет иметь ноль ложноотрицательных результатов и, следовательно, показатель отзыва (TPR) будет равен 1,0, то есть 100% уровень обнаружения.
В несбалансированном наборе данных, где количество фактических положительных результатов очень и очень низкое, скажем, всего 1-2 примера, отзыв менее значим и менее полезен в качестве показателя.
Ложноположительный показатель
Уровень ложных срабатываний (FPR) — это доля всех фактических отрицательных результатов, которые были ошибочно классифицированы как положительные, также известная как вероятность ложной тревоги. Математически это определяется как:
\[\text{FPR} = \frac{\text{incorrectly classified actual negatives}} {\text{all actual negatives}} = \frac{FP}{FP+TN}\]
Ложноположительные результаты — это фактически отрицательные результаты, которые были неправильно классифицированы, поэтому они появляются в знаменателе. В примере с классификацией спама FPR измеряет долю законных электронных писем, которые были ошибочно классифицированы как спам, или уровень ложных срабатываний модели.
Идеальная модель должна иметь ноль ложных срабатываний и, следовательно, FPR 0,0, то есть уровень ложных тревог 0%.
В несбалансированном наборе данных, где количество фактических негативов очень и очень мало, скажем, всего 1-2 примера, FPR менее значим и менее полезен в качестве показателя.
Точность
Точность — это доля всех положительных классификаций модели, которые на самом деле являются положительными. Математически это определяется как:
\[\text{Precision} = \frac{\text{correctly classified actual positives}} {\text{everything classified as positive}} = \frac{TP}{TP+FP}\]
В примере с классификацией спама точность измеряет долю писем, классифицированных как спам, которые на самом деле были спамом.
Гипотетическая идеальная модель не будет иметь ложных срабатываний и, следовательно, будет иметь точность 1,0.
В несбалансированном наборе данных, где количество фактических положительных результатов очень и очень низкое, скажем, всего 1-2 примера, точность менее значима и менее полезна в качестве показателя.
Точность повышается по мере уменьшения ложноположительных результатов, а полнота улучшается по мере уменьшения ложноотрицательных результатов. Но, как видно из предыдущего раздела, увеличение порога классификации имеет тенденцию уменьшать количество ложноположительных результатов и увеличивать количество ложноотрицательных результатов, тогда как уменьшение порога имеет противоположный эффект. В результате точность и отзыв часто демонстрируют обратную зависимость, когда улучшение одного из них ухудшает другое.
Попробуйте сами:
Что означает NaN в метрике?
NaN, или «не число», появляется при делении на 0, что может произойти с любой из этих метрик. Например, если TP и FP равны 0, формула точности имеет 0 в знаменателе, что приводит к NaN. Хотя в некоторых случаях NaN может указывать на идеальную производительность и может быть заменен оценкой 1,0, он также может исходить из модели, которая практически бесполезна. Например, модель, которая никогда не предсказывает положительный результат, будет иметь 0 TP и 0 FP, и, следовательно, расчет ее точности приведет к результату NaN.
Выбор метрики и компромиссы
Метрики, которые вы выбираете в качестве приоритета при оценке модели и выборе порогового значения, зависят от затрат, выгод и рисков конкретной проблемы. В примере с классификацией спама часто имеет смысл отдать приоритет отзыву, перехвату всех спам-сообщений или точности, пытаясь гарантировать, что электронные письма, помеченные как спам, на самом деле являются спамом или неким балансом между этими двумя, выше некоторого минимального уровня точности.
Метрика | Руководство |
---|---|
Точность | Используйте в качестве грубого индикатора прогресса/сходимости обучения модели для сбалансированных наборов данных. Для оценки эффективности модели используйте только в сочетании с другими показателями. Избегайте несбалансированных наборов данных. Рассмотрите возможность использования другой метрики. |
Отзывать (Истинно положительный показатель) | Используйте, когда ложноотрицательные результаты стоят дороже, чем ложноположительные. |
Ложноположительный показатель | Используйте, когда ложноположительные результаты обходятся дороже, чем ложноотрицательные. |
Точность | Используйте, когда очень важно, чтобы положительные прогнозы были точными. |
(Необязательно, дополнительно) Оценка F1
Показатель F1 — это среднее гармоническое (своего рода среднее) точности и полноты.
Математически это определяется следующим образом:
Эта метрика уравновешивает важность точности и полноты и предпочтительнее точности для наборов данных, несбалансированных по классам. Если точность и отзыв имеют высший балл 1,0, F1 также будет иметь высший балл 1,0. В более широком смысле, когда точность и полнота близки по значению, F1 будет близок к их значению. Когда точность и полнота сильно различаются, F1 будет аналогичен тому показателю, который хуже.