Классификация: проверьте свое понимание (ROC и AUC)

ОКР и АУК

Изучите варианты ниже.

Какая из следующих ROC-кривых дает значения AUC больше 0,5?
Кривая ROC с вертикальной линией, идущей от (0,0) до (0,1), и горизонтальной от (0,1) до (1,1). Ставка TP равна 1,0 для всех ставок FP.

Это наилучшая из возможных кривая ROC, поскольку она ставит все положительные стороны выше всех отрицательных. Он имеет AUC 1,0.

На практике, если у вас есть «идеальный» классификатор с AUC, равным 1,0, вы должны быть подозрительны, так как это, вероятно, указывает на ошибку в вашей модели. Например, у вас может быть превышение ваших обучающих данных, или данные метки могут быть реплицированы в одной из ваших функций.

Кривая ROC с горизонтальной линией от (0,0) до (1,0) и вертикальной линией от (1,0) до (1,1). Ставка FP равна 1,0 для всех ставок TP.
Это наихудшая кривая ROC из возможных; он ставит все негативы выше всех позитивов и имеет AUC 0,0. Если бы вы перевернули каждый прогноз (перевернули негативы на позитивы и позитивы на негативы), у вас действительно был бы идеальный классификатор!
Кривая ROC с одной диагональной линией, идущей от (0,0) до (1,1). Показатели TP и FP увеличиваются линейно с одинаковой скоростью.
Эта ROC-кривая имеет AUC 0,5, что означает, что случайный положительный пример оценивается выше, чем случайный отрицательный пример в 50% случаев. Таким образом, соответствующая классификационная модель в основном бесполезна, поскольку ее предсказательная способность не лучше, чем случайное угадывание.
Кривая ROC, которая идет дугой вверх и вправо от (0,0) до (1,1). Скорость TP увеличивается быстрее, чем скорость FP.
Эта кривая ROC имеет AUC от 0,5 до 1,0, что означает, что случайный положительный пример оценивается выше, чем случайный отрицательный пример более чем в 50% случаев. Значения AUC реальной бинарной классификации обычно попадают в этот диапазон.
Кривая ROC, которая идет вправо и вверх от (0,0) до (1,1). Скорость FP увеличивается быстрее, чем скорость TP.
Эта кривая ROC имеет AUC от 0 до 0,5, что означает, что случайный положительный пример оценивается выше, чем случайный отрицательный пример менее чем в 50% случаев. Соответствующая модель на самом деле работает хуже, чем случайное угадывание! Если вы видите такую ​​кривую ROC, это, вероятно, указывает на наличие ошибки в ваших данных.

Прогнозы AUC и масштабирования

Изучите варианты ниже.

Как умножение всех прогнозов данной модели на 2,0 (например, если модель прогнозирует 0,4, мы умножаем на 2,0, чтобы получить прогноз 0,8) изменит производительность модели, измеряемую AUC?
Без изменений. AUC заботится только об относительных оценках прогноза.
Да, AUC основан на относительных прогнозах, поэтому любое преобразование прогнозов, сохраняющее относительный рейтинг, не влияет на AUC. Это явно не относится к другим показателям, таким как квадрат ошибки, логарифмическая потеря или смещение прогноза (обсуждается позже).
Это сделало бы AUC ужасным, так как значения прогноза теперь далеко неверны.
Интересно, что даже несмотря на то, что значения прогноза разные (и, вероятно, дальше от истины), умножение их всех на 2,0 сохранит относительный порядок значений прогноза одинаковым. Поскольку AUC заботится только об относительных рейтингах, на него не влияет простое масштабирование прогнозов.
Это сделало бы AUC лучше, потому что все значения прогноза находятся дальше друг от друга.
Величина разброса между прогнозами на самом деле не влияет на AUC. Даже оценка прогноза для случайно нарисованного истинного положительного результата всего на крошечный эпсилон больше, чем случайно нарисованный отрицательный результат, который будет считаться успехом, вносящим свой вклад в общую оценку AUC.