분류: 학습 내용 점검하기 (ROC 및 AUC)

ROC 및 AUC

아래 옵션을 살펴보세요.

다음 ROC 곡선 중 0.5보다 큰 AUC 값을 산출하는 곡선은 무엇인가요?
(0,0)에서 (0,1)까지 연결되는 수직선과 (0,1)에서 (1,1)까지 연결되는 수평선이 있는 ROC 곡선입니다. TP 비율은 모든 FP 비율에 대해 1.0입니다.

이 방법은 모든 양성 예측이 모든 음성 예측보다 상위에 오므로 가장 적합한 ROC 곡선입니다. AUC는 1.0입니다.

실제로 AUC가 1.0인 '완벽' 분류자가 있는 경우 모델에 버그가 있다는 의미일 수 있으므로 의심해 봐야 합니다. 예를 들어, 학습 데이터에 과적합이 있거나 라벨 데이터가 특성 중 하나에 복제되었을 수 있습니다.

(0,0)에서 (1,0)까지 연결되는 수평선과 (1,0)에서 (1,1)까지 연결되는 수직선이 있는 ROC 곡선입니다. FP 비율은 모든 TP 비율에 대해 1.0입니다.
이는 최악의 ROC 곡선입니다. 모든 양성 예측은 모든 양성보다 높은데, AUC는 0.0입니다. 모든 예측을 역방향으로 진행하면 (음성을 양성으로, 양성은 음성으로) 완벽한 분류기를 갖게 됩니다.
(0,0)에서 (1,1)까지 이어지는 대각선 하나가 있는 ROC 곡선입니다. TP 및 FP 비율이 동일한 속도로 선형으로 증가합니다.
이 ROC 곡선의 AUC는 0.5입니다. 즉, 무작위 양성 예시가 임의 음성 예시보다 50% 더 높은 순위가 매겨집니다. 따라서 예측 기능이 무작위 추측보다 낫지 않기 때문에 해당하는 분류 모델은 기본적으로 가치가 없습니다.
(0,0)에서 (1,1)까지 위에서 위로 원호를 그리는 ROC 곡선입니다. TP 속도는 FP 비율보다 빠르게 증가합니다.
이 ROC 곡선의 AUC는 0.5~1.0입니다. 즉, 임의의 양성 예시보다 무작위 양성 예시가 50% 이상 높은 순위입니다. 실제 바이너리 분류 AUC 값은 일반적으로 이 범위에 속합니다.
(0,0)에서 (1,1)까지 좌우로 원호를 그리는 ROC 곡선입니다. FP 속도가 TP 비율보다 빠른 속도로 증가합니다.
이 ROC 곡선의 AUC는 0~0.5입니다. 즉, 임의 양성 예시가 임의 음성 예제보다 50% 미만인 경우 순위가 더 높습니다. 해당 모델은 무작위 추측보다 성능이 떨어집니다. 이와 같은 ROC 곡선이 표시된다면 데이터에 버그가 있는 것일 수 있습니다.

AUC 및 예측 확장

아래 옵션을 살펴보세요.

주어진 모델의 모든 예측에 2.0을 곱하면 (예: 모델이 0.4를 예측하는 경우 예측에 0.8을 얻기 위해 2.0을 곱함) AUC로 측정한 모델의 성능이 어떻게 변경되나요?
변경사항 없음. AUC는 상대적 예측 점수에만 관심이 있습니다.
예. AUC는 상대적 예측을 기반으로 하므로 상대적 순위를 유지하는 예측의 변환은 AUC에 영향을 미치지 않습니다. 제곱 오차, 로그 손실, 예측 편향 (나중에 설명) 등 다른 측정항목도 마찬가지입니다.
이제 AUC가 떨어집니다. 예측값이 상당히 떨어졌기 때문입니다.
흥미롭게도 예측 값이 다르더라도 (진실과 멀을 가능성 있음) 모두 2.0을 곱하면 예측 값의 상대적 순서가 동일하게 유지됩니다. AUC는 상대적인 순위에만 관심이 있기 때문에 단순한 예측 확장의 영향을 받지 않습니다.
이렇게 하면 AUC를 개선하는 데 도움이 됩니다. 예측값이 모두 더 멀리 있기 때문입니다.
예측 간 확산량은 실제로 AUC에 영향을 미치지 않습니다. 무작위로 참양성된 참양성에 대한 예측 점수도 무작위로 그린 음성보다 훨씬 작은 epsilon이며, 전체 AUC 점수에 기여하는 성공으로 간주됩니다.