참양성, 거짓양성, 참음성, 거짓음성은 모델을 평가하는 데 유용한 여러 측정항목을 계산하는 데 사용됩니다. 가장 의미 있는 평가 측정항목은 특정 모델과 특정 태스크, 다양한 오분류의 비용, 데이터 세트의 균형 여부에 따라 다릅니다.
이 섹션의 모든 측정항목은 단일 고정 기준점에서 계산되며 기준점이 변경되면 변경됩니다. 사용자는 이러한 측정항목 중 하나를 최적화하기 위해 기준을 조정하는 경우가 매우 많습니다.
정확성
정확성은 양성이든 음성이든 모든 분류의 정확성입니다. 수학적으로는 다음과 같이 정의됩니다.
\[\text{Accuracy} = \frac{\text{correct classifications}}{\text{total classifications}} = \frac{TP+TN}{TP+TN+FP+FN}\]
스팸 분류 예시에서 정확성은 올바르게 분류된 모든 이메일의 비율을 측정합니다.
완벽한 모델은 거짓양성과 거짓음성이 0이므로 정확성이 1.0(100%)입니다.
정확성은 혼동 행렬의 네 가지 결과(TP, FP, TN, FN)를 모두 통합하므로 두 클래스에 유사한 수의 예가 있는 균형 잡힌 데이터 세트를 고려할 때 모델 품질을 대략적으로 측정하는 데 사용할 수 있습니다. 따라서 일반적인 또는 지정되지 않은 태스크를 실행하는 일반적인 또는 지정되지 않은 모델에 사용되는 기본 평가 측정항목인 경우가 많습니다.
그러나 데이터 세트가 불균형하거나 한 가지 종류의 실수(FN 또는 FP)가 다른 것보다 비용이 더 많이 드는 경우(대부분의 실제 애플리케이션에서 그렇습니다) 다른 측정항목 중 하나에 맞게 최적화하는 것이 좋습니다.
한 클래스가 매우 드물게(예: 1%) 나타나는 심각하게 불균형한 데이터 세트의 경우 100% 음성으로 예측하는 모델은 무용함에도 불구하고 정확도 점수가 99%가 됩니다.
재현율 또는 참양성률
참양성률(TPR) 또는 양성으로 올바르게 분류된 모든 실제 양성의 비율은 재현율이라고도 합니다.
재현율은 수학적으로 다음과 같이 정의됩니다.
\[\text{Recall (or TPR)} = \frac{\text{correctly classified actual positives}}{\text{all actual positives}} = \frac{TP}{TP+FN}\]
거짓음성은 음성으로 잘못 분류된 실제 양성입니다. 따라서 거짓음성은 분모에 표시됩니다. 스팸 분류 예에서 재현율은 스팸으로 올바르게 분류된 스팸 이메일의 비율을 측정합니다. 이 때문에 재현율의 다른 이름은 감지 확률입니다. '이 모델에서 감지되는 스팸 이메일의 비율은 얼마인가요?'라는 질문에 답변하기 때문입니다.
완벽한 가상의 모델은 거짓음성이 0이므로 재현율 (TPR)이 1.0, 즉 감지율이 100% 입니다.
실제 양성 수가 매우 적은(예: 총 1~2개 예시) 불균형 데이터 세트에서는 재현율이 측정항목으로서 의미가 없고 덜 유용합니다.
거짓양성률
거짓양성률(FPR)은 양성으로 잘못 분류된 모든 실제 음성의 비율로, 거짓 경보 가능성이라고도 합니다. 이는 수학적으로 다음과 같이 정의됩니다.
\[\text{FPR} = \frac{\text{incorrectly classified actual negatives}} {\text{all actual negatives}} = \frac{FP}{FP+TN}\]
거짓양성은 잘못 분류된 실제 음성입니다. 이 때문에 거짓양성이 분모에 표시됩니다. 스팸 분류 예에서 FPR은 스팸으로 잘못 분류된 합법적인 이메일의 비율 또는 모델의 허위 경보 비율을 측정합니다.
완벽한 모델은 거짓양성이 0이므로 FPR이 0.0, 즉 거짓 경보율이 0% 입니다.
실제 음성 예시가 매우 적은(예: 총 1~2개) 불균형 데이터 세트에서는 FPR이 측정항목으로서 의미가 없고 유용하지 않습니다.
정밀도
정밀도는 실제로 양성인 모든 모델의 양성 분류의 비율입니다. 수학적으로는 다음과 같이 정의됩니다.
\[\text{Precision} = \frac{\text{correctly classified actual positives}} {\text{everything classified as positive}} = \frac{TP}{TP+FP}\]
스팸 분류 예에서 정밀도는 스팸으로 분류된 이메일 중 실제로 스팸인 비율을 측정합니다.
가상의 완벽한 모델은 거짓양성이 없으므로 정밀도가 1.0입니다.
실제 양성 수가 매우 적은(예: 총 1~2개) 불균형 데이터 세트에서는 정밀도가 측정항목으로서 의미가 없고 유용하지 않습니다.
거짓양성이 줄어들수록 정밀도가 개선되고 거짓음성이 줄어들수록 재현율이 개선됩니다. 그러나 이전 섹션에서 본 것처럼 분류 임곗값을 늘리면 거짓양성 수와 거짓음성 수가 증가하는 경향이 있는 반면 임곗값을 낮추면 반대의 효과가 나타납니다. 따라서 정밀도와 재현율은 종종 반비례 관계를 보이는데, 이 중 하나가 개선되면 다른 하나가 악화됩니다.
직접 사용해 보세요.
측정항목에서 NaN은 무엇을 의미하나요?
0으로 나눌 때 NaN('숫자가 아님')이 표시되며, 이는 이러한 측정항목에서 발생할 수 있습니다. 예를 들어 TP와 FP가 모두 0인 경우 정밀도 공식의 분모가 0이므로 NaN이 됩니다. 경우에 따라 NaN이 완벽한 성능을 나타내며 1.0의 점수로 대체될 수도 있지만 실질적으로 쓸모없는 모델에서 비롯될 수도 있습니다. 예를 들어 양성을 예측하지 않는 모델의 경우 TP와 FP가 0이므로 정밀도를 계산하면 NaN이 됩니다.
측정항목 선택 및 절충점
모델을 평가하고 임곗값을 선택할 때 우선순위를 두는 측정항목은 특정 문제의 비용, 이점, 위험에 따라 다릅니다. 스팸 분류 예시에서는 재현율을 우선시하거나, 스팸 이메일을 모두 제거하거나, 정밀도를 높여 스팸 라벨이 지정된 이메일이 실제로 스팸인지, 혹은 둘의 균형을 일정 수준 이상의 최소 정확도 수준보다 높게 유지하는 것이 합리적일 때가 많습니다.
측정항목 | 안내 |
---|---|
정확성 | 균형 있는 데이터 세트의 모델 학습 진행 상황/수렴을 나타내는 대략적인 지표로 사용합니다. 모델 실적의 경우 다른 측정항목과 함께만 사용하세요. 불균형한 데이터 세트의 경우 피하세요. 다른 측정항목을 사용해 보세요. |
재현율 (참양성률) |
거짓음성이 거짓양성보다 비용이 많이 드는 경우에 사용합니다. |
거짓양성률 | 거짓양성이 거짓음성보다 비용이 더 많이 드는 경우에 사용합니다. |
정밀도 | 양성 예측의 정확성이 매우 중요한 경우에 사용합니다. |
(선택사항, 고급) F1 점수
F1 점수는 정밀도와 재현율의 조화 평균(일종의 평균)입니다.
수학적으로는 다음과 같이 주어집니다.
이 측정항목은 정밀도와 재현율의 중요성을 조정하며, 클래스 불균형 데이터 세트의 경우 정확도보다 유용합니다. 정밀도와 재현율이 모두 1.0이면 F1의 완벽한 점수는 1.0입니다. 더 광범위하게는 정밀도와 재현율의 값이 비슷하면 F1도 그 값에 가까워집니다. 정밀도와 재현율이 서로 멀리 떨어져 있으면 F1은 두 측정항목 중 더 나쁜 측정항목과 유사합니다.