분류: 정밀도와 재현율

정밀도

정밀도는 다음 질문에 답하고자 합니다.

양성으로 식별된 사례 중 실제로 양성이었던 사례의 비율은 어느 정도인가요?

정밀도는 다음과 같이 정의됩니다.

$$\text{Precision} = \frac{TP}{TP+FP}$$

이전 섹션에서 종양을 분석하는 ML 모델의 정밀도를 계산해 보겠습니다.

참양성 (TP): 1 거짓양성 (FP): 1
거짓음성 (FN): 8 참음성 (TN): 90
$$\text{Precision} = \frac{TP}{TP+FP} = \frac{1}{1+1} = 0.5$$

모델의 정밀도는 0.5입니다. 즉, 이 종양이 악성일 가능성이 있다고 예측하면 예측 정확도가 50% 입니다.

재현율

재현율은 다음 질문에 답하고자 합니다.

실제 양성 중 정확히 양성이라고 식별된 사례의 비율은 어느 정도인가요?

수학적으로 재현율은 다음과 같이 정의됩니다.

$$\text{Recall} = \frac{TP}{TP+FN}$$

종양 분류기에 대한 재현율을 계산해 보세요.

참양성 (TP): 1 거짓양성 (FP): 1
거짓음성 (FN): 8 참음성 (TN): 90
$$\text{Recall} = \frac{TP}{TP+FN} = \frac{1}{1+8} = 0.11$$

모델의 재현율은 0.11입니다. 다시 말해, 모든 악성 종양의 11% 를 올바르게 식별합니다.

정밀도 및 재현율: 줄다리기

모델의 효과를 완전히 평가하려면 정밀도와 재현율을 모두 검사해야 합니다. 안타깝게도 정밀도와 재현율은 긴장 관계를 자주 일으킵니다. 즉, 정밀도를 높이면 일반적으로 재현율이 감소하며 그 반대의 경우도 마찬가지입니다. 이메일 분류 모델에서 수행한 30개의 예측을 보여주는 다음 그림에서 이 개념을 살펴봅니다. 분류 임곗값 오른쪽에 있는 메일은 '스팸'으로 분류되고, 왼쪽은 '스팸 아님'으로 분류됩니다.

30개의 예시가 배치된 0~1.0 사이의 숫자 선입니다.

그림 1. 이메일 메시지를 스팸 또는 스팸 아님으로 분류하기

그림 1에 표시된 결과를 바탕으로 정밀도와 재현율을 계산해 보겠습니다.

참양성 (TP): 8 거짓양성 (FP): 2
거짓음성 (FN): 3 참음성 (TN): 17

정밀도는 정확하게 분류된 스팸으로 신고된 이메일의 비율, 즉 그림 1에서 녹색으로 표시된 임계값 선 오른쪽에 있는 점의 비율을 측정합니다.

$$\text{Precision} = \frac{TP}{TP + FP} = \frac{8}{8+2} = 0.8$$

재현율은 정확하게 분류된 실제 스팸 이메일의 비율, 즉 그림 1에서 기준선 오른쪽에 있는 초록색 점의 비율을 측정합니다.

$$\text{Recall} = \frac{TP}{TP + FN} = \frac{8}{8 + 3} = 0.73$$

그림 2는 분류 임곗값을 높이는 효과를 보여줍니다.

동일한 예이지만 분류 임계값이 약간 증가했습니다. 예시 30개 중 2개가 재분류되었습니다.

그림 2. 분류 임곗값 증가

거짓양성의 수는 감소하지만 거짓음성의 수는 증가합니다. 따라서 정밀도는 높아지고 재현율은 낮아집니다.

참양성 (TP): 7 거짓양성 (FP): 1
거짓음성 (FN): 4 참음성 (TN): 18
$$\text{Precision} = \frac{TP}{TP + FP} = \frac{7}{7+1} = 0.88$$ $$\text{Recall} = \frac{TP}{TP + FN} = \frac{7}{7 + 4} = 0.64$$

반대로 그림 3은 그림 1의 원래 위치에서 분류 임계값을 줄이는 효과를 보여줍니다.

동일한 예시이지만 분류 임곗값이 감소함

그림 3. 분류 임곗값 감소

거짓양성이 증가하고 거짓음성이 감소합니다. 따라서 이번에는 정밀도가 감소하고 재현율이 높아집니다.

참양성 (TP): 9 거짓양성 (FP): 3
거짓음성 (FN): 2 참음성 (TN): 16
$$\text{Precision} = \frac{TP}{TP + FP} = \frac{9}{9+3} = 0.75$$ $$\text{Recall} = \frac{TP}{TP + FN} = \frac{9}{9 + 2} = 0.82$$

정밀도와 재현율을 모두 사용하는 여러 측정항목이 개발되었습니다. F1 점수를 참고하세요.