분류: 정확성, 재현율, 정밀도, 관련 측정항목

참양성, 거짓양성, 참음성, 거짓음성은 모델을 평가하는 데 유용한 여러 측정항목을 계산하는 데 사용됩니다. 가장 의미 있는 평가 측정항목은 특정 모델과 특정 작업, 다양한 잘못된 분류의 비용, 데이터 세트의 균형 여부에 따라 달라집니다.

이 섹션의 모든 측정항목은 단일 고정 기준에서 계산되며 기준이 변경되면 변경됩니다. 사용자는 이러한 측정항목 중 하나를 최적화하기 위해 기준점을 조정하는 경우가 많습니다.

정확성

정확도는 양성인지 음성인지에 관계없이 올바른 분류의 비율입니다. 수학적으로 다음과 같이 정의됩니다.

\[\text{Accuracy} = \frac{\text{correct classifications}}{\text{total classifications}} = \frac{TP+TN}{TP+TN+FP+FN}\]

스팸 분류 예에서 정확도는 올바르게 분류된 모든 이메일의 비율을 측정합니다.

완벽한 모델은 거짓양성과 거짓음성이 0이므로 정확도는 1.0 또는 100%입니다.

혼동 행렬(TP, FP, TN, FN)의 네 가지 결과를 모두 통합하므로 균형 잡힌 데이터 세트가 주어지고 두 클래스의 예시 수가 비슷한 경우 정확도는 모델 품질의 대략적인 측정으로 사용될 수 있습니다. 이러한 이유로 일반적이거나 지정되지 않은 작업을 수행하는 일반적이거나 지정되지 않은 모델에 사용되는 기본 평가 측정항목인 경우가 많습니다.

하지만 데이터 세트가 불균형하거나 한 종류의 실수(FN 또는 FP)가 다른 실수보다 비용이 더 많이 드는 경우(대부분의 실제 애플리케이션에서 해당) 다른 측정항목 중 하나를 최적화하는 것이 좋습니다.

한 클래스가 매우 드물게(예: 1% 의 시간) 표시되는 심각하게 불균형한 데이터 세트의 경우 음성을 100% 예측하는 모델은 유용하지 않음에도 불구하고 정확도에서 99% 를 기록합니다.

재현율 또는 참양성률

참양성률 (TPR), 즉 양성으로 올바르게 분류된 모든 실제 양성의 비율은 재현율이라고도 합니다.

재현율은 수학적으로 다음과 같이 정의됩니다.

\[\text{Recall (or TPR)} = \frac{\text{correctly classified actual positives}}{\text{all actual positives}} = \frac{TP}{TP+FN}\]

거짓음성은 음성으로 잘못 분류된 실제 양성이므로 분모에 표시됩니다. 스팸 분류 예에서 재현율은 스팸으로 올바르게 분류된 스팸 이메일의 비율을 측정합니다. 이러한 이유로 재현율의 다른 이름은 감지 확률입니다. '이 모델에서 감지한 스팸 이메일의 비율은 얼마인가요?'라는 질문에 답하기 때문입니다.

가상의 완벽한 모델에는 거짓음성이 없으므로 재현율 (TPR)이 1.0입니다. 즉, 감지율이 100% 입니다.

실제 양성 수치가 매우 낮은 불균형 데이터 세트에서는 모델이 모든 양성 인스턴스를 올바르게 식별하는 능력을 측정하므로 재현율이 정확도보다 더 의미 있는 측정항목입니다. 질병 예측과 같은 애플리케이션의 경우 양성 사례를 올바르게 식별하는 것이 중요합니다. 거짓음성은 일반적으로 거짓양성보다 더 심각한 결과를 초래합니다. 재현율과 정확도 측정항목을 비교하는 구체적인 예는 재현율 정의의 메모를 참고하세요.

거짓양성률

거짓양성률 (FPR)은 실제로 음성인 모든 항목 중 잘못 분류된 양성의 비율이며, 오경보 확률이라고도 합니다. 수학적으로 다음과 같이 정의됩니다.

\[\text{FPR} = \frac{\text{incorrectly classified actual negatives}} {\text{all actual negatives}} = \frac{FP}{FP+TN}\]

거짓양성은 잘못 분류된 실제 음성이므로 분모에 표시됩니다. 스팸 분류 예에서 FPR은 스팸으로 잘못 분류된 정상 이메일의 비율, 즉 모델의 잘못된 알림 비율을 측정합니다.

완벽한 모델은 거짓양성이 0이므로 FPR이 0.0입니다. 즉, 거짓 경보율이 0% 입니다.

불균형 데이터 세트의 경우 일반적으로 FPR이 정확도보다 더 유용한 측정항목입니다. 하지만 실제 음성 샘플의 수가 매우 적은 경우 FPR은 변동성이 크기 때문에 이상적인 선택이 아닐 수 있습니다. 예를 들어 데이터 세트에 실제 음성 샘플이 4개만 있는 경우 잘못 분류된 샘플이 하나 있으면 FPR이 25%가 되지만 잘못 분류된 샘플이 두 개 있으면 FPR이 50%로 급증합니다. 이러한 경우 정밀도 (다음에 설명)가 거짓양성의 영향을 평가하는 데 더 안정적인 측정항목일 수 있습니다.

정밀도

정밀도는 실제로 양성인 모델의 모든 양성 분류의 비율입니다. 수학적으로 다음과 같이 정의됩니다.

\[\text{Precision} = \frac{\text{correctly classified actual positives}} {\text{everything classified as positive}} = \frac{TP}{TP+FP}\]

스팸 분류 예에서 정밀도는 스팸으로 분류된 이메일 중 실제로 스팸인 이메일의 비율을 측정합니다.

가상의 완벽한 모델에는 거짓양성이 없으므로 정밀도는 1.0입니다.

실제 양성 수의 합계가 1~2개와 같이 매우 적은 불균형 데이터 세트에서는 정밀도가 측정항목으로서 의미가 적고 유용성이 떨어집니다.

거짓양성이 감소하면 정밀도가 향상되고 거짓음성이 감소하면 재현율이 향상됩니다. 하지만 이전 섹션에서 살펴본 것처럼 분류 기준점을 높이면 거짓양성 수가 감소하고 거짓음성 수가 증가하는 경향이 있으며, 기준점을 낮추면 그 반대의 효과가 나타납니다. 따라서 정밀도와 재현율은 종종 반비례 관계를 보여주며, 둘 중 하나를 개선하면 다른 하나가 악화됩니다.

직접 사용해 보세요.

측정항목에서 NaN은 무엇을 의미하나요?

NaN('숫자가 아님')은 0으로 나눌 때 표시되며, 이는 이러한 측정항목에서 발생할 수 있습니다. TP와 FP가 모두 0인 경우(예: 정밀도 공식의 분모가 0인 경우) NaN이 됩니다. 경우에 따라 NaN은 완벽한 성능을 나타내며 1.0 점수로 대체될 수 있지만, 사실상 쓸모없는 모델에서 나올 수도 있습니다. 예를 들어 항상 음성을 예측하는 모델의 경우 TP가 0이고 FP가 0이므로 정밀도 계산 결과가 NaN이 됩니다.

측정항목 선택 및 트레이드 오프

모델을 평가하고 기준점을 선택할 때 우선순위를 지정할 측정항목은 특정 문제의 비용, 이점, 위험에 따라 달라집니다. 스팸 분류 예에서는 모든 스팸 이메일을 포착하는 재현율이나 스팸 라벨이 지정된 이메일이 실제로 스팸인지 확인하는 정밀도 또는 이 두 가지의 균형을 최소 정확도 수준 이상으로 우선시하는 것이 타당한 경우가 많습니다.

측정항목	가이드
정확성	균형 잡힌 데이터 세트의 모델 학습 진행률/수렴의 대략적인 지표로 사용합니다. 모델 성능의 경우 다른 측정항목과 함께만 사용하세요. 불균형 데이터 세트에는 피하세요. 다른 측정항목을 사용해 보세요.
재현율 (참양성률)	거짓음성이 거짓양성보다 비용이 많이 드는 경우에 사용합니다.
거짓양성률	거짓양성이 거짓음성보다 비용이 많이 드는 경우에 사용합니다.
정밀도	긍정적 예측이 정확해야 하는 것이 매우 중요한 경우 사용합니다.

(선택사항, 고급) F1 점수

F1 점수는 정밀도와 재현율의 조화 평균 (일종의 평균)입니다.

수학적으로는 다음과 같이 표현됩니다.

\[\text{F1}=2*\frac{\text{precision * recall}}{\text{precision + recall}} = \frac{2\text{TP}}{2\text{TP + FP + FN}}\]

이 측정항목은 정밀도와 재현율의 중요성을 균형 있게 조정하며 클래스 불균형 데이터 세트의 정확도보다 선호됩니다. 정밀도와 재현율이 모두 1.0의 완벽한 점수를 갖는 경우 F1도 1.0의 완벽한 점수를 갖습니다. 일반적으로 정밀도와 재현율이 값에서 가까운 경우 F1은 해당 값에 가까워집니다. 정밀도와 재현율이 크게 차이 나는 경우 F1은 더 나쁜 측정항목과 유사합니다.

연습: 학습 내용 점검하기

모델에서 TP 5개, TN 6개, FP 3개, FN 2개가 출력됩니다. 재현율을 계산합니다.

0.714

리콜은 \(\frac{TP}{TP+FN}=\frac{5}{7}\)로 계산됩니다.

0.455

재현율은 모든 올바른 분류가 아닌 모든 실제 양성을 고려합니다. 재현율 공식은 \(\frac{TP}{TP+FN}\)입니다.

0.625

재현율은 모든 양성 분류가 아닌 모든 실제 양성을 고려합니다. 재현율 공식은 다음과 같습니다. \(\frac{TP}{TP+FN}\)

모델이 TP 3개, TN 4개, FP 2개, FN 1개를 출력합니다. 정밀도를 계산합니다.

0.6

정밀도는 \(\frac{TP}{TP+FP}=\frac{3}{5}\)로 계산됩니다.

0.75

정밀도는 모든 실제 양성이 아닌 모든 양성 분류를 고려합니다. 정밀도 공식은 \(\frac{TP}{TP+FP}\)입니다.

0.429

정밀도는 모든 올바른 분류가 아닌 모든 양성 분류를 고려합니다. 정밀도 공식은 다음과 같습니다. \(\frac{TP}{TP+FP}\)

위험한 외래종이 있는지 곤충 덫 사진을 확인하는 이진 분류기를 빌드합니다. 모델이 종을 감지하면 당직 곤충학자 (곤충 과학자)에게 알림이 전송됩니다. 이 곤충을 조기에 발견하는 것은 침입을 방지하는 데 매우 중요합니다. 오탐 (거짓양성)은 처리하기 쉽습니다. 곤충학자는 사진이 잘못 분류된 것을 확인하고 잘못 분류된 것으로 표시합니다. 허용 가능한 정확도 수준을 가정할 때 이 모델은 어떤 측정항목에 맞춰 최적화해야 할까요?

재현율

이 시나리오에서는 오경보 (FP)의 비용이 저렴하고 거짓음성의 비용이 매우 높으므로 재현율, 즉 감지 가능성을 최대화하는 것이 좋습니다.

거짓양성률 (FPR)

이 시나리오에서는 오탐 (FP)의 비용이 저렴합니다. 실제 양성을 놓칠 위험을 감수하면서 이를 최소화하려고 하는 것은 의미가 없습니다.

정밀도

이 시나리오에서는 오탐 (FP)이 특히 유해하지 않으므로 긍정 분류의 정확성을 개선하려고 하는 것은 의미가 없습니다.

임곗값 및 혼동 행렬 (12분)

ROC 및 AUC (10분)