참양성, 거짓양성, 음성은 몇 가지 유용한 계산을 위해 모델 평가를 위한 측정항목입니다 가장 많은 평가 측정항목 모델 및 작업, 비용에 따라 의미 있는 데이터 세트가 균형 잡힌 것인지 아니면 불균형입니다.
이 섹션의 모든 측정항목은 하나의 고정 임곗값에서 계산됩니다. 기준점이 변경되면 변경됩니다 사용자는 보통 임곗값을 설정하여 이러한 측정항목 중 하나를 최적화할 수 있습니다
정확성
정확성은 긍정적이든 부정적이든 정확하게 분류했습니다. 그것은 다음과 같이 수학적으로 정의됨:
\[\text{Accuracy} = \frac{\text{correct classifications}}{\text{total classifications}} = \frac{TP+TN}{TP+TN+FP+FN}\]
스팸 분류 예에서 정확성은 전체 분류되어 있습니다
완벽한 모델은 거짓양성과 거짓음성이 0이지만 1.0 또는 100%가 됩니다
그것은 실험의 4가지 결과를 모두 통합하기 때문에 혼동 행렬 (TP, FP, TN, FN), 주어진 균형 잡힌 두 클래스에서 비슷한 수의 예가 있는 데이터 세트로, 정확성은 모델 품질의 대략적인 측정 수단으로 사용할 수 있습니다 이러한 이유로 일반 또는 미지정 모델에 사용되는 기본 평가 측정항목 일반적이거나 지정되지 않은 작업 수행
그러나 데이터 세트의 균형이 맞지 않으면 또는 한 종류의 실수 (FN 또는 FP)가 다른 실수보다 더 큰 비용을 발생시키는 경우 대부분의 실제 애플리케이션에서는 한 번에 여러 가지 형식 중 하나에 맞춰 최적화하는 것이 다른 측정항목을 사용하세요
한 클래스가 매우 드물게 나타나는 심하게 불균형한 데이터 세트의 경우 100% 음성 예측 모델은 해당 시간에서 99% 점수를 얻습니다. 정확하다는 것을 알 수 있습니다.
재현율 또는 참양성률
참양성률 (TPR) 또는 참양성의 확률이 양성으로 올바르게 분류되었는데 이는 재현율:
재현율은 수학적으로 다음과 같이 정의됩니다.
\[\text{Recall (or TPR)} = \frac{\text{correctly classified actual positives}}{\text{all actual positives}} = \frac{TP}{TP+FN}\]
거짓음성은 거짓음성으로 잘못 분류된 실제 양성입니다. 분모에 나타납니다. 스팸 분류 예에서 재현율은 이메일이 스팸으로 분류될 때 스팸 재현율의 또 다른 이름은 감지 확률입니다. '이 인식된 스팸 이메일 중 몇 퍼센트가 어떻게 해야 할까요?"
완벽한 가상의 모델은 거짓음성이 0이므로 즉 재현율 (TPR)을 1.0으로 설정해야 합니다.
불균형 데이터 세트에서는 실제 양성의 수가 매우 낮음(예: 총 1~2개의 예시), 재현율이 의미가 적고 유용하지 않음 과시합니다.
거짓양성률
거짓양성률 (FPR) 잘못 분류된 모든 실제 음성의 비율입니다. 오탐률이라고도 합니다. 그것은 다음과 같이 수학적으로 정의됨:
\[\text{FPR} = \frac{\text{incorrectly classified actual negatives}} {\text{all actual negatives}} = \frac{FP}{FP+TN}\]
거짓양성은 잘못 분류된 실제 음성이므로 표시됩니다. 스팸 분류 예에서 FPR은 스팸으로 잘못 분류된 스팸이 아닌 이메일의 일부 또는 경보의 비율을 나타냅니다.
완벽한 모델은 거짓양성이 0이므로 FPR이 0.0, 다시 말해 0% 오탐률입니다
불균형 데이터 세트에서는 실제 음성의 수가 매우 낮음(예: 총 1~2개의 예시) FPR이 의미가 없고 유용성이 떨어짐 과시합니다.
정밀도
정밀도 모델의 모든 양성 분류에 대한 비율 확인할 수 있습니다. 수학적으로 다음과 같이 정의됩니다.
\[\text{Precision} = \frac{\text{correctly classified actual positives}} {\text{everything classified as positive}} = \frac{TP}{TP+FP}\]
스팸 분류 예에서 정밀도는 이메일 실제로는 스팸으로 분류되었습니다
완벽한 가상의 모델은 거짓양성이 0이므로 가장 낮은 정밀도(1.0)를 얻을 수 있습니다
불균형 데이터 세트에서는 실제 양성의 수가 매우 낮음(예: 총 1~2개의 예), 정밀도의 의미가 적고 유용성이 떨어짐 과시합니다.
거짓양성이 감소하면 정밀도가 개선되고, 거짓양성이 감소하면 재현율이 향상됩니다. 거짓음성이 감소한다는 것입니다 그러나 이전 섹션에서 본 것처럼 분류 임곗값을 사용하면 거짓양성의 수를 줄이고 거짓음성의 수를 늘리고 임곗값을 낮추면 효과적일 수 있습니다. 따라서 정밀도와 재현율은 종종 둘 중 하나가 개선되면 다른 하나가 악화될 수 있습니다
직접 해 보기:
측정항목에서 NaN은 무엇을 의미하나요?
NaN 또는 '숫자가 아님' 0으로 나누면 나타납니다. 이 측정항목을 사용할 수 있습니다. 예를 들어 TP와 FP가 모두 0인 경우 정밀도 공식의 분모가 0이므로 NaN이 됩니다. 동안 경우에 따라 NaN이 완벽한 성능을 나타낼 수 있으며 1.0으로 대체되었다면 실질적으로 1.0에 해당하는 모델에서 쓸모없어. 예를 들어 양성을 예측하지 않는 모델에는 TP가 0이 됩니다. 0 FP이므로 정밀도를 계산하면 NaN이 됩니다.
측정항목 선택 및 절충점
모델을 평가할 때 우선순위를 정하는 측정항목 임계값을 선택하는 것은 테스트의 비용, 이점 및 위험을 찾을 수 있습니다 스팸 분류 예에서는 종종 재현율을 우선시하거나, 모든 스팸 이메일을 제거하거나, 정밀도를 스팸 라벨이 지정된 이메일이 실제로 스팸인지 확인하거나 최소 정확도 수준 이상으로 표시합니다.
측정항목 | 안내 |
---|---|
정확성 | 모델의 대략적인 지표로 사용 균형 있는 데이터 세트의 학습 진행 상황/수렴 모델 성능을 위해 다른 측정항목과 조합해서만 사용하세요. 불균형 데이터 세트를 피하세요. 다른 측정항목을 사용해 보세요. |
재현율 (참양성률) |
거짓음성이 더 큰 경우 사용 오탐보다 더 비쌉니다. |
거짓양성률 | 거짓양성이 거짓음성보다 더 큰 비용이 듭니다 |
정밀도 | 매우 중요할 때 양성 예측이 정확해야 합니다. |
(선택사항, 고급) F1 점수
F1 점수는 조화 평균( 평균)의 비율을 나타냅니다.
수학적으로는 다음과 같이 주어집니다.
이 측정항목은 정밀도와 재현율의 중요도의 균형을 맞추며 클래스 불균형 데이터 세트보다 정확성이 더 낫습니다. 정밀도 두 머신 모두 만점이 1.0인 것을 기억할 경우 F1도 만점을 받을 수 있습니다. 입니다. 좀 더 넓게 보면 정밀도와 재현율의 값이 비슷할 때 F1은 가치를 더할 수 있어야 합니다 정밀도와 재현율이 멀리 떨어져 있을 때 F1은 어느 쪽이든 좋지 않은 측정항목과 유사해야 합니다