스팸 이메일 감지를 위한 로지스틱 회귀 모델이 있다고 가정해 보겠습니다. 0과 1 사이의 값을 예측하여 주어진 특정 값이 스팸입니다. 예측이 0.50이면 이메일이 예측값이 0.75이면 이메일이 스팸일 확률이 75% 라는 뜻입니다. 등등.
이메일 애플리케이션에 이 모델을 배포하여 스팸을
별도의 메일 폴더를 만듭니다. 하지만 그러려면 모델의 원시 데이터를
숫자 출력 (예: 0.75
)을 '스팸' 2개 중 하나로 분류합니다. 또는 '아님
스팸'이라고 합니다.
이 전환을 위해서는
분류 임곗값입니다.
그런 다음 임곗값을 초과하는 확률이 있는 예가 할당됩니다.
포지티브 클래스로 이동하고
테스트 중인 클래스 (여기, spam
) 점수가 낮은 예
확률 분포가 네거티브 클래스에 할당되어
대체 클래스입니다 (여기, not spam
).
분류 임곗값에 대해 자세히 알아보려면 여기를 클릭하세요.
예측된 점수가 예를 들어 분류 임계값 (예: 0.5인 경우 분류 임곗값도 0.5)? 이 케이스 처리 분류를 위해 선택한 특정 구현에 따라 있습니다. 예를 들어 Keras는 라이브러리는 점수와 임곗값이 동일하나 다른 도구/프레임워크가 이 사례를 처리할 수 있음 다르게 보일 수 있습니다.
예를 들어 모델이 이메일 1개의 점수를 0.99로 평가하고 그 이메일은 스팸일 가능성이 99% 이고 다른 이메일은 0.51로 설정하면 스팸일 가능성이 51% 라고 가정합니다. 이 분류 임곗값을 0.5로 설정하면 모델이 두 이메일을 모두 스팸 임곗값을 0.95로 설정하면 이메일 점수 0.99만 스팸으로 분류되지 않습니다.
0.5가 직관적인 임곗값처럼 보일 수 있지만 잘못된 분류의 비용이 다른 유형보다 더 높거나 균형이 맞지 않습니다 이메일의 0.01% 만 스팸 또는 오파일링인 경우 스팸이 받은편지함에 들어오게 하는 것보다 스팸이 아닌 이메일은 모델이 스팸일 가능성이 50% 이상이라고 판단하는 항목에 라벨을 지정합니다. 위험한 결과를 초래하지 않기 때문입니다.
혼동 행렬
확률 점수가 현실이 아니거나 정답입니다. 이진 분류기의 각 출력에는 네 가지 가능한 결과가 있습니다. 스팸 분류기 예에서 정답을 열로 배치하는 경우 모델의 예측을 행으로 나타낸 다음 테이블은 혼동 행렬은 결과:
실제 양성 | 실제 음성 | |
---|---|---|
양성 예측 | 참양성 (TP): 스팸 스팸 이메일로 올바르게 분류된 이메일 다음은 스팸 메시지입니다. 스팸 폴더로 자동 전송됩니다 | 거짓양성 (FP): 스팸이 아닌 이메일이 다음으로 잘못 분류됨 스팸 이것은 Google에서 보내는 스팸 폴더에 들어갑니다. |
음성 예측 | 거짓 음수 (FN): 스팸 이메일이 스팸이 아님으로 잘못 분류되었습니다. 스팸 Gmail을 사용할 수 없는 받은편지함으로 들어올 수 있습니다. | 참음성 (TN): A 스팸이 아닌 이메일로 올바르게 분류된 이메일입니다. 스팸이 아닌 것으로 확인된 이메일로 전송되고 받은편지함으로 직접 전송할 수 있습니다. |
각 행의 총계는 예측된 모든 양성 (TP + FP)을 얻고 모든 예측 음성(FN + TN)(유효성에 관계없이) 각 열은 모든 실제 양성 (TP + FN)과 모든 실제 음성을 제공합니다. (FP + TN)입니다.
실제 양성의 합계가 실제 양성의 합계에 가깝지 않은 경우 데이터 세트가 불균형입니다. 인스턴스 구름 사진 세트는 수천 장의 구름 사진일 수 있습니다. 희귀한 구름 유형(예: 볼루투스 구름)은 할 수 있습니다.
임곗값이 참양성/거짓음성과 거짓음성에 미치는 영향
임곗값이 다르면 일반적으로 참과 거짓 수가 달라집니다. 참양성과 거짓음성의 합으로 나눈 것과 같습니다 다음 동영상은 그 이유를 설명합니다. 확인할 수 있습니다
기준치를 직접 변경해 보세요.
이 위젯에는 세 가지 장난감 데이터 세트가 포함되어 있습니다.
- 분리됨: 일반적으로 긍정적 예시와 부정적 예시가 구분됩니다. 대부분의 긍정적 사례가 다음에 비해 점수가 높았습니다. 제외 예시
- 분리되지 않음: 많은 긍정적 예의 점수가 낮은 값보다 낮습니다. 많은 부정적인 예제의 점수가 긍정적인 사례가 있습니다.
- 불균형: 포지티브 클래스의 몇 가지 예만 포함합니다.