새로운 개선된 버전의 머신러닝 단기집중과정이 2024년 8월에 제공될 예정입니다. 감사합니다

이 페이지는 Cloud Translation API를 통해 번역되었습니다.

분류

이 모듈에서는 분류 작업에 로지스틱 회귀를 사용하는 방법을 보여주고 분류 모델의 효과를 평가하는 방법을 살펴봅니다.

분류

분류 및 회귀 비교

확률 출력에 로지스틱 회귀를 사용하는 경우도 있습니다. 이 값은 (0, 1)에서 회귀한 것입니다.
다른 경우 이진 이진 분류 값을 임곗값으로 적용합니다.
임곗값 선택은 중요한 선택이며 조정할 수 있습니다.

평가 측정항목: 정확성

분류 모델은 어떻게 평가하나요?

평가 측정항목: 정확성

분류 모델은 어떻게 평가하나요?
가능한 측정 방법: 정확성
- 예측에서 정확하게 예측한 부분

정확성은 오해의 소지가 있습니다.

대부분의 경우 정확성은 나쁘거나 오해의 소지가 있는 측정항목입니다.
- 대부분의 경우 실수마다 비용이 다르기 때문입니다.
- 일반적인 사례에는 양성이나 음성이 매우 드문 클래스 불균형이 포함됩니다.

참양성 및 거짓양성

클래스 불균형 문제의 경우 다양한 종류의 오류를 분리하는 데 유용합니다.

참양성 늑대라고 부르는 것은 올바른 행동입니다. 우리는 마을을 구했습니다.	거짓양성 오류: 늑대를 거짓으로 호출했습니다. 우리 모두에게 화가 나네요.
거짓음성 늑대는 있었지만 우리는 찾지 못했습니다. 모든 닭을 먹었습니다.	참음성 늑대도, 경보도 없습니다. 누구나 괜찮습니다.

평가 측정항목: 정밀도와 재현율

정밀도: (참양성) / (모든 양성 예측)

모델이 '긍정적인' 클래스를 말할 때 맞았나요?
직관: 모델이 '늑대'를 너무 자주 울었나요?

평가 측정항목: 정밀도와 재현율

정밀도: (참양성) / (모든 양성 예측)

모델이 '긍정적인' 클래스를 말할 때 맞았나요?
직관: 모델이 '늑대'를 너무 자주 울었나요?

재현율: (참양성 수) / (모든 실제 양성 수)

가능한 모든 양성 중에서 모델이 정확히 몇 개를 식별했나요?
직관: 늑대를 놓친 적이 있나요?

완료했으면 재생 &#x25b6을 눌러 계속하세요.

아래 옵션을 살펴보세요.

이메일을 '스팸'과 '스팸 아님', 두 가지 카테고리로 분류하는 분류 모델을 살펴보겠습니다. 분류 임곗값을 높이면 정밀도는 어떻게 될까요?

확실히 증가합니다.

분류 임곗값을 높이면 일반적으로 정밀도가 높아집니다. 하지만 임곗값이 올라가면 정밀도가 단조롭게 증가한다는 보장이 없습니다.

증가할 수 있습니다.

일반적으로 분류 임곗값을 높이면 거짓양성이 감소하므로 정밀도가 높아집니다.

감소한 것 같습니다.

일반적으로 분류 임곗값을 높이면 거짓양성이 감소하므로 정밀도가 높아집니다.

확실히 감소합니다.

일반적으로 분류 임곗값을 높이면 거짓양성이 감소하므로 정밀도가 높아집니다.

ROC 곡선

각 포인트는 하나의 결정 임곗값에서 TP 및 FP 비율입니다.

평가 측정항목: AUC

AUC: 'ROC 곡선 아래 영역'

평가 측정항목: AUC

AUC: 'ROC 곡선 아래 영역'
해석:

임의의 양성 예측과 임의의 음성 예측을 선택했을 때 내 모델이 올바른 순서로 순위가 지정될 확률은 얼마나 될까요?

평가 측정항목: AUC

AUC: 'ROC 곡선 아래 영역'
해석:

임의의 양성 예측과 임의의 음성 예측을 선택했을 때 내 모델이 올바른 순서로 순위가 지정될 확률은 얼마나 될까요?

직관: 가능한 모든 분류 임곗값에서 집계된 성능의 집계 측정 제공

예측 편향

로지스틱 회귀 예측은 편향되지 않아야 합니다.

예측 평균 == 관찰 평균

예측 편향

로지스틱 회귀 예측은 편향되지 않아야 합니다.

예측 평균 == 관찰 평균

편향은 카나리아 방식입니다.

편향이 0이라고 해서 시스템 내의 모든 것이 완벽하다고는 할 수 없습니다.
하지만 상태를 확인하는 데 좋습니다.

예측 편향 (계속)

편향이 있으면 문제가 발생합니다.

특성 세트가 불완전한가요?
파이프라인에 버그가 있나요?
학습 샘플이 편향되었나요?

보정 레이어로 편향을 보정하지 말고 모델에서 수정하세요.
데이터 내에서 편향을 찾으세요. 그러면 개선할 수 있습니다.

버케팅된 편향을 표시하는 보정 플롯

손실 및 정규화

임계값