분류: 예측 편향

'API 약관'의 선형 회귀 모듈, 계산 예측 편향 모델 또는 학습 데이터의 문제를 플래그할 수 있는 간단한 검사입니다 살펴봤습니다

예측 편향은 모델의 평균과 예상 검색어정답 라벨은 데이터입니다. 데이터 세트로 학습된 모델 여기서 스팸은 이메일의 5% 가 평균적으로 전체의 5% 가 분류되는 이메일이 스팸입니다. 다시 말해서 정답 데이터 세트의 값은 0.05이며, 모델의 예측 평균은 0.05여야 합니다 이 경우 모델의 예측 편향은 0입니다. / 모델에는 여전히 다른 문제가 있을 수 있습니다

모델이 이메일의 50% 를 스팸이라고 예측한다면 학습 데이터 세트에 문제 발생, 모델이 새로 생성한 데이터 세트 모델 자체를 정의하는 것입니다. 모든 문자 두 평균값 간의 유의미한 차이는 모델이 모델의 예측에 기여한다는 것을 몇 가지 예측 편향을 줄일 수 있습니다

예측 편향은 다음과 같은 이유로 발생할 수 있습니다.

  • 학습 세트에 대한 편향된 샘플링을 비롯한 데이터의 편향 또는 노이즈
  • 정규화가 너무 강력하여 모델이 지나치게 단순화되어 손실이 발생함 약간의 복잡성을
  • 모델 학습 파이프라인의 버그
  • 모델에 제공된 특성 세트가 작업에 충분하지 않음