일반화

일반화는 모델을 만들 때 사용한 것과 동일한 분포에서 가져온, 새로운 방식으로 본 적이 없는 새로운 데이터에 올바르게 적응하는 모델을 의미합니다.

일반화

모델 주기, 예측, 샘플, 실제 분포 탐색, 더 많은 샘플링
  • 목표: (숨겨진) 실제 분포에서 가져온 새 데이터를 잘 예측합니다.
  • 문제: 진실이 표시되지 않습니다.
    • 샘플에서 샘플링만 합니다.
모델 주기, 예측, 샘플, 실제 분포 탐색, 더 많은 샘플링
  • 목표: (숨겨진) 실제 분포에서 가져온 새 데이터를 잘 예측합니다.
  • 문제: 진실이 표시되지 않습니다.
    • 샘플에서 샘플링만 합니다.
  • 모델 h가 현재 샘플에 잘 맞다면 다른 새 샘플에서 잘 예측할 것이라고 신뢰할 수 있나요?
  • 이론적으로는 다음과 같습니다.
    • 흥미로운 분야: 일반화 이론
    • 모델 단순성 / 복잡도 측정 아이디어 기반
  • 직관: 오컴의 면도기 원칙 공식화
    • 모델이 덜 복잡할수록 샘플의 특이성 때문이 아니라 좋은 경험적 결과를 얻을 가능성이 높습니다.
  • 경험:
    • 질문: 모델이 새로운 데이터 샘플에서 잘 작동할 것인가?
    • 평가: 새로운 데이터 샘플 가져오기-테스트 세트라고 함
    • 테스트 세트에 대한 성과는 일반적으로 새 데이터에 대한 우수한 실적을 나타내는 유용한 지표입니다.
      • 테스트 세트가 충분히 큰 경우
      • 테스트 세트를 반복적으로 사용하여 속임수를 쓰지 않는 경우

위의 세 가지 기본 가정 모두

  1. 분포에서 독립적이고 동일한 방식으로 (i.i.d.) 무작위로 예를 추출합니다.
  2. 분포가 정상성을 보입니다. 시간이 지나도 변하지 않습니다.
  3. 학습, 검증, 테스트 세트를 포함하여 항상 동일한 배포에서 가져옵니다.