ML 시스템의 실제: 문학

이 강의에서는 18세기 문학과 관련된 실제 ML 문제를 디버깅합니다.*

실제 사례: 18세기 문학

  • 18세기 문학 교수는 저자가 사용한 '정신적 은유'만을 근거로 작가들의 정치적 준거 집단을 예측하고자 했습니다.
고서
  • 18세기 문학 교수는 저자가 사용한 '정신적 은유'만을 근거로 작가들의 정치적 준거 집단을 예측하고자 했습니다.
  • 연구진은 많은 저자의 작품과 문장으로 구성된 빅데이터 세트를 만들고 학습/검증/테스트 세트로 나누었습니다.
고서
  • 18세기 문학 교수는 저자가 사용한 '정신적 은유'만을 근거로 작가들의 정치적 준거 집단을 예측하고자 했습니다.
  • 연구진은 많은 저자의 작품과 문장으로 구성된 빅데이터 세트를 만들고 학습/검증/테스트 세트로 나누었습니다.
  • 학습된 모델은 테스트 데이터에서 거의 완벽하게 수행되었지만 연구자들은 결과가 의심스럽다고 느꼈습니다. 어떤 문제가 있었을까요?
고서

테스트 정확성이 의심스럽게 높은 이유는 무엇이라고 생각하나요? 문제를 파악할 수 있는지 확인한 다음 아래의 재생 버튼 ▶을 클릭하여 올바른지 확인하세요.

  • 데이터 분할 A: 연구원은 각 작성자의 예시 중 일부를 학습 세트에, 일부는 검증 세트에, 일부는 테스트 세트에 배치합니다.
리처드슨의 모든 예는 학습 세트에 있고 스위프트의 모든 예시는 검증 세트에 있을 수 있습니다.
학습, 검증, 테스트 세트의 작성자 예시 분석을 보여주는 다이어그램 저자 세 명의 예가 각 세트에 표시되어 있습니다.
  • 데이터 분할 B: 연구원은 모든 작성자의 예시를 모두 하나의 세트에 넣습니다.
학습, 검증, 테스트 세트의 작성자 예시 분석을 보여주는 다이어그램 학습 세트에는 Swift의 예만 있고 검증 세트에는 Blake의 예만 포함되며 테스트 세트에는 Defoe의 예시만 포함됩니다.
  • 데이터 분할 A: 연구원은 각 작성자의 예시 중 일부를 학습 세트에, 일부는 검증 세트에, 일부는 테스트 세트에 배치합니다.
  • 데이터 분할 B: 연구원은 모든 작성자의 예시를 모두 하나의 세트에 넣습니다.
  • 결과: 데이터 분할 A에서 학습된 모델의 정확도가 데이터 분할 B에서 학습된 모델보다 훨씬 높았습니다.

교훈: 예시를 분할하는 방법을 신중하게 고려하세요.

데이터가 무엇을 나타내는지 파악합니다.

* 이 모듈은 매우 느슨하게 (그 과정에서 일부 수정 작업) 진행했습니다 '의미 및 채굴: 인문학에 대한 데이터 마이닝이 미치는 암묵적 가정의 영향 .