이 강의에서는 18세기 문학과 관련된 실제 ML 문제를 디버깅합니다.*
실제 사례: 18세기 문학
실제 사례: 18세기 문학
- 18세기 문학 교수는 저자가 사용한 '정신적 은유'만을 근거로 작가들의 정치적 준거 집단을 예측하고자 했습니다.
실제 사례: 18세기 문학
- 18세기 문학 교수는 저자가 사용한 '정신적 은유'만을 근거로 작가들의 정치적 준거 집단을 예측하고자 했습니다.
- 연구진은 많은 저자의 작품과 문장으로 구성된 빅데이터 세트를 만들고 학습/검증/테스트 세트로 나누었습니다.
실제 사례: 18세기 문학
- 18세기 문학 교수는 저자가 사용한 '정신적 은유'만을 근거로 작가들의 정치적 준거 집단을 예측하고자 했습니다.
- 연구진은 많은 저자의 작품과 문장으로 구성된 빅데이터 세트를 만들고 학습/검증/테스트 세트로 나누었습니다.
- 학습된 모델은 테스트 데이터에서 거의 완벽하게 수행되었지만 연구자들은 결과가 의심스럽다고 느꼈습니다. 어떤 문제가 있었을까요?
실제 사례: 18세기 문학
테스트 정확성이 의심스럽게 높은 이유는 무엇이라고 생각하나요? 문제를 파악할 수 있는지 확인한 다음 아래의 재생 버튼 ▶을 클릭하여 올바른지 확인하세요.
실제 사례: 18세기 문학
- 데이터 분할 A: 연구원은 각 작성자의 예시 중 일부를 학습 세트에, 일부는 검증 세트에, 일부는 테스트 세트에 배치합니다.
리처드슨의 모든 예는 학습 세트에 있고 스위프트의 모든 예시는 검증 세트에 있을 수 있습니다.
실제 사례: 18세기 문학
- 데이터 분할 B: 연구원은 모든 작성자의 예시를 모두 하나의 세트에 넣습니다.
실제 사례: 18세기 문학
- 데이터 분할 A: 연구원은 각 작성자의 예시 중 일부를 학습 세트에, 일부는 검증 세트에, 일부는 테스트 세트에 배치합니다.
- 데이터 분할 B: 연구원은 모든 작성자의 예시를 모두 하나의 세트에 넣습니다.
- 결과: 데이터 분할 A에서 학습된 모델의 정확도가 데이터 분할 B에서 학습된 모델보다 훨씬 높았습니다.
실제 사례: 18세기 문학
교훈: 예시를 분할하는 방법을 신중하게 고려하세요.
데이터가 무엇을 나타내는지 파악합니다.
* 이 모듈은 매우 느슨하게 (그 과정에서 일부 수정 작업) 진행했습니다 '의미 및 채굴: 인문학에 대한 데이터 마이닝이 미치는 암묵적 가정의 영향 .