데이터 수집은 지도 머신러닝 문제를 해결하는 데 가장 중요한 단계입니다. Text Classifier는 빌드의 기반이 되는 데이터 세트의 품질에 따라 달라집니다.
해결하려는 특정 문제가 없고 일반적으로 텍스트 분류를 살펴보는 데만 관심이 있는 경우 사용할 수 있는 다양한 오픈소스 데이터 세트가 있습니다. 일부 링크는 GitHub 저장소에서 찾을 수 있습니다. 반면에 특정 문제를 다루는 경우에는 필요한 데이터를 수집해야 합니다. 많은 조직에서 데이터 액세스를 위한 공개 API(예: X API 또는 NY Times API)를 제공합니다. 해결하려는 문제에 이러한 API를 활용할 수 있습니다.
데이터를 수집할 때 기억해야 할 몇 가지 중요한 사항은 다음과 같습니다.
- 공개 API를 사용하는 경우 사용하기 전에 API의 제한사항을 숙지하세요. 예를 들어 일부 API는 쿼리를 만들 수 있는 속도에 제한을 설정합니다.
- 학습 예 (이 가이드의 나머지 부분에서 샘플이라고 함)는 많을수록 좋습니다. 이렇게 하면 모델이 더 잘 일반화하는 데 도움이 됩니다.
- 모든 클래스 또는 주제의 샘플 수가 지나치게 불균형하지 않은지 확인합니다. 즉, 각 클래스에 비슷한 샘플 수가 있어야 합니다.
- 샘플에 일반적인 사례뿐만 아니라 가능한 입력 공간이 충분히 포함되었는지 확인하세요.
이 가이드에서는 인터넷 영화 데이터베이스 (IMDb) 영화 리뷰 데이터 세트를 사용하여 워크플로를 설명합니다. 이 데이터 세트에는 IMDb 웹사이트에 사람들이 게시한 영화 리뷰뿐만 아니라 리뷰 작성자가 영화를 좋아했는지 여부를 나타내는 라벨('긍정적' 또는 '부정적')이 포함되어 있습니다. 이것은 감정 분석 문제의 전형적인 예입니다