1단계: 데이터 수집하기

데이터 수집은 지도 머신러닝 문제 해결에서 가장 중요한 단계입니다. 텍스트 분류기는 데이터의 기반이 되는 데이터 세트만큼 우수할 수 있습니다.

해결하려는 특정 문제가 없고 일반적으로 텍스트 분류에 관심이 있는 경우 다양한 오픈소스 데이터 세트를 사용할 수 있습니다. GitHub 저장소에서 그중 일부의 링크를 찾을 수 있습니다. 반면에 특정 문제를 해결하려면 필요한 데이터를 수집해야 합니다. 많은 조직에서 데이터 액세스용 공개 API를 제공합니다(예: Twitter API 또는 NY Times API). 해결하려는 문제에 이를 활용할 수 있습니다.

다음은 데이터를 수집할 때 기억해야 할 몇 가지 중요한 사항입니다.

  • 공개 API를 사용하는 경우 공개 API를 사용하기 전에 제한사항을 이해하세요. 예를 들어 일부 API는 쿼리 가능한 비율에 한도를 설정합니다.
  • 학습 예시 (이 가이드의 나머지 부분에서는 샘플이라고 함)가 많을수록 좋습니다. 이렇게 하면 모델의 일반화 성능이 개선됩니다.
  • 모든 클래스 또는 주제의 샘플 수가 지나치게 불균형하지 않은지 확인합니다. 즉, 각 클래스에 비슷한 수의 샘플이 있어야 합니다.
  • 일반적인 사례뿐 아니라 샘플이 가능한 입력 공간을 적절히 처리하는지 확인하세요.

이 가이드에서는 인터넷 영화 데이터베이스 (IMDb) 영화 리뷰 데이터 세트를 사용하여 워크플로를 설명합니다. 이 데이터 세트에는 IMDb 웹사이트의 사용자가 게시한 영화 리뷰와 리뷰 작성자가 영화를 좋아했는지 여부를 나타내는 라벨('긍정' 또는 '부정')이 포함됩니다. 이 내용은 감정 분석 문제의 전형적인 예입니다.