텍스트 분류 알고리즘은 텍스트 데이터를 대규모로 처리하는 다양한 소프트웨어 시스템의 핵심입니다. 이메일 소프트웨어는 텍스트 분류를 사용하여 수신 메일이 받은편지함으로 전송되는지 스팸 폴더로 필터링되는지 확인합니다. 토론 포럼은 텍스트 분류를 사용하여 부적절한 댓글로 신고해야 하는지 판단합니다.
다음은 텍스트 문서를 사전 정의된 주제 집합 중 하나로 분류하는 주제 분류의 두 가지 예입니다. 많은 주제 분류 문제에서 이 분류는 주로 텍스트의 키워드를 기반으로 합니다.
그림 1: 주제 분류를 사용하면 수신 스팸 이메일을 신고하여 스팸 폴더로 필터링합니다.
또 다른 일반적인 텍스트 분류 유형은 감정 분석으로, 텍스트 콘텐츠의 양극성, 즉 콘텐츠가 표현하는 의견의 유형을 파악하는 것이 목표입니다. 이는 바이너리 좋아요/싫어요 평점 또는 1~5까지의 별표 평점 등 더 세분화된 옵션의 형태를 취할 수 있습니다. 감정 분석의 예로는 트위터 게시물을 분석하여 사람들이 블랙 팬서 영화를 좋아했는지 확인하거나, 월마트 리뷰에서 신제품 Nike 신발에 대한 일반 대중의 의견을 추정한 경우를 들 수 있습니다.
이 가이드에서는 텍스트 분류 문제를 해결하기 위한 몇 가지 주요 머신러닝 권장사항을 설명합니다. 학습할 내용은 다음과 같습니다.
[null,null,["최종 업데이트: 2022-09-27(UTC)"],[[["Text classification algorithms are widely used to categorize text data, with applications like spam filtering and content moderation."],["Topic classification and sentiment analysis are two common types of text classification, focusing on categorizing text into predefined topics and identifying the sentiment expressed, respectively."],["This guide provides a comprehensive workflow for solving text classification problems using machine learning, including data gathering, exploration, preparation, model building, training, evaluation, hyperparameter tuning, and deployment."],["Choosing the right machine learning model is crucial for effective text classification and is discussed in detail within the guide."],["TensorFlow is used to implement the chosen model for practical application in text classification tasks."]]],[]]