Phân loại văn bản là một vấn đề cơ bản về học máy, có ứng dụng trên nhiều sản phẩm. Trong hướng dẫn này, chúng tôi đã chia quy trình phân loại văn bản thành nhiều bước. Đối với mỗi bước, chúng tôi đã đề xuất một phương pháp tuỳ chỉnh dựa trên đặc điểm của tập dữ liệu cụ thể của bạn. Cụ thể, bằng cách sử dụng tỷ lệ số lượng mẫu trên số lượng từ trên mỗi mẫu, chúng tôi đề xuất một loại mô hình giúp bạn nhanh chóng đạt được hiệu suất tốt nhất. Các bước khác được thiết kế dựa trên lựa chọn này. Chúng tôi hy vọng rằng việc làm theo hướng dẫn, đoạn mã đi kèm và lưu đồ sẽ giúp bạn tìm hiểu, nắm bắt và nhanh chóng tìm ra giải pháp ban đầu cho vấn đề phân loại văn bản của mình.
Kết luận
Trừ phi có lưu ý khác, nội dung của trang này được cấp phép theo Giấy phép ghi nhận tác giả 4.0 của Creative Commons và các mẫu mã lập trình được cấp phép theo Giấy phép Apache 2.0. Để biết thông tin chi tiết, vui lòng tham khảo Chính sách trang web của Google Developers. Java là nhãn hiệu đã đăng ký của Oracle và/hoặc các đơn vị liên kết với Oracle.
Cập nhật lần gần đây nhất: 2025-07-27 UTC.
[null,null,["Cập nhật lần gần đây nhất: 2025-07-27 UTC."],[[["\u003cp\u003eThis guide provides a structured workflow for text classification, breaking it down into manageable steps tailored to your dataset's characteristics.\u003c/p\u003e\n"],["\u003cp\u003eModel selection is guided by the ratio of samples to words per sample, helping you quickly identify a suitable model for optimal performance.\u003c/p\u003e\n"],["\u003cp\u003eThe guide includes code and a flowchart to facilitate learning, understanding, and implementing a first-cut solution for your text classification problem.\u003c/p\u003e\n"]]],[],null,["# Conclusion\n\nText classification is a fundamental machine learning problem with applications\nacross various products. In this guide, we have broken down the text\nclassification workflow into several steps. For each step, we have suggested a\ncustomized approach based on the characteristics of your specific dataset. In\nparticular, using the ratio of number of samples to the number of words per\nsample, we suggest a model type that gets you closer to the best performance\nquickly. The other steps are engineered around this choice. We hope that\nfollowing the guide, the\n[accompanying code](https://github.com/google/eng-edu/tree/master/ml/guides/text_classification),\nand the\n[flowchart](/machine-learning/guides/text-classification/step-2-5#figure-5)\nwill help you learn, understand, and get a swift first-cut solution to your text\nclassification problem."]]