Thu thập dữ liệu là bước quan trọng nhất để giải quyết mọi vấn đề trong công nghệ học máy có giám sát. Thuật toán phân loại văn bản của bạn chỉ có thể chất lượng dựa trên tập dữ liệu mà bạn dùng để tạo tập dữ liệu đó.
Nếu bạn không có vấn đề cụ thể nào muốn giải quyết và chỉ muốn khám phá việc phân loại văn bản nói chung, thì có rất nhiều tập dữ liệu nguồn mở có sẵn. Bạn có thể tìm thấy đường liên kết đến một số tài sản trong số đó trong kho lưu trữ GitHub của chúng tôi. Mặt khác, nếu đang giải quyết một vấn đề cụ thể, bạn sẽ phải thu thập dữ liệu cần thiết. Nhiều tổ chức cung cấp các API công khai để truy cập vào dữ liệu của họ – ví dụ: API X hoặc API NY Times. Bạn có thể tận dụng các API này để giải quyết vấn đề mà mình đang gặp phải.
Sau đây là một số điều quan trọng cần nhớ khi thu thập dữ liệu:
- Nếu bạn đang sử dụng một API công khai, hãy tìm hiểu các giới hạn của API đó trước khi sử dụng. Ví dụ: một số API đặt giới hạn về tỷ lệ bạn có thể thực hiện truy vấn.
- Bạn càng có nhiều ví dụ huấn luyện (còn gọi là mẫu trong phần còn lại của hướng dẫn này), thì càng tốt. Điều này sẽ giúp mô hình của bạn khái quát hơn.
- Hãy đảm bảo số lượng mẫu cho mỗi lớp hoặc chủ đề không thiếu cân bằng quá mức. Tức là bạn nên có số lượng mẫu tương đương trong mỗi lớp.
- Hãy đảm bảo các mẫu bao phủ đầy đủ không gian của dữ liệu đầu vào có thể có, chứ không chỉ các trường hợp phổ biến.
Trong suốt hướng dẫn này, chúng tôi sẽ sử dụng tập dữ liệu đánh giá phim trên Cơ sở dữ liệu phim trên Internet (IMDb) để minh hoạ quy trình làm việc. Tập dữ liệu này chứa các bài đánh giá phim do mọi người đăng trên trang web IMDb, cũng như các nhãn tương ứng (“tích cực” hoặc “tiêu cực”) cho biết liệu người đánh giá có thích phim hay không. Đây là một ví dụ kinh điển về một vấn đề phân tích quan điểm.