Để phân nhóm dữ liệu, bạn cần làm theo các bước sau:
- Chuẩn bị dữ liệu.
- Tạo chỉ số tương tự.
- Chạy thuật toán phân cụm.
- Diễn giải kết quả và điều chỉnh việc phân cụm.
Trang này giới thiệu ngắn gọn các bước thực hiện. Chúng ta sẽ tìm hiểu sâu hơn về .
Chuẩn bị dữ liệu
Giống như mọi vấn đề học máy, bạn phải chuẩn hoá, điều chỉnh quy mô và biến đổi dữ liệu tính năng trước khi huấn luyện hoặc tinh chỉnh mô hình trên dữ liệu đó. Ngoài ra, trước khi phân cụm, kiểm tra để đảm bảo dữ liệu đã chuẩn bị cho phép bạn tính toán chính xác sự tương đồng giữa các ví dụ.
Tạo chỉ số tương tự
Trước khi thuật toán phân cụm có thể nhóm dữ liệu, thuật toán cần biết mức độ tương tự nhau có thể kể đến. Bạn có thể định lượng sự tương đồng giữa các ví dụ bằng cách để tạo chỉ số tương đồng. Bạn phải hiểu rõ về .
Chạy thuật toán phân cụm
Thuật toán phân cụm sử dụng chỉ số tương tự với dữ liệu cụm. Khoá học này sử dụng k-means.
Diễn giải kết quả và điều chỉnh
Do việc phân cụm không tạo ra hay bao gồm "sự thật" mặt đất mà bạn dựa vào có thể xác minh đầu ra, bạn nên kiểm tra kết quả so với ở cả cấp cụm và cấp ví dụ. Nếu kết quả có vẻ kỳ lạ hoặc chất lượng thấp, hãy thử nghiệm với 3 bước trước đó. Tiếp tục lặp đi lặp lại cho đến khi chất lượng đầu ra đáp ứng được nhu cầu của bạn.