Để tạo cụm dữ liệu, bạn sẽ làm theo các bước sau:
- Chuẩn bị dữ liệu.
- Tạo chỉ số tương đồng.
- Chạy thuật toán phân cụm.
- Diễn giải kết quả và điều chỉnh hoạt động tạo cụm.
Trang này giới thiệu ngắn gọn các bước. Chúng ta sẽ tìm hiểu sâu hơn trong các phần tiếp theo.
Chuẩn bị dữ liệu
Giống như mọi vấn đề về máy học, bạn phải chuẩn hoá, điều chỉnh theo tỷ lệ và biến đổi dữ liệu đặc điểm trước khi huấn luyện hoặc tinh chỉnh mô hình trên dữ liệu đó. Ngoài ra, trước khi tạo cụm, hãy kiểm tra để đảm bảo rằng dữ liệu đã chuẩn bị cho phép bạn tính toán chính xác mức độ tương đồng giữa các ví dụ.
Tạo chỉ số tương đồng
Trước khi có thể nhóm dữ liệu, thuật toán phân cụm cần biết các cặp ví dụ có mức độ tương đồng như thế nào. Bạn có thể định lượng mức độ tương đồng giữa các ví dụ bằng cách tạo một chỉ số tương đồng. Để làm được điều này, bạn cần hiểu rõ dữ liệu của mình.
Chạy thuật toán phân cụm
Thuật toán phân cụm sử dụng chỉ số tương đồng để phân cụm dữ liệu. Khoá học này sử dụng thuật toán k-means.
Diễn giải kết quả và điều chỉnh
Vì quá trình phân cụm không tạo ra hoặc đưa vào "sự thật" cơ bản để bạn có thể xác minh kết quả, nên điều quan trọng là phải kiểm tra kết quả dựa trên kỳ vọng của bạn ở cả cấp cụm và cấp ví dụ. Nếu kết quả trông lạ hoặc có chất lượng thấp, hãy thử nghiệm với 3 bước trước đó. Tiếp tục lặp lại cho đến khi chất lượng đầu ra đáp ứng nhu cầu của bạn.