Giả sử bạn đang làm việc với một tập dữ liệu bao gồm thông tin bệnh nhân của một hệ thống y tế. Tập dữ liệu phức tạp và bao gồm cả dữ liệu phân loại và dữ liệu đối tượng số. Bạn muốn tìm các mẫu và điểm tương đồng trong tập dữ liệu. Bạn sẽ xử lý nhiệm vụ này như thế nào?
Phân cụm là tính năng không được giám sát được thiết kế để nhóm các ví dụ chưa được gắn nhãn dựa trên sự tương đồng của chúng. (Nếu các ví dụ được gắn nhãn, điều này loại nhóm này được gọi là phân loại.) Xem xét một bệnh nhân giả định nghiên cứu được thiết kế để đánh giá một phác đồ điều trị mới. Trong suốt nghiên cứu, bệnh nhân báo cáo số lần họ gặp phải các triệu chứng mỗi tuần và mức độ nghiêm trọng của triệu chứng. Nhà nghiên cứu có thể sử dụng phương pháp phân tích phân cụm để nhóm các bệnh nhân có phản ứng của nhóm can thiệp thành từng cụm. Hình 1 minh hoạ một nhóm khả thi dữ liệu mô phỏng thành ba cụm.
Nhìn vào dữ liệu chưa gắn nhãn ở bên trái Hình 1, bạn có thể đoán rằng dữ liệu tạo thành ba cụm, ngay cả khi không có định nghĩa chính thức về tính tương đồng giữa các điểm dữ liệu. Tuy nhiên, trong ứng dụng thực tế, bạn cần xác định rõ ràng xác định đo lường sự tương đồng hoặc chỉ số được sử dụng để so sánh các mẫu, trong tính năng của tập dữ liệu. Khi ví dụ chỉ có một vài tính năng, việc trực quan hoá và đánh giá sự tương đồng rất đơn giản. Nhưng khi số lượng các tính năng tăng lên, việc kết hợp và so sánh các tính năng trở nên kém trực quan hơn và phức tạp hơn. Các chỉ số tương đồng khác nhau có thể phù hợp hơn hoặc ít hơn cho các trường hợp phân cụm khác nhau, và khoá học này sẽ đề cập đến việc chọn một đo lường mức độ tương đồng thích hợp ở các phần sau: Đo lường sự tương đồng theo cách thủ công và Đo lường mức độ tương đồng từ các mục nhúng.
Sau khi phân cụm, mỗi nhóm được gán một nhãn duy nhất có tên là mã cụm. Việc phân cụm là một cách hiệu quả vì nó có thể đơn giản hoá các tập dữ liệu lớn, phức tạp nhờ nhiều tính năng vào một mã nhận dạng cụm duy nhất.
Các trường hợp sử dụng tính năng phân cụm
Việc phân cụm hữu ích trong nhiều ngành. Một số ứng dụng phổ biến để phân cụm:
- Phân đoạn thị trường
- Phân tích mạng xã hội
- Nhóm kết quả tìm kiếm
- Hình ảnh y khoa
- Phân đoạn hình ảnh
- Phát hiện hoạt động bất thường
Một số ví dụ cụ thể về phân cụm:
- Biểu đồ Hertzsprung-Russell hiển thị các cụm sao khi được vẽ theo độ sáng và nhiệt độ.
- Giải trình tự gen cho thấy những điểm tương đồng di truyền chưa được biết đến và sự khác biệt giữa các loài đã dẫn đến sửa đổi hệ thống phân loại trước đây dựa trên sự xuất hiện.
- 5 nhóm lớn mô hình đặc điểm tính cách được phát triển bằng cách nhóm các từ mô tả tính cách thành 5 nhóm. Chiến lược phát hành đĩa đơn Hàm HEXACO mô hình sử dụng 6 cụm thay vì 5.
Thao tác
Khi một số ví dụ trong một cụm bị thiếu dữ liệu đối tượng, bạn có thể dự đoán thiếu dữ liệu từ các ví dụ khác trong cụm. Hành động này được gọi là tính toán. Ví dụ: bạn có thể nhóm các video ít phổ biến hơn với các video phổ biến hơn để cải thiện các video đề xuất.
Nén dữ liệu
Như đã thảo luận, mã cụm liên quan có thể thay thế các tính năng khác cho tất cả các ví dụ trong cụm đó. Sự thay thế này làm giảm số lượng tính năng và do đó cũng giảm được nguồn lực cần thiết để lưu trữ, xử lý và huấn luyện các mô hình dựa trên dữ liệu đó. Đối với các tập dữ liệu rất lớn, các khoản tiết kiệm này trở nên đáng kể.
Ví dụ: một video trên YouTube có thể có dữ liệu về tính năng, trong đó có:
- vị trí, thời gian và thông tin nhân khẩu học của người xem
- dấu thời gian của bình luận, nội dung và mã nhận dạng người dùng
- thẻ từ khoá cho video
Việc nhóm các video trên YouTube sẽ thay thế nhóm tính năng này bằng ID cụm duy nhất, từ đó nén dữ liệu.
Bảo vệ quyền riêng tư
Bạn có thể bảo vệ một phần quyền riêng tư bằng cách phân nhóm người dùng và liên kết dữ liệu người dùng bằng mã cụm thay vì mã nhận dạng người dùng. Để đưa ra một ví dụ khả thi, giả sử bạn muốn để đào tạo một mô hình dựa trên dữ liệu về người dùng YouTube nhật ký xem. Thay vì truyền mã nhận dạng người dùng vào mô hình, bạn có thể phân nhóm người dùng và chỉ chuyển mã nhận dạng cụm. Chiến dịch này giúp ngăn chặn việc đính kèm danh sách video đã xem với từng người dùng. Ghi chú cụm từ đó phải chứa số lượng người dùng đủ lớn để bảo vệ quyền riêng tư.