Vì việc phân cụm không được giám sát nên không có thông tin thực tế để xác minh kết quả. Việc không có sự thật khiến việc đánh giá chất lượng trở nên phức tạp hơn. Hơn nữa, thực tế thường không cung cấp các cụm ví dụ rõ ràng như trong ví dụ như trong Hình 1.
Thay vào đó, dữ liệu trong thế giới thực thường giống như Hình 2, gây khó khăn cho đánh giá trực quan chất lượng phân cụm.
Tuy nhiên, vẫn có các phương pháp phỏng đoán và phương pháp hay nhất mà bạn có thể áp dụng lặp lại để cải thiện chất lượng của việc phân cụm. Sơ đồ quy trình sau đây cung cấp tổng quan về cách đánh giá kết quả phân cụm. Chúng tôi sẽ mở rộng theo từng .
Bước 1: Đánh giá chất lượng của việc phân cụm
Trước tiên, hãy kiểm tra xem các cụm đó có như bạn mong đợi không và xem các ví dụ về bạn xem xét các giá trị giống nhau và giống nhau xuất hiện trong cùng một cụm.
Sau đó, hãy kiểm tra các chỉ số thường dùng sau đây (chưa phải là danh sách đầy đủ):
- Số lượng giá trị riêng biệt của cụm
- Cấp sao của cụm
- Hiệu suất về sau
Số lượng giá trị riêng biệt của cụm
Số lượng giá trị riêng biệt của cụm là số lượng ví dụ trên mỗi cụm. Vẽ đồ thị lượng số của cụm cho tất cả các cụm và điều tra các cụm đều là những điểm ngoại lai chính. Trong Hình 2, đó sẽ là cụm 5.
Cấp sao của cụm
Độ lớn của cụm là tổng khoảng cách từ tất cả các ví dụ trong một cụm vào tâm của cụm. Vẽ đồ thị cường độ cụm cho tất cả các cụm và điều tra các điểm ngoại lai. Trong Hình 3, cụm 0 là một điểm ngoại lệ.
Bạn cũng nên xem xét khoảng cách tối đa hoặc trung bình của các ví dụ từ các trọng tâm, theo cụm, để tìm các điểm ngoại lai.
Cường độ so với số lượng giá trị riêng biệt
Bạn có thể nhận thấy rằng số lượng giá trị riêng biệt của cụm càng cao tương ứng với chỉ số cường độ của cụm sao, điều này dễ hiểu, vì càng có nhiều điểm trong (số lượng giá trị riêng biệt), thì tổng của khoảng cách có thể lớn hơn điểm tính từ trọng tâm (độ lớn). Bạn cũng có thể xác định các cụm bất thường bằng cách tìm những chỉ số có mối quan hệ giữa lượng số và độ lớn rất khác so với các cụm khác. Trong Hình 4, điều chỉnh một đường thẳng với biểu đồ về số lượng giá trị riêng biệt và độ lớn cho thấy cụm 0 là bất thường. (Cụm 5 cũng ở cách xa dòng, nhưng nếu cụm 0 bị bỏ qua, cụm mới đường phù hợp sẽ gần giống với cụm 5 hơn.)
Hiệu suất về sau
Vì đầu ra phân cụm thường được dùng trong các hệ thống học máy thứ cấp, hãy xem hiệu suất của mô hình xuôi dòng cải thiện khi quy trình phân cụm thay đổi. Tính năng này cung cấp đánh giá thực tế về chất lượng kết quả phân cụm của bạn, mặc dù việc tiến hành loại hình kiểm thử này có thể phức tạp và tốn kém.
Bước 2: Đánh giá lại thước đo mức độ tương đồng
Thuật toán phân cụm của bạn quyết định chất lượng của chỉ số đo lường mức độ tương đồng. Đảm bảo phương pháp đo lường sự tương đồng trả về kết quả hợp lý. Một kiểm tra nhanh là xác định các cặp ví dụ đã biết là giống nhau nhiều hoặc ít giống nhau. Tính toán đo lường độ tương đồng cho từng cặp ví dụ rồi so sánh kết quả của bạn với kiến thức của bạn: các cặp ví dụ tương tự nhau nên có mức độ tương đồng cao hơn đo lường hơn các cặp ví dụ không giống nhau.
Bạn nên sử dụng các ví dụ để xác định điểm tương đồng giữa các chỉ số sau đại diện của tập dữ liệu, vì vậy, bạn có thể tự tin rằng điểm giống nhau duy trì kết quả đo lường cho mọi ví dụ của bạn. Hiệu suất của đo lường sự tương đồng, cho dù theo cách thủ công hay được giám sát, phải nhất quán trên tập dữ liệu. Nếu số liệu đo lường mức độ tương đồng của bạn không nhất quán trong một số ví dụ, các ví dụ sẽ không được nhóm lại với các ví dụ tương tự.
Nếu bạn tìm thấy các ví dụ có điểm số tương đồng không chính xác, thì tức là bạn tương đồng phương pháp đo lường có thể không nắm bắt đầy đủ dữ liệu tính năng giúp phân biệt ví dụ. Thử nghiệm bằng cách đo lường mức độ tương đồng cho đến khi kết quả này mang lại nhiều kết quả hơn kết quả chính xác và nhất quán.
Bước 3: Tìm số lượng cụm tối ưu
k-có nghĩa là yêu cầu bạn quyết định số lượng cụm \(k\) trước. Làm sao bạn xác định một \(k\)tối ưu? Hãy thử chạy thuật toán bằng tăng giá trị của \(k\) và lưu ý tổng của tất cả cấp độ cụm đồng hồ. Như \(k\) tăng lên, cụm nhỏ hơn và tổng khoảng cách của các điểm từ trung tâm giảm xuống. Chúng tôi có thể coi tổng khoảng cách này như một sự tổn thất. Vẽ đồ thị khoảng cách này dựa trên số cụm.
Như trong Hình 5, trên một \(k\)nhất định, mức giảm tổn thất sẽ trở thành biên với mức tăng \(k\). Hãy cân nhắc sử dụng \(k\) trong đó độ dốc ban đầu có thay đổi mạnh, được gọi là phương pháp khuỷu tay. Đối với biểu đồ được hiển thị, \(k\) tối ưu là khoảng 11. Nếu bạn muốn chi tiết hơn bạn có thể chọn \(k\)cao hơn, tham khảo biểu đồ này.
Câu hỏi về cách khắc phục sự cố
Nếu bạn phát hiện vấn đề trong quá trình đánh giá, hãy đánh giá lại dữ liệu của mình các bước chuẩn bị và độ tương đồng được chọn. Trả lời câu hỏi:
- Dữ liệu của bạn có được điều chỉnh theo tỷ lệ phù hợp không?
- Số liệu đo lường sự tương đồng của bạn có chính xác không?
- Thuật toán của bạn có thực hiện các thao tác có ý nghĩa về mặt ngữ nghĩa trên dữ liệu không?
- Các giả định của thuật toán của bạn có khớp với dữ liệu không?