Ưu và nhược điểm của phương tiện k

K-mean hữu ích và hiệu quả trong nhiều bối cảnh của công nghệ học máy, nhưng một số điểm yếu nổi bật.

Ưu điểm của giá trị k-me

Triển khai tương đối đơn giản.

Điều chỉnh quy mô thành các tập dữ liệu lớn.

Luôn hội tụ.

Cho phép khởi động vị trí của các tâm.

Thích ứng mượt mà với các ví dụ mới.

Có thể được tổng quát hoá thành các cụm khác nhau hình dạng và kích thước, chẳng hạn như cụm hình elip.

Tổng quát hoá k-me

Việc triển khai k-mean đơn giản có thể gặp khó khăn với các cụm có mật độ và kích thước khác nhau. Phía bên trái Hình 1 hiển thị các cụm chúng ta thường thấy, trong khi phần bên phải hiển thị các cụm được đề xuất bởi k-me.

Hai biểu đồ cạnh nhau. Ảnh đầu tiên cho thấy một tập dữ liệu với các cụm khá rõ ràng. Phương thức thứ hai cho thấy một nhóm các ví dụ kỳ lạ sau khi chạy k-means.
Hình 1: Ví dụ về giá trị k-mean chưa khái quát hoá.

Để có hiệu suất tốt hơn trên các cụm không cân bằng như các cụm trong Hình 1, bạn có thể khái quát hoá, tức là thích nghi, k-means. Hình 2 cho thấy 3 được phân nhóm với hai cách tổng quát khác nhau. Tập dữ liệu đầu tiên cho thấy k-có nghĩa là không có tổng quát hoá, trong khi phương thức thứ hai và thứ ba cho phép các cụm có chiều rộng khác nhau.

Ba đồ thị biểu diễn giá trị k có nghĩa là không có tổng quát hoá, thì k có nghĩa là
       cho phép có chiều rộng khác nhau, thì k có nghĩa là cho phép thay đổi chiều rộng
       theo nhiều phương diện.
Hình 2: k-nghĩa là phân cụm có và không có tổng quát hoá.

Khoá học này không đề cập đến cách khái quát hoá k-me, mà chỉ những người quan tâm bạn sẽ thấy Phân cụm – k-means hỗn hợp Gaussian mô hình của Carlos Guestrin từ Đại học Carnegie Mellon.

Nhược điểm của phương tiện k

\(k\) phải được chọn thủ công.

Kết quả phụ thuộc vào các giá trị ban đầu.

Đối với \(k\)thấp, bạn có thể giảm thiểu sự phụ thuộc này bằng cách chạy k-means vài với các giá trị ban đầu khác nhau và chọn kết quả tốt nhất. Dưới dạng \(k\) tăng lên, bạn cần k-means seeding (có nghĩa là hạt giống) để chọn tên khởi đầu tốt hơn centroids Để thảo luận đầy đủ về cách gieo hạt k-means, hãy xem "So sánh Nghiên cứu về các phương thức khởi động hiệu quả cho phân cụm K-means ," của M. Emre Celebi, Hassan A. Kingravi và Patricio A. Vela.

Khó phân nhóm dữ liệu có kích thước khác nhau và mà không tổng quát hoá.

Khó phân cụm các điểm ngoại lai.

Các tâm điểm có thể bị các điểm ngoại lai kéo, hoặc các điểm ngoại lai có thể có cụm của riêng chúng thay vì bị bỏ qua. Trước khi cân nhắc việc loại bỏ hoặc cắt bớt các điểm ngoại lai phân cụm.

Khó mở rộng quy mô với số lượng phương diện.

Khi số lượng phương diện trong dữ liệu tăng lên, sự tương đồng dựa trên khoảng cách đo lường hội tụ thành giá trị không đổi giữa bất kỳ ví dụ đã cho nào. Thu nhỏ bằng cách sử dụng PCA trên dữ liệu đối tượng hoặc bằng cách sử dụng tính năng phân cụm quang phổ để sửa đổi việc phân cụm thuật toán.

Lời nguyền của tính không gian và phân cụm quang phổ

Trong ba biểu đồ này, hãy lưu ý xem độ lệch chuẩn khi kích thước tăng lên như thế nào khoảng cách giữa các ví dụ thu nhỏ lại tương ứng với khoảng cách trung bình giữa ví dụ. Chiến dịch này Sự hội tụ có nghĩa là k-means trở nên kém hiệu quả hơn trong việc phân biệt giữa các ví dụ khi số lượng phương diện của dữ liệu tăng lên. Đây được gọi là lời nguyền của tính đa dạng.

Ba biểu đồ cho thấy độ lệch chuẩn của khoảng cách giữa các ví dụ giảm như thế nào khi số lượng tham số tăng
Hình 3: Minh hoạ sự nguyền rủa của tính không gian. Mỗi biểu đồ cho thấy khoảng cách theo cặp giữa 200 điểm ngẫu nhiên.

Bạn có thể tránh sự suy giảm hiệu suất này bằng phương pháp phân cụm quang phổ, Việc này sẽ thêm các bước trùng lặp trước vào thuật toán. Để thực hiện quang phổ phân cụm:

  1. Dùng PCA để giảm số lượng kích thước của dữ liệu tính năng.
  2. Chiếu tất cả các điểm dữ liệu vào không gian con ở cấp thấp hơn.
  3. Nhóm dữ liệu trong không gian con này bằng thuật toán bạn đã chọn.

Xem Hướng dẫn về quang phổ Tạo cụm bởi Ulrike von Luxburg để biết thêm thông tin về quang phổ phân cụm.