Bảng thuật ngữ về học máy: Tạo cụm

Trang này chứa các thuật ngữ trong Bảng thuật ngữ phân cụm. Để biết tất cả các thuật ngữ trong bảng thuật ngữ, hãy nhấp vào đây.

Đáp

phân cụm kết hợp

#clustering

Xem phần phân cụm phân cấp.

C

tâm

#clustering

Tâm của cụm được xác định bằng thuật toán k-Medium hoặc k-median. Ví dụ: nếu k là 3, thì thuật toán k-trung bình hoặc k-trung vị sẽ tìm được 3 trọng tâm.

phân cụm dựa trên trọng tâm

#clustering

Một danh mục thuật toán trùng cụm sắp xếp dữ liệu vào các cụm không phân cấp. k-Medium là thuật toán phân cụm dựa trên trọng tâm được sử dụng rộng rãi nhất.

Trái ngược với các thuật toán phân cụm phân cấp.

phân cụm

#clustering

Nhóm các ví dụ có liên quan, đặc biệt là trong quá trình học tập không có giám sát. Sau khi tất cả ví dụ được nhóm lại, người dùng có thể tuỳ ý cung cấp ý nghĩa cho từng cụm.

Tồn tại nhiều thuật toán phân cụm. Ví dụ: các ví dụ về các cụm thuật toán k-Medium dựa trên khoảng cách gần với tâm điểm, như trong sơ đồ sau:

Một biểu đồ hai chiều, trong đó trục x được gắn nhãn chiều rộng cây và trục y được gắn nhãn chiều cao cây. Biểu đồ này chứa hai
          trọng tâm và vài chục điểm dữ liệu. Các điểm dữ liệu được phân loại dựa trên độ gần. Điều này có nghĩa là các điểm dữ liệu gần với một trọng tâm nhất sẽ được phân loại là cụm 1, trong khi những điểm dữ liệu gần với trọng tâm khác nhất được phân loại là cụm 2.

Sau đó, nhà nghiên cứu là con người có thể xem xét các cụm và ví dụ: gắn nhãn cụm 1 là "cây lùn" và cụm 2 là "cây có kích thước đầy đủ".

Một ví dụ khác là hãy xem xét thuật toán phân cụm dựa trên khoảng cách từ một điểm giữa của ví dụ, được minh hoạ như sau:

Rất nhiều điểm dữ liệu được sắp xếp theo các vòng tròn đồng tâm, gần giống
          như các lỗ xung quanh tâm bảng phi tiêu. Vòng trong cùng của các điểm dữ liệu được phân loại là cụm 1, vòng ở giữa được phân loại là cụm 2 và vòng ngoài cùng là cụm 3.

D

phân cụm có chia

#clustering

Xem phần phân cụm phân cấp.

Số lần bị đánh trúng bóng

phân cụm phân cấp

#clustering

Một danh mục thuật toán trùng lặp để tạo cây cụm. Việc phân cụm theo thứ bậc rất phù hợp với dữ liệu phân cấp, chẳng hạn như hệ thống phân loại thực vật. Có hai loại thuật toán phân cụm phân cấp:

  • Phân cụm tổng hợp trước tiên sẽ chỉ định mọi ví dụ cho cụm riêng của nó rồi hợp nhất lặp lại các cụm gần nhất để tạo một cây phân cấp.
  • Phân cụm phân chia trước tiên sẽ nhóm tất cả các ví dụ vào một cụm, sau đó chia liên tục cụm vào một cây phân cấp.

Ngược với tính năng phân cụm dựa trên trọng tâm.

nghìn

k trung bình

#clustering

Một thuật toán trùng lặp phổ biến giúp nhóm các ví dụ trong mô hình học tập không giám sát. Về cơ bản, thuật toán k-Medium thực hiện những việc sau:

  • Xác định lặp lại các điểm tâm k tốt nhất (còn gọi là tâm điểm).
  • Gán từng ví dụ cho trọng tâm gần nhất. Những ví dụ đó có cùng trọng tâm gần nhất thuộc cùng một nhóm.

Thuật toán k-Medium chọn các vị trí trọng tâm để giảm thiểu bình phương tích luỹ của khoảng cách từ mỗi ví dụ đến trọng tâm gần nhất của ví dụ đó.

Ví dụ: hãy xem xét biểu đồ sau đây về chiều cao của chó so với chiều rộng của chó:

Biểu đồ Descartes với vài chục điểm dữ liệu.

Nếu k=3, thuật toán k-Medium sẽ xác định ba trọng tâm. Mỗi ví dụ được gán cho trọng tâm gần nhất, tạo ra 3 nhóm:

Biểu đồ Descartes tương tự như trong hình minh hoạ trước, ngoại trừ việc thêm 3 trọng tâm.
          Các điểm dữ liệu trước đó được nhóm thành ba nhóm riêng biệt, trong đó mỗi nhóm đại diện cho các điểm dữ liệu gần nhất với một trọng tâm cụ thể.

Hãy tưởng tượng rằng một nhà sản xuất muốn xác định kích thước lý tưởng cho áo len nhỏ, trung bình và lớn dành cho chó. Ba trọng tâm xác định chiều cao trung bình và chiều rộng trung bình của mỗi chú chó trong cụm đó. Vì vậy, nhà sản xuất có thể nên đặt kích thước áo len dựa trên ba trọng tâm đó. Lưu ý rằng trọng tâm của một cụm thường không phải là một ví dụ trong cụm.

Các hình minh hoạ trước đó cho thấy giá trị k cho các ví dụ chỉ có 2 tính năng (chiều cao và chiều rộng). Xin lưu ý rằng giá trị k- {4/} có thể nhóm các ví dụ lại cho nhiều tính năng.

k trung bình

#clustering

Một thuật toán phân cụm có liên quan chặt chẽ đến k- Áp dụng. Sau đây là sự khác biệt thực tế giữa 2 công cụ này:

  • Theo giá trị k, giá trị tâm điểm được xác định bằng cách giảm thiểu tổng bình phương của khoảng cách giữa ứng viên có trọng tâm và từng ví dụ tương ứng.
  • Theo hệ k-trung bình, số trọng tâm được xác định bằng cách giảm thiểu tổng khoảng cách giữa ứng cử viên trọng tâm và từng ví dụ tương ứng.

Xin lưu ý rằng các định nghĩa về khoảng cách cũng sẽ khác nhau:

  • k-Medium dựa trên khoảng cách Euclidean từ trọng tâm đến một ví dụ. (Trong hai chiều, khoảng cách Euclide có nghĩa là sử dụng định lý Pytago để tính cạnh huyền.) Ví dụ: khoảng cách k-trung bình giữa (2,2) và (5,-2) sẽ là:
$$ {\text{Euclidean distance}} = {\sqrt {(2-5)^2 + (2--2)^2}} = 5 $$
  • k-median dựa vào khoảng cách Manhattan từ trọng tâm đến một ví dụ. Khoảng cách này là tổng của các delta tuyệt đối trong mỗi chiều. Ví dụ: khoảng cách trung bình k giữa (2,2) và (5,-2) sẽ là:
$$ {\text{Manhattan distance}} = \lvert 2-5 \rvert + \lvert 2--2 \rvert = 7 $$

S

đo lường độ tương đồng

#clustering

Trong các thuật toán trùng lặp, chỉ số được dùng để xác định mức độ giống nhau (mức độ giống nhau) của 2 ví dụ.

phác thảo

#clustering

Trong công nghệ học máy không được giám sát, một danh mục thuật toán tiến hành phân tích mức độ tương đồng sơ bộ trên các ví dụ. Thuật toán vẽ phác thảo sử dụng hàm băm nhạy cảm với vị trí để xác định các điểm có khả năng tương tự nhau rồi nhóm các điểm đó thành các nhóm.

Phác hoạ giúp giảm bớt lượng công việc tính toán cần thiết để tính toán độ tương đồng trên các tập dữ liệu lớn. Thay vì tính độ tương đồng cho từng cặp ví dụ trong tập dữ liệu, chúng tôi chỉ tính toán độ tương đồng cho từng cặp điểm trong mỗi nhóm.

T

phân tích chuỗi thời gian

#clustering

Một trường phụ dành cho công nghệ học máy và số liệu thống kê để phân tích dữ liệu tạm thời. Nhiều loại vấn đề trong công nghệ học máy yêu cầu phân tích chuỗi thời gian, bao gồm phân loại, phân cụm, dự báo và phát hiện hoạt động bất thường. Ví dụ: bạn có thể sử dụng dữ liệu phân tích chuỗi thời gian để dự đoán doanh số bán áo khoác mùa đông trong tương lai theo tháng dựa trên dữ liệu bán hàng trước đây.

U

học máy không giám sát

#clustering
#fundamentals

Đào tạo một model để tìm các mẫu trong một tập dữ liệu, thường là một tập dữ liệu chưa được gắn nhãn.

Việc sử dụng công nghệ học máy không được giám sát phổ biến nhất là để nhóm dữ liệu thành các nhóm gồm các ví dụ tương tự nhau. Ví dụ: một thuật toán học máy không được giám sát có thể nhóm các bài hát dựa trên nhiều thuộc tính của bản nhạc. Các cụm thu được có thể trở thành dữ liệu đầu vào cho các thuật toán học máy khác (ví dụ: cho một dịch vụ đề xuất nhạc). Việc phân cụm có thể hữu ích khi không có hoặc không có nhiều nhãn hữu ích. Ví dụ: trong các miền như chống hành vi sai trái và lừa đảo, các cụm có thể giúp con người hiểu rõ hơn về dữ liệu.

Trái ngược với công nghệ học máy có giám sát.