Bảng thuật ngữ máy học: Phân nhóm

Trang này chứa các thuật ngữ Bảng thuật ngữ về việc phân nhóm. Đối với tất cả các thuật ngữ, hãy nhấp vào đây.

A

cụm hội thoại

#clustering

Xem phần phân nhóm phân cấp.

C

trung tâm

#clustering

Tâm của một cụm được xác định bằng thuật toán k-mean hoặc k-median. Ví dụ: nếu k là 3, thì thuật toán k-mean hoặc k-trung bình sẽ tìm 3 tâm động.

phân nhóm dựa trên centroid

#clustering

Một danh mục thuật toán nhóm giúp sắp xếp dữ liệu vào các cụm không phân cấp. k-mean là thuật toán phân cụm dựa trên centroid được sử dụng rộng rãi nhất.

Tương phản với các thuật toán phân cấp theo cấp bậc.

phân cụm

#clustering

Nhóm các ví dụ có liên quan, đặc biệt là trong quá trình học không giám sát. Sau khi nhóm tất cả ví dụ, người dùng có thể tuỳ ý cung cấp ý nghĩa cho mỗi cụm.

Có nhiều thuật toán nhóm. Ví dụ: các ví dụ về thuật toán k-mean dựa trên mức độ gần với trung tâm như trong sơ đồ dưới đây:

Một biểu đồ hai chiều, trong đó trục x được gắn nhãn "width width" (chiều rộng cây) và trục y được gắn nhãn "tree height" (chiều cao cây). Biểu đồ này chứa hai
          tâm điểm và vài chục điểm dữ liệu. Các điểm dữ liệu được phân loại dựa trên khoảng cách của chúng. Tức là các điểm dữ liệu gần nhất với một tiêu điểm được phân loại là "cụm 1", còn các điểm gần với tiêu chí khác hơn đều được phân loại là "cụm 2".

Sau đó, nhà nghiên cứu của con người có thể xem xét các cụm và ví dụ: gắn cụm 1 là "cây lùn" và cụm 2 là "cây đủ kích thước".

Một ví dụ khác, hãy xem xét một thuật toán phân cụm dựa trên khoảng cách của ví dụ với một điểm trung tâm, như minh họa như sau:

Hàng chục điểm dữ liệu được sắp xếp theo hình tròn đồng tâm, gần giống như các lỗ xung quanh trung tâm bảng phi tiêu. Vòng trong cùng của điểm dữ liệu được phân loại là 'cụm 1', vòng giữa được phân loại là 'cụm 2' và vòng ngoài cùng là 'cụm 3'.

D

phân chia chia

#clustering

Xem phần phân nhóm phân cấp.

H

phân cấp theo thứ bậc

#clustering

Một danh mục các thuật toán nhóm tạo một cây cụm. Tính năng phân cấp theo thứ bậc rất phù hợp với dữ liệu phân cấp, chẳng hạn như các đơn vị phân loại thực vật. Có hai loại thuật toán phân cụm phân cấp:

  • Trước tiên, cụm từ tích lũy sẽ chỉ định mọi ví dụ cho cụm riêng của nó và hợp nhất lặp lại các cụm gần nhất để tạo một cây phân cấp.
  • Đầu tiên, Phân chia để nhóm tất cả các ví dụ thành một cụm, sau đó chia cụm thành một cây phân cấp.

Tương phản với phân nhóm dựa trên trung tâm.

nghìn

k-mean

#clustering

Một thuật toán phân nhóm phổ biến giúp nhóm các ví dụ trong hoạt động học tập không được giám sát. Thuật toán k-mean về cơ bản thực hiện những việc sau:

  • Lặp lại điều này xác định các điểm trung tâm k tốt nhất (được gọi là centroid).
  • Gán mỗi ví dụ cho tiêu điểm gần nhất. Những ví dụ gần nhất với cùng một tâm thể thuộc cùng một nhóm.

Thuật toán k-mean chọn vị trí centroid để giảm thiểu vuông tích lũy của khoảng cách từ mỗi ví dụ đến centroid gần nhất.

Ví dụ: hãy xem xét biểu đồ chiều cao dành cho chó sau đây về chiều rộng của chú chó:

Một biểu đồ Descartes với vài chục điểm dữ liệu.

Nếu k=3, thuật toán k-mean sẽ xác định ba tâm. Mỗi ví dụ được gán cho một trọng tâm gần nhất, tạo ra ba nhóm:

Biểu đồ Descartes tương tự như trong hình minh họa trước, ngoại trừ việc thêm ba trung tâm.
          Các điểm dữ liệu trước đó được nhóm thành ba nhóm riêng biệt, mỗi nhóm đại diện cho các điểm dữ liệu gần với một tiêu điểm cụ thể nhất.

Hãy tưởng tượng rằng một nhà sản xuất muốn xác định kích thước lý tưởng cho áo len cho cả nhỏ, vừa và lớn. Ba con cent trung tâm xác định chiều cao và chiều rộng trung bình của mỗi con chó trong cụm đó. Vì vậy, nhà sản xuất có lẽ nên đặt kích thước áo len dựa trên ba trọng tâm đó. Xin lưu ý rằng trọng tâm của một cụm thường không phải là ví dụ trong cụm đó.

Các hình minh hoạ trước cho thấy k có nghĩa là các ví dụ chỉ có hai đối tượng (chiều cao và chiều rộng). Xin lưu ý rằng phương tiện k có thể nhóm các ví dụ về nhiều tính năng.

k-trung bình

#clustering

Một thuật toán phân cụm có liên quan chặt chẽ đến k-mean. Sự khác biệt thực tế giữa hai loại như sau:

  • Tính theo k, giá trị centroid được xác định bằng cách giảm thiểu tổng các bình phương của khoảng cách giữa một ứng cử viên centroid và mỗi ví dụ về centroid đó.
  • Trong trung gian k, tâm động được xác định bằng cách giảm thiểu tổng khoảng cách giữa một ứng cử viên trung tâm và mỗi ví dụ của trung tâm đó.

Lưu ý rằng định nghĩa về khoảng cách cũng khác:

  • k-mean dựa vào khoảng cách Euclid tính từ tâm đến ví dụ. (Trong hai chiều, khoảng cách Euclide có nghĩa là sử dụng định lý Pitago để tính cạnh huyền.) Ví dụ: khoảng cách k có nghĩa là giữa (2,2) và (5,-2) sẽ là:
$$ {\text{Euclidean distance}} = {\sqrt {(2-5)^2 + (2--2)^2}} = 5 $$
  • k-median dựa vào khoảng cách Manhattan từ tâm điểm đến một ví dụ. Khoảng cách này là tổng số delta tuyệt đối trong mỗi thứ nguyên. Ví dụ: khoảng cách trung bình giữa (2,2) và (5,-2) sẽ là:
$$ {\text{Manhattan distance}} = \lvert 2-5 \rvert + \lvert 2--2 \rvert = 7 $$

CN

đo lường mức độ tương đồng

#clustering

Trong các thuật toán nhóm, chỉ số được dùng để xác định mức độ giống nhau (giống nhau) của hai ví dụ.

phác thảo

#clustering

Trong máy học không giám sát, một danh mục thuật toán thực hiện việc phân tích tương tự sơ bộ về các ví dụ. Các thuật toán phác thảo sử dụng hàm băm nhạy cảm cục bộ để xác định các điểm có khả năng tương tự nhau, sau đó nhóm các nhóm đó thành các nhóm.

Sketching giảm tính toán cần thiết cho các tính toán tương tự trên các tập dữ liệu lớn. Thay vì tính toán mức độ tương tự cho mọi cặp ví dụ trong tập dữ liệu, chúng tôi chỉ tính toán mức độ tương tự cho từng cặp điểm trong mỗi nhóm.

T

phân tích chuỗi thời gian

#clustering

Một trường phụ của công nghệ máy học và số liệu thống kê giúp phân tích dữ liệu tạm thời. Nhiều loại sự cố máy học cần phải phân tích chuỗi thời gian, bao gồm phân loại, phân nhóm, dự báo và phát hiện hoạt động bất thường. Ví dụ: bạn có thể sử dụng phân tích theo chuỗi thời gian để dự báo doanh số bán áo khoác mùa đông trong tương lai theo tháng dựa trên dữ liệu bán hàng trước đây.

U

công nghệ học máy không được giám sát

#clustering
#fundamentals

Đào tạo một mô hình để tìm các mẫu trong một tập dữ liệu, thường là một tập dữ liệu không được gắn nhãn.

Cách sử dụng phổ biến nhất của công nghệ máy học không được giám sát là nhóm dữ liệu vào các nhóm ví dụ tương tự. Ví dụ: một thuật toán máy học không được giám sát có thể nhóm các bài hát dựa trên nhiều thuộc tính của nhạc. Các cụm kết quả có thể trở thành dữ liệu đầu vào cho các thuật toán máy học khác (ví dụ: đối với dịch vụ đề xuất nhạc). Phân cụm có thể hữu ích khi các nhãn hữu ích khan hiếm hoặc vắng mặt. Ví dụ: trong các miền như chống hành vi sai trái và lừa đảo, cụm có thể giúp con người hiểu rõ hơn về dữ liệu.

Tương phản với máy học có giám sát.