Bảng thuật ngữ về học máy: Tạo cụm

Trang này chứa các thuật ngữ trong từ điển về tính năng Nhóm. Để xem tất cả các thuật ngữ trong từ điển, hãy nhấp vào đây.

A

phân cụm kết hợp

#clustering

Xem phần thu thập dữ liệu theo cụm phân cấp.

C

tâm

#clustering

Tâm của một cụm do thuật toán k-means hoặc k-median xác định. Ví dụ: nếu k là 3, thì thuật toán k-means hoặc k-median sẽ tìm thấy 3 tâm điểm.

Hãy xem phần Thuật toán phân cụm trong khoá học Phân cụm để biết thêm thông tin.

phân cụm dựa trên tâm điểm

#clustering

Một danh mục thuật toán phân cụm sắp xếp dữ liệu thành các cụm không phân cấp. k-means là thuật toán phân cụm dựa trên tâm điểm được sử dụng rộng rãi nhất.

Tương phản với các thuật toán phân cụm phân cấp.

Hãy xem phần Thuật toán phân cụm trong khoá học Phân cụm để biết thêm thông tin.

phân cụm

#clustering

Nhóm các ví dụ có liên quan, đặc biệt là trong quá trình học không có giám sát. Sau khi tất cả các ví dụ được nhóm lại với nhau, con người có thể tuỳ ý cung cấp ý nghĩa cho từng cụm.

Có nhiều thuật toán phân cụm. Ví dụ: thuật toán k-means phân cụm các ví dụ dựa trên khoảng cách của các ví dụ đó với trung tâm trọng lực, như trong sơ đồ sau:

Biểu đồ hai chiều trong đó trục x được gắn nhãn chiều rộng cây và trục y được gắn nhãn chiều cao cây. Biểu đồ này chứa hai tâm điểm và vài chục điểm dữ liệu. Các điểm dữ liệu được phân loại dựa trên khoảng cách của chúng. Tức là các điểm dữ liệu gần nhất với một tâm điểm được phân loại là cụm 1, trong khi các điểm dữ liệu gần nhất với tâm điểm còn lại được phân loại là cụm 2.

Sau đó, nhà nghiên cứu có thể xem xét các cụm này và ví dụ: gắn nhãn cụm 1 là "cây lùn" và cụm 2 là "cây kích thước đầy đủ".

Ví dụ khác: hãy xem xét thuật toán phân cụm dựa trên khoảng cách của một ví dụ từ một điểm trung tâm, minh hoạ như sau:

Hàng chục điểm dữ liệu được sắp xếp theo hình tròn đồng tâm, gần giống như các lỗ xung quanh tâm của bảng phi tiêu. Vòng trong cùng của các điểm dữ liệu được phân loại là cụm 1, vòng giữa được phân loại là cụm 2 và vòng ngoài cùng được phân loại là cụm 3.

Hãy xem khoá học về tính năng Nhóm để biết thêm thông tin.

D

phân cụm phân chia

#clustering

Xem phần thu thập dữ liệu theo cụm phân cấp.

Cao

phân cụm phân cấp

#clustering

Một danh mục thuật toán phân cụm tạo ra một cây của các cụm. Tính năng phân cụm phân cấp rất phù hợp với dữ liệu phân cấp, chẳng hạn như các hệ thống phân loại thực vật. Có hai loại thuật toán phân cụm phân cấp:

  • Trước tiên, kỹ thuật phân cụm kết hợp gán mỗi ví dụ cho một cụm riêng, rồi lặp lại việc hợp nhất các cụm gần nhất để tạo một cây phân cấp.
  • Trước tiên, kỹ thuật phân cụm phân chia sẽ nhóm tất cả các ví dụ vào một cụm, sau đó lặp lại việc chia cụm đó thành một cây phân cấp.

Tương phản với thuật toán phân cụm dựa trên tâm điểm.

Hãy xem phần Thuật toán phân cụm trong khoá học Phân cụm để biết thêm thông tin.

nghìn

k trung bình

#clustering

Một thuật toán nhóm phổ biến giúp nhóm các ví dụ trong quá trình học không có giám sát. Về cơ bản, thuật toán k-means thực hiện những việc sau:

  • Xác định lặp lại các điểm trung tâm k tốt nhất (còn gọi là trung tâm trọng lực).
  • Chỉ định mỗi ví dụ cho tâm điểm gần nhất. Những ví dụ gần nhất với cùng một tâm điểm sẽ thuộc cùng một nhóm.

Thuật toán k-means chọn các vị trí trọng tâm để giảm thiểu hình vuông tích luỹ của các khoảng cách từ mỗi ví dụ đến trọng tâm gần nhất.

Ví dụ: hãy xem xét biểu đồ sau đây về chiều cao so với chiều rộng của chó:

Biểu đồ Descartes có vài chục điểm dữ liệu.

Nếu k=3, thuật toán k-means sẽ xác định 3 tâm điểm. Mỗi ví dụ được chỉ định cho tâm điểm gần nhất, tạo ra ba nhóm:

Biểu đồ Descartes giống như trong hình minh hoạ trước, ngoại trừ việc thêm ba trọng tâm.
          Các điểm dữ liệu trước đó được nhóm thành ba nhóm riêng biệt, trong đó mỗi nhóm đại diện cho các điểm dữ liệu gần nhất với một tâm cụ thể.

Hãy tưởng tượng một nhà sản xuất muốn xác định kích thước lý tưởng cho áo len nhỏ, trung bình và lớn dành cho chó. Ba tâm điểm xác định chiều cao trung bình và chiều rộng trung bình của mỗi chú chó trong cụm đó. Vì vậy, nhà sản xuất nên dựa vào 3 tâm điểm đó để xác định kích thước áo len. Xin lưu ý rằng tâm của một cụm thường không phải là một ví dụ trong cụm đó.

Hình minh hoạ trước đó cho thấy k-means cho các ví dụ chỉ có hai đặc điểm (chiều cao và chiều rộng). Xin lưu ý rằng k-means có thể nhóm các ví dụ trên nhiều tính năng.

k trung vị

#clustering

Một thuật toán phân cụm liên quan chặt chẽ đến k-means. Sự khác biệt thực tế giữa hai loại này như sau:

  • Trong k-means, các tâm điểm được xác định bằng cách giảm thiểu tổng bình phương của khoảng cách giữa một tâm điểm đề xuất và từng ví dụ của tâm điểm đó.
  • Trong k-median, các tâm điểm được xác định bằng cách giảm thiểu tổng khoảng cách giữa một tâm điểm đề xuất và mỗi ví dụ của tâm điểm đó.

Xin lưu ý rằng định nghĩa về khoảng cách cũng khác nhau:

  • K-means dựa trên khoảng cách Euclide từ tâm điểm đến một ví dụ. (Trong hai chiều, khoảng cách Euclide có nghĩa là sử dụng định lý Pythagore để tính cạnh huyền.) Ví dụ: khoảng cách k-means giữa (2,2) và (5,-2) sẽ là:
$$ {\text{Euclidean distance}} = {\sqrt {(2-5)^2 + (2--2)^2}} = 5 $$
  • K-median dựa trên khoảng cách Manhattan từ tâm điểm đến một ví dụ. Khoảng cách này là tổng delta tuyệt đối trong mỗi phương diện. Ví dụ: khoảng cách k-median giữa (2,2) và (5,-2) sẽ là:
$$ {\text{Manhattan distance}} = \lvert 2-5 \rvert + \lvert 2--2 \rvert = 7 $$

S

chỉ số tương đồng

#clustering

Trong các thuật toán nhóm, chỉ số này dùng để xác định mức độ giống nhau (tương đồng) giữa hai ví dụ bất kỳ.

phác thảo

#clustering

Trong công nghệ học máy không giám sát, một danh mục thuật toán thực hiện phân tích sơ bộ về mức độ tương đồng trên các ví dụ. Các thuật toán phác thảo sử dụng hàm băm nhạy cảm với vị trí để xác định các điểm có khả năng tương tự nhau, sau đó nhóm các điểm đó thành các bộ chứa.

Việc phác thảo sẽ làm giảm lượng tính toán cần thiết cho các phép tính tương đồng trên các tập dữ liệu lớn. Thay vì tính toán mức độ tương đồng cho từng cặp ví dụ trong tập dữ liệu, chúng ta chỉ tính toán mức độ tương đồng cho từng cặp điểm trong mỗi bộ chứa.

T

phân tích chuỗi thời gian

#clustering

Một lĩnh vực phụ của học máy và số liệu thống kê phân tích dữ liệu theo thời gian. Nhiều loại vấn đề về học máy yêu cầu phân tích chuỗi thời gian, bao gồm cả việc phân loại, phân cụm, dự đoán và phát hiện sự bất thường. Ví dụ: bạn có thể sử dụng tính năng phân tích chuỗi thời gian để dự đoán doanh số bán áo khoác mùa đông trong tương lai theo tháng dựa trên dữ liệu bán hàng trước đây.

U

học máy không giám sát

#clustering
#fundamentals

Huấn luyện mô hình để tìm các mẫu trong một tập dữ liệu, thường là một tập dữ liệu chưa được gắn nhãn.

Cách sử dụng phổ biến nhất của công nghệ học máy không giám sát là nhóm dữ liệu thành các nhóm ví dụ tương tự. Ví dụ: thuật toán học máy không giám sát có thể phân cụm các bài hát dựa trên nhiều thuộc tính của bản nhạc. Các cụm thu được có thể trở thành dữ liệu đầu vào cho các thuật toán học máy khác (ví dụ: cho một dịch vụ đề xuất nhạc). Tính năng cụm có thể hữu ích khi không có hoặc có rất ít nhãn hữu ích. Ví dụ: trong các lĩnh vực như chống hành vi sai trái và gian lận, cụm có thể giúp con người hiểu rõ hơn về dữ liệu.

Khác với công nghệ học máy có giám sát.