K 平均法アルゴリズムの複雑さは \(O(n)\)です。つまり、アルゴリズムは \(n\)に比例してスケーリングされます。このコースでは、このアルゴリズムに焦点を当てます。
クラスタリング タイプ
クラスタリングに関するさまざまなアプローチの包括的なリストについては、Xu、D の A Comprehensive Survey of Clustering Algorithms をご覧ください。& Tian, Y. Ann. Data. Sci. (2015) 2: 165. 各アプローチは、特定のデータ分布に最適です。このコースでは、4 つの一般的なアプローチについて簡単に説明します。
重心ベースのクラスタリング
クラスタのセントロイドは、クラスタ内のすべてのポイントの算術平均です。重心ベースのクラスタリングでは、データを非階層クラスタに編成します。重心ベースのクラスタリング アルゴリズムは効率的ですが、初期条件と外れ値に敏感です。これらの中で、最も広く使用されているのは K 平均法です。ユーザーが重心の数(k)を定義する必要があり、サイズがほぼ同じクラスタで適切に機能します。
[null,null,["最終更新日 2025-02-25 UTC。"],[[["Many clustering algorithms have a complexity of O(n^2), making them impractical for large datasets, while the k-means algorithm scales linearly with a complexity of O(n)."],["Clustering approaches include centroid-based, density-based, distribution-based, and hierarchical clustering, each suited for different data distributions and structures."],["Centroid-based clustering, particularly k-means, is efficient for grouping data into non-hierarchical clusters based on the mean of data points, but is sensitive to initial conditions and outliers."],["Density-based clustering connects areas of high data density, effectively discovering clusters of varying shapes, but struggles with clusters of differing densities and high-dimensional data."],["Distribution-based clustering assumes data follows specific distributions (e.g., Gaussian), assigning points based on probability, while hierarchical clustering creates a tree of clusters, suitable for hierarchical data."]]],[]]