머신러닝 데이터 세트에는 수백만 개의 모든 클러스터링 알고리즘이 효율적으로 확장되는 것은 아닙니다. 많은 클러스터링 알고리즘이 모든 예 쌍 간의 유사성을 계산하며, 예시 개수의 제곱으로 런타임이 증가한다는 의미입니다. \(n\) 복잡도 표기법으로 \(O(n^2)\) 표시됩니다. \(O(n^2)\) 알고리즘은 훨씬 더 실용적이라고 할 수 있습니다.
k-평균 알고리즘에는 \(O(n)\)의 복잡도입니다. 즉, 알고리즘이 \(n\)에 따라 선형적으로 확장됩니다. 이 알고리즘은 이 과정의 핵심 내용입니다.
클러스터링의 유형
다양한 클러스터링 접근 방식의 전체 목록은 다음을 참조하세요. 클러스터링 알고리즘에 대한 종합적 설문조사 수, D. & 톈, Y. 앤. 데이터. 과학 (2015) 2: 165. 각 접근 방식은 특정 데이터 분포를 얻습니다. 이 과정에서는 4가지 일반적인 접근합니다
중심 기반 클러스터링
클러스터의 중심은 모든 점의 산술 평균입니다. kube-APIserver입니다 센트로이드 기반 군집화는 데이터를 비계층적 구조로 구성 kube-APIserver로 전송합니다 중심 기반 클러스터링 알고리즘은 효율적이지만 모델을 학습시킬 수 있습니다 이 중 k-평균이 널리 사용됩니다. 이를 위해서는 사용자가 중심(k), 그리고 거의 동일한 크기의 클러스터에서 잘 작동합니다.
<ph type="x-smartling-placeholder">밀도 기반 클러스터링
밀도 기반 클러스터링은 예시 밀도가 높은 인접한 영역을 kube-APIserver로 전송합니다 따라서 모든 형태의 클러스터를 원하는 만큼 발견할 수 있습니다. 이상점은 클러스터에 할당되지 않습니다. 이러한 알고리즘은 고차원으로 된 다양한 밀도의 데이터
<ph type="x-smartling-placeholder">분산 기반 클러스터링
이 클러스터링 접근 방식은 데이터가 확률론적 데이터로 구성되어 있다고 가정합니다. 배포(예: 가우시안 분포. 포함 그림 3. 분포 기반 알고리즘은 데이터를 3개의 가우시안으로 클러스터링 있습니다. 분포 중심에서 거리가 멀어지면 포인트가 분포에 속할 확률이 감소합니다. 밴드 쇼 가능성이 낮아집니다 특정한 상황을 가정하는 것이 불편할 때 다른 알고리즘을 사용해야 합니다.
<ph type="x-smartling-placeholder">계층적 군집화
계층적 클러스터링은 클러스터 트리를 만듭니다. 계층적 군집화, 당연히 분류와 같은 계층적 데이터에 적합합니다. 자세한 내용은 61개의 서열 대장균 게놈 비교 Oksana Lukjancenko, Trudy Wassenaar 및 Dave Ussery를 예로 들겠습니다. 트리를 적절한 수준으로 자르면 클러스터를 원하는 만큼 선택할 수 있습니다.
<ph type="x-smartling-placeholder">