k-평균은 많은 머신러닝 컨텍스트에서 유용하고 효율적이지만 몇 가지 뚜렷한 약점이 있습니다
k-평균의 이점
상대적으로 구현하기 쉽습니다.
대규모 데이터 세트로 확장
항상 수렴됩니다.
중심의 위치를 웜 스타트할 수 있습니다.
새로운 예에 원활하게 적응합니다.
다양한 유형의 클러스터로 일반화할 수 있는 타원형 성단과 같이 다양한 형태와 크기를 가질 수 있습니다
k-평균 일반화
k-평균을 간단하게 구현하는 것은 다양한 밀도와 크기를 지원합니다. 그림 1의 왼쪽에는 오른쪽에는 k-평균에 의해 제안된 클러스터가 표시됩니다.
<ph type="x-smartling-placeholder">그림 1과 같이 불균형한 클러스터에서 더 나은 성능을 얻으려면 적응, k-평균을 일반화할 수 있습니다. 그림 2는 두 가지 일반화로 클러스터링된 데이터 세트입니다. 첫 번째 데이터 세트는 일반화가 없는 k-평균 - 두 번째와 세 번째는 클러스터가 크기가 달라질 수 있습니다.
<ph type="x-smartling-placeholder">이 과정에서는 k-평균을 일반화하는 방법을 다루지 않지만 클러스터링 - k-평균 가우시안 혼합을 참조하세요. 모델 카네기 멜런 대학교의 카를로스 게스트린 박사입니다.
k-평균의 단점
\(k\) 는 수동으로 선택해야 합니다.
결과는 초깃값에 따라 다릅니다.
낮은 \(k\)의 경우 k-평균 몇 가지를 실행하여 이 종속 항목을 완화할 수 있습니다. 최적의 결과를 선택하는 데 도움이 됩니다. \(k\)(으)로 증가하면 더 나은 초기 문장을 선택하기 위해 k-평균 시드가 필요합니다. 중심 k-평균 시드에 대한 자세한 내용은 "A K-평균 클러스터링을 위한 효율적인 초기화 방법 연구 Algorithm", M. 엠레 셀레비, 하산 A. Kingravi, Patricio A. 벨라.
다양한 규모의 데이터를 손쉽게 클러스터링하고 일반화되지 않은 밀도를 측정할 수 있습니다
난이도 클러스터링 이상점.
중심은 이상점에 의해 드래그되거나 이상점에 자체 클러스터가 있을 수 있습니다. 를 사용하는 것이 좋습니다. 사전에 이상점을 삭제하거나 잘라내세요. 살펴보겠습니다
차원 수로 확장하기 어려움.
데이터의 차원 수가 증가하면 거리 기반 유사성이 특정 예 사이의 상수 값으로 수렴됩니다. 방지(Reduce) 사용하여 PCA 특성 데이터에 적용하거나 스펙트럼 클러스터링을 사용하여 클러스터링 수정 알고리즘입니다.
차원의 저주와 스펙트럼 클러스터링
이 세 도표에서 차원이 증가함에 따라 표준 편차가 는 예 사이의 거리는 평균 거리를 기준으로 줄어듭니다. 예로 들 수 있습니다 이 수렴은 k-평균이 두 단어를 구별하는 데 예시가 될 수 있습니다. 이를 가리켜 차원의 저주.
<ph type="x-smartling-placeholder">스펙트럼 클러스터링을 사용하면 이러한 성능 저하를 방지할 수 있습니다. 알고리즘에 사전 클러스터링 단계를 추가합니다. 스펙트럼을 수행하기 위해 클러스터링:
- PCA를 사용하여 특성 데이터의 차원을 줄입니다.
- 모든 데이터 포인트를 저차원 하위 공간에 투영합니다.
- 선택한 알고리즘을 사용하여 이 하위 공간의 데이터를 클러스터링합니다.
스펙트럼에 대한 튜토리얼을 참조하세요. 울리케 폰 룩스버그의 Clustering: 스펙트럼에 대한 자세한 내용 살펴보겠습니다