k-평균의 장단점

k-평균은 많은 머신러닝 컨텍스트에서 유용하고 효율적이지만 몇 가지 뚜렷한 약점이 있습니다

k-평균의 이점

상대적으로 구현하기 쉽습니다.

대규모 데이터 세트로 확장

항상 수렴됩니다.

중심의 위치를 웜 스타트할 수 있습니다.

새로운 예에 원활하게 적응합니다.

다양한 유형의 클러스터로 일반화할 수 있는 타원형 성단과 같이 다양한 형태와 크기를 가질 수 있습니다

k-평균 일반화

k-평균을 간단하게 구현하는 것은 다양한 밀도와 크기를 지원합니다. 그림 1의 왼쪽에는 오른쪽에는 k-평균에 의해 제안된 클러스터가 표시됩니다.

<ph type="x-smartling-placeholder">
</ph> 나란히 표시된 두 그래프 첫 번째는 다소 분명한 클러스터가 있는 데이터 세트를 보여줍니다. 두 번째는 k-평균을 실행한 후 홀수 그룹화된 예시를 보여줍니다.
그림 1: 일반화되지 않은 k-평균 예시

그림 1과 같이 불균형한 클러스터에서 더 나은 성능을 얻으려면 적응, k-평균을 일반화할 수 있습니다. 그림 2는 두 가지 일반화로 클러스터링된 데이터 세트입니다. 첫 번째 데이터 세트는 일반화가 없는 k-평균 - 두 번째와 세 번째는 클러스터가 크기가 달라질 수 있습니다.

<ph type="x-smartling-placeholder">
</ph> 일반화하지 않은 k-평균과 k-평균을 차례로 보여주는 그래프 3개
       k-평균은 다양한 너비를 허용합니다.
       확인할 수 있습니다
그림 2: 일반화 유무에 따른 k-평균 클러스터링

이 과정에서는 k-평균을 일반화하는 방법을 다루지 않지만 클러스터링 - k-평균 가우시안 혼합을 참조하세요. 모델 카네기 멜런 대학교의 카를로스 게스트린 박사입니다.

k-평균의 단점

\(k\) 는 수동으로 선택해야 합니다.

결과는 초깃값에 따라 다릅니다.

낮은 \(k\)의 경우 k-평균 몇 가지를 실행하여 이 종속 항목을 완화할 수 있습니다. 최적의 결과를 선택하는 데 도움이 됩니다. \(k\)(으)로 증가하면 더 나은 초기 문장을 선택하기 위해 k-평균 시드가 필요합니다. 중심 k-평균 시드에 대한 자세한 내용은 "A K-평균 클러스터링을 위한 효율적인 초기화 방법 연구 Algorithm", M. 엠레 셀레비, 하산 A. Kingravi, Patricio A. 벨라.

다양한 규모의 데이터를 손쉽게 클러스터링하고 일반화되지 않은 밀도를 측정할 수 있습니다

난이도 클러스터링 이상점.

중심은 이상점에 의해 드래그되거나 이상점에 자체 클러스터가 있을 수 있습니다. 를 사용하는 것이 좋습니다. 사전에 이상점을 삭제하거나 잘라내세요. 살펴보겠습니다

차원 수로 확장하기 어려움.

데이터의 차원 수가 증가하면 거리 기반 유사성이 특정 예 사이의 상수 값으로 수렴됩니다. 방지(Reduce) 사용하여 PCA 특성 데이터에 적용하거나 스펙트럼 클러스터링을 사용하여 클러스터링 수정 알고리즘입니다.

차원의 저주와 스펙트럼 클러스터링

이 세 도표에서 차원이 증가함에 따라 표준 편차가 는 예 사이의 거리는 평균 거리를 기준으로 줄어듭니다. 예로 들 수 있습니다 이 수렴은 k-평균이 두 단어를 구별하는 데 예시가 될 수 있습니다. 이를 가리켜 차원의 저주.

<ph type="x-smartling-placeholder">
</ph> 차원 수가 증가함에 따라 예 간 거리의 표준 편차가 어떻게 감소하는지 보여주는 3개의 도표
그림 3: 차원의 저주에 대한 시연. 각 도표는 200개의 무작위 점 간의 쌍으로 거리를 보여줍니다.

스펙트럼 클러스터링을 사용하면 이러한 성능 저하를 방지할 수 있습니다. 알고리즘에 사전 클러스터링 단계를 추가합니다. 스펙트럼을 수행하기 위해 클러스터링:

  1. PCA를 사용하여 특성 데이터의 차원을 줄입니다.
  2. 모든 데이터 포인트를 저차원 하위 공간에 투영합니다.
  3. 선택한 알고리즘을 사용하여 이 하위 공간의 데이터를 클러스터링합니다.

스펙트럼에 대한 튜토리얼을 참조하세요. 울리케 폰 룩스버그의 Clustering: 스펙트럼에 대한 자세한 내용 살펴보겠습니다