k-평균의 장단점

K-means는 많은 머신러닝 맥락에서 유용하고 효율적이지만 몇 가지 고유한 약점이 있습니다.

k-평균의 이점

구현이 비교적 간단합니다.

대규모 데이터 세트로 확장 가능

항상 수렴합니다.

중심점의 위치를 워밍업 시작할 수 있습니다.

새로운 예시를 원활하게 적용합니다.

타원형 클러스터와 같이 다양한 모양과 크기의 클러스터로 일반화할 수 있습니다.

k-평균 일반화

k-평균을 직접 구현하면 밀도와 크기가 다른 클러스터가 생길 수 있습니다. 그림 1의 왼쪽에는 예상되는 클러스터가 표시되고 오른쪽에는 k-means에서 제안한 클러스터가 표시됩니다.

그래프 두 개가 나란히 표시됩니다. 첫 번째는 다소 명확한 클러스터가 있는 데이터 세트를 보여줍니다. 두 번째는 k-means를 실행한 후 예시가 이상하게 그룹화된 것을 보여줍니다.
그림 1: 일반화되지 않은 k-평균 예시.

그림 1과 같이 불균형한 클러스터에서 성능을 개선하려면 k-means를 일반화(즉, 조정)하면 됩니다. 그림 2는 두 가지 일반화로 클러스터링된 세 가지 데이터 세트를 보여줍니다. 첫 번째 데이터 세트는 일반화 없이 k-means를 보여주고, 두 번째와 세 번째 데이터 세트는 클러스터의 너비를 다르게 허용합니다.

일반화 없이 k-means를 보여주는 그래프, 너비를 다르게 허용하는 k-means를 보여주는 그래프, 측정기준 간에 너비를 다르게 허용하는 k-means를 보여주는 그래프 3개
그림 2: 일반화 유무에 따른 k-평균 클러스터링

이 과정에서는 k-means를 일반화하는 방법을 다루지 않지만 관심이 있는 경우 카네기멜론대학교의 카를로스 게스트린이 작성한 클러스터링 – k-means 가우시안 혼합 모델을 참고하세요.

k-평균의 단점

k 는 수동으로 선택해야 합니다.

결과는 초기 값에 따라 다릅니다.

k가 낮은 경우 초깃값을 다르게 사용하여 k-means를 여러 번 실행하고 최적의 결과를 선택하여 이러한 종속 항목을 완화할 수 있습니다. k이 증가하면 더 나은 초기 중심점을 선택하기 위해 k-평균 시드링이 필요합니다. k-평균 시드링에 관한 자세한 내용은 M. 엠레 셀레비, 하산 A. 킹라비, 파토리시오 A. Vela.

일반화 없이 다양한 크기와 밀도의 데이터를 클러스터링하기 어려움

이상치 클러스터링의 어려움

중심점은 이상치에 의해 드래그되거나 무시되는 대신 자체 클러스터를 가질 수 있습니다. 클러스터링하기 전에 이상치를 삭제하거나 잘라내는 것이 좋습니다.

측정기준 수가 많아질수록 난이도가 증가합니다.

데이터의 측정기준 수가 증가하면 거리 기반 유사성 측정값은 주어진 예시 간에 상수 값으로 수렴합니다. 특성 데이터에 PCA를 사용하거나 스펙트럴 클러스터링을 사용하여 클러스터링 알고리즘을 수정하여 차원을 줄입니다.

차원 저주 및 스펙트럴 클러스터링

이 세 개의 그래프에서 측정기준이 증가함에 따라 예시 간의 거리의 표준 편차가 예시 간의 평균 거리에 비해 줄어드는 것을 확인할 수 있습니다. 이러한 수렴은 데이터의 차원이 증가함에 따라 k-means가 예시를 구분하는 데 덜 효과적임을 의미합니다. 이를 차원 저주라고 합니다.

차원 수가 증가함에 따라 예시 간 거리의 표준 편차가 감소하는 방식을 보여주는 세 개의 그래프
그림 3: 차원의 저주를 보여주는 시연 각 그래프는 200개의 임의 점에서 쌍으로 이루어진 거리를 보여줍니다.

알고리즘에 사전 클러스터링 단계를 추가하는 스펙트럴 클러스터링을 사용하면 이러한 성능 저하를 방지할 수 있습니다. 스펙트럴 클러스터링을 실행하려면 다음 단계를 따르세요.

  1. PCA를 사용하여 특성 데이터의 차원을 줄입니다.
  2. 모든 데이터 포인트를 하위 차원 하위 공간으로 투영합니다.
  3. 선택한 알고리즘을 사용하여 이 하위 공간의 데이터를 클러스터링합니다.

스펙트럴 클러스터링에 관한 자세한 내용은 Ulrike von Luxburg의 스펙트럴 클러스터링 튜토리얼을 참고하세요.