앞서 언급했듯이 많은 클러스터링 알고리즘은 데이터 세트에 맞게 확장되지 않으며 수많은 예시가 포함된 머신러닝에 사용됩니다 예를 들어 병합형 또는 분열형 계층적 군집화 알고리즘은 모든 데이터 세트를 복잡한 점 \(O(n^2 log(n))\) , \(O(n^2)\)
이 과정에서는 \(O(nk)\)로 조정되므로 k-평균에 중점을 둡니다. 여기에서 \(k\) 는 사용자가 선택한 클러스터의 수입니다. 이 알고리즘은 포인트를 그룹화하여 \(k\) 각 점 사이의 거리를 최소화하여 클러스터링 나타냅니다 (그림 1 참조).
결과적으로 k-평균은 데이터를 대략 인코더와 디코더에 해당하는 클러스터를 찾아 있습니다. 하지만 실제 데이터에는 이상점과 밀도 기반 클러스터가 포함되어 있습니다. k-평균 기반 가정과 일치하지 않을 수 있습니다.
k-평균 클러스터링 알고리즘
알고리즘은 다음 단계를 따릅니다.
\(k\)에 대한 초기 추측을 입력합니다. 나중에 수정할 수 있습니다. 이 작업 예를 들어 \(k = 3\)를 선택합니다.
중심을 \(k\) 임의로 선택합니다.
<ph type="x-smartling-placeholder">각 점을 가장 가까운 중심에 할당하여 \(k\) 초기 클러스터를 생성합니다.
<ph type="x-smartling-placeholder">각 클러스터의 평균 위치를 사용해 새 중심을 계산합니다. 모든 포인트에 저장됩니다 그림 4의 화살표는 찾을 수 있습니다.
<ph type="x-smartling-placeholder">각 점을 가장 가까운 새 중심에 재할당합니다.
<ph type="x-smartling-placeholder">4단계와 5단계를 반복하여 중심과 성단 구성원을 다시 계산합니다. 포인트가 더 이상 클러스터를 변경하지 않습니다. 대규모 데이터 세트의 경우 다른 기준에 따라 수렴 전에 알고리즘을 중지합니다.
중심 위치는 처음에는 무작위로 선택되므로 k-평균은 결과가 크게 달라질 수 있습니다. 이 문제를 해결하려면 k-평균을 여러 번 실행하고 가장 좋은 품질의 결과를 선택합니다. 측정항목입니다. 품질 측정항목은 이 과정의 후반부에서 설명합니다. 서비스 계정에 초기 중심 위치를 더 잘 선택하는 데 사용할 수 있습니다.
수학에 대한 깊은 이해는 필요하지 않지만, 초보자에게는 k-평균은 기대-극대화 알고리즘입니다. 자세한 내용은 주제에 대한 강의 노트를 확인해 보세요.