앞서 언급했듯이 많은 클러스터링 알고리즘은 데이터 세트에 맞게 확장되지 않으며
수많은 예시가 포함된
머신러닝에 사용됩니다 예를 들어
병합형 또는 분열형 계층적 군집화 알고리즘은 모든 데이터 세트를
복잡한 점 ,
이 과정에서는 로 조정되므로 k-평균에 중점을 둡니다. 여기에서
는 사용자가 선택한 클러스터의 수입니다. 이 알고리즘은 포인트를 그룹화하여
각 점 사이의 거리를 최소화하여 클러스터링
나타냅니다 (그림 1 참조).
결과적으로 k-평균은 데이터를 대략
인코더와 디코더에 해당하는
클러스터를 찾아
있습니다. 하지만 실제 데이터에는 이상점과 밀도 기반 클러스터가 포함되어 있습니다.
k-평균 기반 가정과 일치하지 않을 수 있습니다.
k-평균 클러스터링 알고리즘
알고리즘은 다음 단계를 따릅니다.
에 대한 초기 추측을 입력합니다. 나중에 수정할 수 있습니다. 이 작업
예를 들어 를 선택합니다.
중심을 임의로 선택합니다.
<ph type="x-smartling-placeholder"></ph>
그림 1: 초기화 시 k-평균
각 점을 가장 가까운 중심에 할당하여 초기 클러스터를 생성합니다.
<ph type="x-smartling-placeholder"></ph>
그림 2: 초기 클러스터
각 클러스터의 평균 위치를 사용해 새 중심을 계산합니다.
모든 포인트에 저장됩니다 그림 4의 화살표는
찾을 수 있습니다.
<ph type="x-smartling-placeholder"></ph>
그림 3: 다시 계산된 중심
각 점을 가장 가까운 새 중심에 재할당합니다.
<ph type="x-smartling-placeholder"></ph>
그림 4: 재할당 후 클러스터
4단계와 5단계를 반복하여 중심과 성단 구성원을 다시 계산합니다.
포인트가 더 이상 클러스터를 변경하지 않습니다. 대규모 데이터 세트의 경우
다른 기준에 따라 수렴 전에 알고리즘을 중지합니다.
중심 위치는 처음에는 무작위로 선택되므로 k-평균은
결과가 크게 달라질 수 있습니다. 이 문제를 해결하려면
k-평균을 여러 번 실행하고 가장 좋은 품질의 결과를 선택합니다.
측정항목입니다. 품질 측정항목은 이 과정의 후반부에서 설명합니다. 서비스 계정에
초기 중심 위치를 더 잘 선택하는 데 사용할 수 있습니다.
[null,null,["최종 업데이트: 2024-07-22(UTC)"],[[["The k-means clustering algorithm groups data points into clusters by minimizing the distance between each point and its cluster's centroid."],["K-means is efficient, scaling as O(nk), making it suitable for large datasets in machine learning, unlike hierarchical clustering methods."],["The algorithm iteratively refines clusters by recalculating centroids and reassigning points until convergence or a stopping criteria is met."],["Due to random initialization, k-means can produce varying results; running it multiple times and selecting the best outcome based on quality metrics is recommended."],["K-means assumes data is composed of circular distributions, which may not be accurate for all real-world data containing outliers or density-based clusters."]]],[]]