다른 ML 문제와 마찬가지로 이 데이터에서 모델을 학습하거나 미세 조정하기 전에 특성 데이터를 정규화, 조정, 변환해야 합니다. 또한 클러스터링하기 전에 준비된 데이터를 사용하여 예시 간의 유사성을 정확하게 계산할 수 있는지 확인하세요.
유사성 측정항목 만들기
클러스터링 알고리즘이 데이터를 그룹화하려면 예시 쌍이 얼마나 유사한지 알아야 합니다. 유사성 측정항목을 만들어 예시 간의 유사성을 수치화할 수 있습니다. 이때 데이터를 신중하게 이해해야 합니다.
클러스터링 알고리즘 실행
클러스터링 알고리즘은 유사성 측정항목을 사용하여 데이터를 클러스터링합니다.
이 과정에서는 k-평균을 사용합니다.
결과 해석 및 조정
클러스터링은 출력을 확인할 수 있는 기본 '진실'을 생성하거나 포함하지 않으므로 클러스터 수준과 예시 수준에서 모두 기대치와 결과를 확인하는 것이 중요합니다. 결과가 이상하거나 품질이 좋지 않은 경우 이전 세 단계를 실험해 보세요. 출력 품질이 요구사항을 충족할 때까지 반복합니다.
[null,null,["최종 업데이트: 2025-02-25(UTC)"],[[["Data needs to be prepared through normalization, scaling, and transformation before using it for clustering."],["A similarity metric is crucial for clustering algorithms as it quantifies how similar data points are to each other."],["The k-means algorithm is employed in this course to group data based on the defined similarity metric."],["Evaluating and adjusting clustering outcomes is an iterative process involving reviewing cluster quality and individual data point assignments."]]],[]]