클러스터링은 비지도이기 때문에 정답을 사용하여 있습니다. 정보가 없으면 품질 평가가 어려워집니다. 게다가 실제 데이터 세트는 일반적으로 데이터 세트에서와 같이 더 높은 수준의 성능을 제공할 수 있습니다
<ph type="x-smartling-placeholder">대신 실제 데이터가 그림 2와 비슷한 경우가 많아서 클러스터링 품질을 시각적으로 평가할 수 있습니다
<ph type="x-smartling-placeholder">그러나 반복적으로 적용할 수 있는 휴리스틱과 권장사항이 있습니다. 여러 가지 방법이 있습니다 다음 플로우 차트는 간략하게 살펴볼 것입니다. 각각에 대해 자세히 단계를 거칩니다.
<ph type="x-smartling-placeholder">1단계: 클러스터링 품질 평가
먼저 클러스터가 예상대로 표시되는지 확인하고, 동일한 클러스터에서 서로 유사한 것을 고려합니다.
그런 다음 일반적으로 사용되는 측정항목을 확인하세요 (전체 목록은 아님).
- 클러스터 카디널리티
- 클러스터 규모
- 다운스트림 실적
클러스터 카디널리티
클러스터 카디널리티는 클러스터당 예시 수입니다. 플롯 모든 클러스터에 대한 클러스터 카디널리티를 확인하고 주요 이상치입니다. 그림 2에서는 클러스터 5입니다.
<ph type="x-smartling-placeholder">클러스터 규모
클러스터 크기는 클러스터에 있는 모든 예시로부터의 거리의 합입니다. 되돌립니다. 모든 클러스터의 클러스터 규모 표시 및 이상점을 조사합니다. 그림 3에서 클러스터 0은 이상점입니다.
예시의 최대 또는 평균 거리도 살펴보세요. 이상점을 찾습니다.
<ph type="x-smartling-placeholder">크기 대 카디널리티
클러스터 카디널리티가 높을수록 더 많은 포인트가 할당될수록 직관적으로 타당할 수 있습니다. 해당 거리의 확률 합계가 더 커질수록 지점 (크기)의 지점들로 구성되어 있습니다. 또한 비정상적인 클러스터를 식별하여 카디널리티와 크기 간의 이러한 관계가 다른 클러스터와 매우 다릅니다 그림 4에서는 카디널리티와 크기의 도표는 클러스터 0이 비정상임을 나타냅니다. 클러스터 5도 선에서 멀리 떨어져 있지만 클러스터 0이 생략된 경우 새로운 적합한 직선은 클러스터 5에 훨씬 더 가깝습니다.)
<ph type="x-smartling-placeholder">다운스트림 실적
클러스터링 출력은 다운스트림 ML 시스템에서 자주 사용되므로 클러스터링 프로세스가 변경되면 다운스트림 모델 성능이 향상됩니다. 이를 통해 클러스터링 결과의 품질을 실제로 평가할 수 있습니다. 이러한 종류의 테스트를 수행하는 것은 복잡하고 비용이 많이 들 수 있습니다.
2단계: 유사성 측정 재평가
클러스터링 알고리즘의 성능은 유사성 측정에 따라 결정됩니다. 적절한 결과를 반환합니다. 간단한 점검 방법은 다음과 같습니다. 거의 또는 덜 유사한 것으로 알려진 예의 쌍을 식별할 수 있습니다. 계산 각 예시 쌍에 대해 유사성을 측정하고 결과를 유사한 예의 쌍이 더 높은 유사성을 가져야 합니다. 측정한다는 의미입니다.
유사성 측정을 무작위 검사하는 데 사용하는 예는 다음과 같아야 합니다. 데이터 세트의 대표성을 나타내므로 모델의 유사성이 측정 보류를 설정합니다 캠페인의 수동이든 감독 대상이든 간에 유사성 측정이 일관적이어야 합니다. 데이터 세트로 그룹화됩니다. 일부 예시의 유사성 측정값이 일관되지 않으면 예시가 유사한 예시로 클러스터링되지 않습니다.
유사성 점수가 정확하지 않은 예를 찾으면 특성 데이터를 완전히 캡처하지 못할 가능성이 큽니다. 예로 들 수 있습니다 더 많은 결과가 반환될 때까지 유사성 측정을 실험합니다. 정확하고 일관된 결과를 얻을 수 있습니다.
3단계: 최적의 클러스터 수 찾기
k-평균을 사용하려면 클러스터 수를 \(k\) 미리 결정해야 합니다. 어떻게 최적의 \(k\)을 결정하면 어떨까요? 다음과 같이 알고리즘을 실행해 보세요. \(k\) 값이 증가하는 것을 확인하고 모든 클러스터 크기의 합계를 확인합니다. 따라서 \(k\) 점의 총거리가 증가하고 클러스터가 더 작아집니다. 감소합니다. 이 총 거리는 손실로 간주할 수 있습니다. 클러스터 수에 대해 이 거리를 표시합니다.
그림 5에서와 같이 특정 \(k\)를 초과하면 손실 감소가 한계가 늘고 있습니다 \(k\). \(k\) 첫 번째 경사는 급격한 변화를 보이며 이를 엘보우 메서드(Elbow Method). 대상 도표에서 최적 \(k\) 은 약 11입니다. 보다 세분화된 설정을 원하는 경우 이 플롯을 참조하여 더 높은 \(k\)을 선택할 수 있습니다.
<ph type="x-smartling-placeholder">문제 해결 관련 질문
평가 과정에서 문제를 발견하면 데이터를 재평가하십시오. 준비 단계와 선택한 유사성 척도가 있습니다. 질문:
- 데이터 규모가 적절하게 조정되었나요?
- 유사성 척도가 정확한가요?
- 알고리즘이 데이터에 대해 의미론적으로 의미 있는 작업을 수행하고 있나요?
- 알고리즘의 가정이 데이터와 일치하나요?