결과 평가

클러스터링은 감독 없이 이루어지므로 결과를 확인할 수 있는 실측값이 없습니다. 진실이 없으면 품질 평가가 복잡해집니다. 또한 실제 데이터 세트는 일반적으로 그림 1에 나온 예와 같이 명확한 예시 클러스터를 제공하지 않습니다.

명확한 세 개의 데이터 포인트 그룹을 보여주는 그래프
그림 1: 이상적인 데이터 플롯 실제 데이터는 거의 이렇게 보이지 않습니다.

대신 실제 데이터는 그림 2와 같이 표시되는 경우가 많아 클러스터링 품질을 시각적으로 평가하기가 어렵습니다.

무작위 데이터 포인트가 있는 그래프
그림 2: 더 사실적인 데이터 플롯

하지만 반복적으로 적용하여 클러스터링 품질을 개선할 수 있는 휴리스틱과 권장사항이 있습니다. 다음 플로우 차트는 클러스터링 결과를 평가하는 방법을 간략히 보여줍니다. 각 단계를 자세히 살펴보겠습니다.

인증 절차의 플로우 차트 시각화
이 차트의 더 큰 버전을 보려면 여기를 클릭하세요.

1단계: 클러스터링 품질 평가

먼저 클러스터가 예상대로 표시되고 서로 유사하다고 생각하는 예시가 동일한 클러스터에 표시되는지 확인합니다.

그런 다음 다음과 같이 흔히 사용되는 측정항목을 확인합니다 (일부 목록).

  • 클러스터 카디널리티
  • 클러스터 규모
  • 다운스트림 실적

클러스터 카디널리티

클러스터 카디널리티는 클러스터당 예시 수입니다. 모든 클러스터의 클러스터 카디널리티를 표시하고 주요 외부 항목인 클러스터를 조사합니다. 그림 2에서는 클러스터 5입니다.

여러 클러스터의 카디널리티를 보여주는 막대 그래프 클러스터 5는 나머지 클러스터보다 작습니다.
그림 2: 여러 클러스터의 카디널리티

클러스터 규모

클러스터 크기는 클러스터의 모든 예에서 클러스터의 중심까지의 거리의 합계입니다. 모든 클러스터의 클러스터 크기를 표시하고 특이치를 조사합니다. 그림 3에서 클러스터 0은 이상치입니다.

클러스터별로 중심에서 예시까지의 최대 또는 평균 거리를 살펴보고 이상치를 찾는 것도 좋습니다.

여러 클러스터의 크기를 보여주는 막대 그래프 클러스터 0이 다른 클러스터보다 훨씬 큽니다.
그림 3: 여러 클러스터의 크기

규모와 카디널리티 비교

클러스터 카디널리티가 클수록 클러스터 크기가 더 큰 것으로 나타났습니다. 이는 직관적으로도 이해할 수 있습니다. 클러스터에 있는 점 (카디널리티)이 많을수록 이러한 점과 중심점 (크기) 사이의 거리의 합계가 더 클 수 있기 때문입니다. 카디널리티와 크기 간의 관계가 다른 클러스터와 매우 다른 클러스터를 찾아 이상 클러스터를 식별할 수도 있습니다. 그림 4에서 카디널리티 및 크기의 그래프에 선을 맞추면 클러스터 0이 비정상임을 알 수 있습니다. 클러스터 5도 선에서 멀리 떨어져 있지만 클러스터 0을 생략하면 새에 맞춰진 선이 클러스터 5에 훨씬 더 가까워집니다.

여러 클러스터의 카디널리티와 크기를 보여주는 산점도 한 클러스터가 플롯에서 이상치입니다.
그림 4: 이전에 표시된 클러스터의 카디널리티와 크기

다운스트림 실적

클러스터링 출력은 다운스트림 ML 시스템에서 자주 사용되므로 클러스터링 프로세스가 변경될 때 다운스트림 모델 성능이 개선되는지 확인하세요. 이러한 종류의 테스트를 실행하는 것은 복잡하고 비용이 많이 들 수 있지만 클러스터링 결과의 품질을 실제적으로 평가할 수 있습니다.

2단계: 유사도 측정 재평가

클러스터링 알고리즘의 성능은 유사성 측정값의 품질에 따라 결정됩니다. 유사성 측정값이 적절한 결과를 반환하는지 확인합니다. 빠르게 확인하는 방법은 대략 비슷한 것으로 알려진 예시 쌍을 식별하는 것입니다. 각 예시 쌍의 유사성 측정값을 계산하고 결과를 지식과 비교합니다. 유사한 예시 쌍의 유사성 측정값은 유사하지 않은 예시 쌍의 유사성 측정값보다 높아야 합니다.

유사도 측정을 스팟 체크하는 데 사용하는 예시는 데이터 세트를 대표해야 하므로 모든 예에 유사도 측정이 적용된다고 확신할 수 있습니다. 수동이든 감독이든 유사성 측정의 성능은 데이터 세트 전체에서 일관되어야 합니다. 일부 예시에서 유사도 측정값이 일치하지 않으면 이러한 예시는 유사한 예시와 함께 클러스터링되지 않습니다.

유사성 점수가 부정확한 예시가 발견되면 유사성 측정값이 이러한 예시를 구분하는 특징 데이터를 완전히 포착하지 못하는 것일 수 있습니다. 더 정확하고 일관된 결과를 반환할 때까지 유사성 측정항목을 실험합니다.

3단계: 최적의 클러스터 수 찾기

k-평균을 사용하려면 클러스터 수를 k 미리 결정해야 합니다. 최적의 k는 어떻게 결정하나요? k 값을 늘려가면서 알고리즘을 실행하고 모든 클러스터 크기의 합계를 확인합니다.k 가 증가하면 클러스터가 작아지고 점과 중심점 사이의 총 거리가 감소합니다. 이 총 거리를 손실로 간주할 수 있습니다. 이 거리를 클러스터 수에 대해 표시합니다.

그림 5와 같이 특정 k이상에서는 k가 증가함에 따라 손실 감소가 미미해집니다. 경사가 처음 급격하게 변하는 지점(엘보우 메서드라고 함)에서 k를 사용하는 것이 좋습니다. 표시된 그래프의 경우 최적의 k 는 약 11입니다. 더 세분화된 클러스터를 선호하는 경우 이 플롯을 참고하여 더 높은 k을 선택할 수 있습니다.

손실과 사용된 클러스터를 보여주는 그래프 클러스터 수가 증가함에 따라 손실이 감소하여 10개 정도의 클러스터에서 수평화됩니다.
그림 5: 손실과 클러스터 수 비교

문제 해결 질문

평가 과정에서 문제가 발견되면 데이터 준비 단계와 선택한 유사성 측정값을 재평가합니다. 질문:

  • 데이터가 적절하게 확장되었나요?
  • 유사도 측정이 정확한가요?
  • 알고리즘이 데이터에 의미론적으로 의미 있는 작업을 실행하나요?
  • 알고리즘의 가정이 데이터와 일치하나요?