머신러닝 용어집: 클러스터링

이 페이지에는 클러스터링 용어집 용어가 포함되어 있습니다. 모든 용어집 용어는 여기를 클릭하세요.

A

병합형 군집화

#clustering

계층적 군집화를 참고하세요.

C

centroid

#clustering

k-평균 또는 k-중앙값 알고리즘에 의해 결정된 클러스터의 중심입니다. 예를 들어 k가 3인 경우 k-평균 또는 k-중앙값 알고리즘에서는 3개의 중심을 찾아냅니다.

자세한 내용은 클러스터링 과정의 클러스터링 알고리즘을 참고하세요.

중심 기반 군집화

#clustering

데이터를 계층 구조가 아닌 클러스터로 구성하는 군집화 알고리즘의 카테고리입니다. k-평균은 가장 널리 사용되는 중심 기반 군집화 알고리즘입니다.

계층적 군집화 알고리즘과 대비되는 개념입니다.

자세한 내용은 클러스터링 과정의 클러스터링 알고리즘을 참고하세요.

클러스터링

#clustering

특히 비지도 학습 중에 관련 예시를 그룹화합니다. 모든 예가 그룹으로 묶이고 나면 사람이 선택적으로 각 클러스터에 의미를 부여할 수 있습니다.

클러스터링에는 여러 가지 알고리즘이 사용됩니다. 예를 들어 k-평균 알고리즘은 다음 다이어그램과 같이 중심과의 근접성을 기반으로 예시를 클러스터링합니다.

x축에 나무 너비 레이블이 지정되고 y축에 나무 높이 레이블이 지정된 2차원 그래프입니다. 그래프에는 두 개의 중심점과 수십 개의 데이터 포인트가 포함되어 있습니다. 데이터 포인트는 근접성에 따라 분류됩니다. 즉, 한 중심에 가장 가까운 데이터 포인트는 클러스터 1로 분류되고 다른 중심에 가장 가까운 데이터 포인트는 클러스터 2로 분류됩니다.

그런 다음 연구원이 클러스터를 검토하고 클러스터 1에는 '난쟁이 나무', 클러스터 2에는 '완전한 크기의 나무'와 같이 라벨을 붙입니다.

다음에서 확인할 수 있는 것처럼 중심점에서 예가 얼마나 떨어져 있는지를 바탕으로 한 클러스터링 알고리즘도 있을 수 있습니다.

수십 개의 데이터 포인트가 마치 다트판 중앙 주변의 구멍처럼 동심원으로 배열되어 있습니다. 데이터 포인트의 가장 안쪽 링은 클러스터 1로, 중간 링은 클러스터 2로, 가장 바깥쪽 링은 클러스터 3으로 분류됩니다.

자세한 내용은 클러스터링 과정을 참고하세요.

D

분리형 군집화

#clustering

계층적 군집화를 참고하세요.

H

계층적 군집화

#clustering

클러스터 트리를 생성하는 군집화 알고리즘의 카테고리입니다. 계층적 군집화는 식물 분류와 같은 계층적 데이터에 적합합니다. 계층적 군집화 알고리즘에는 두 가지 유형이 있습니다.

  • 병합형 군집화는 먼저 모든 예를 자체 클러스터에 할당하고 가장 가까운 클러스터를 반복적으로 병합하여 계층적 트리를 만듭니다.
  • 분리형 군집화는 먼저 모든 예를 하나의 클러스터로 그룹화한 다음 클러스터를 계층적 트리로 반복 분할합니다.

중심 기반 군집화와 대비되는 개념입니다.

자세한 내용은 클러스터링 과정의 클러스터링 알고리즘을 참고하세요.

K

k-평균

#clustering

비지도 학습의 한 방법으로 데이터를 그룹화하는 데 널리 사용되는 클러스터링 알고리즘입니다. k-평균 알고리즘은 기본적으로 다음과 같은 일을 합니다.

  • 최고의 중심점 (중심이라고 함)들을 반복적으로 결정합니다.
  • 각 예를 가장 가까운 중심에 배정합니다. 같은 중심에 가장 가까운 예는 같은 그룹에 속합니다.

k-평균 알고리즘은 각 예가 가장 가까운 중심과 각 예 사이 거리의 누적 제곱을 최소화할 수 있는 중심의 위치를 선택합니다.

예를 들어 다음과 같이 강아지 높이 대 강아지 너비의 그래프를 살펴보겠습니다.

수십 개의 데이터 포인트가 있는 데카르트 도표

k=3인 경우 k-평균 알고리즘은 세 개의 중심을 결정합니다. 각 예는 가장 가까운 중심에 할당되어 세 그룹이 생성됩니다.

이전 그림과 동일한 데카르트 플롯이지만 3개의 중심점이 추가되었습니다.
          이전 데이터 포인트는 세 개의 서로 다른 그룹으로 클러스터링되며 각 그룹은 특정 중심점에 가장 가까운 데이터 포인트를 나타냅니다.

제조업체에서 강아지용 스웨터의 S, M, L 사이즈에 가장 적합한 크기를 결정하려고 한다고 가정해 보겠습니다. 세 개의 중심점은 해당 클러스터에 있는 각 강아지의 평균 높이와 평균 너비를 나타냅니다. 따라서 제조업체는 이러한 세 개의 중심점을 기준으로 스웨터 크기를 정해야 합니다. 클러스터의 중심점은 일반적으로 클러스터의 예시가 아닙니다.

위의 그림은 두 가지 특성 (높이 및 너비)만 있는 예시의 K-means를 보여줍니다. k-means는 여러 특성 간에 예시를 그룹화할 수 있습니다.

k-중앙값

#clustering

k-평균과 밀접한 관련이 있는 클러스터링 알고리즘입니다. 이 두 가지 방법의 실질적인 차이점은 다음과 같습니다.

  • k-평균 알고리즘에서는 중심이 될 수 있는 위치와 각 예의 위치 사이 거리를 제곱한 값의 합계를 최소화하는 방식으로 중심을 결정합니다.
  • k-중앙값 알고리즘에서는 중심이 될 수 있는 위치와 각 예의 위치 사이의 거리값의 합계를 최소화하는 방식으로 중심을 결정합니다.

거리의 정의도 다릅니다.

  • k-평균 알고리즘에서는 중심에서 예까지의 유클리드 거리를 사용합니다. 2차원에서 유클리드 거리는 피타고라스 정리를 사용하여 빗변의 길이를 계산하는 것을 의미합니다. 예를 들어 (2,2)와 (5, -2) 사이의 k-평균 거리는 다음과 같습니다.
$$ {\text{Euclidean distance}} = {\sqrt {(2-5)^2 + (2--2)^2}} = 5 $$
  • k-중앙값 알고리즘에서는 중심에서 예까지의 맨해튼 거리를 사용합니다. 이 거리는 각 차원 값 차의 절대값의 합입니다. 예를 들어 (2,2)와 (5, -2) 사이의 k-중앙값 거리는 다음과 같습니다.
$$ {\text{Manhattan distance}} = \lvert 2-5 \rvert + \lvert 2--2 \rvert = 7 $$

S

유사도 측정

#clustering

클러스터링 알고리즘에서 두 예의 유사성을 측정하는 데 사용되는 측정항목입니다.

스케치

#clustering

비지도 머신러닝에서 예시를 대상으로 예비 유사성 분석을 수행하는 알고리즘의 카테고리입니다. 스케치 알고리즘은 로컬 구분 해싱 함수를 사용하여 유사할 가능성이 높은 점을 식별한 다음 버킷으로 그룹화합니다.

스케칭은 대규모 데이터 세트에서 유사성을 측정하는 데 필요한 계산을 줄여 줍니다. 데이터 세트에서 모든 단일 사례 쌍의 유사성을 계산하지 않고 각 버킷 내 각 점의 쌍에 대해서만 유사성을 계산합니다.

T

시계열 분석

#clustering

머신러닝 및 통계학에서 시계열 데이터를 분석하는 하위 분야입니다. 많은 유형의 머신러닝 문제에는 분류, 클러스터링, 예측, 이상 감지 등 시계열 분석이 필요합니다. 예를 들어 시계열 분석을 사용하여 과거 매출 데이터를 근거로 겨울 코트의 향후 월별 매출을 예측할 수 있습니다.

U

비지도 머신러닝

#clustering
#fundamentals

일반적으로 라벨이 없는 데이터 세트에서 패턴을 찾도록 모델을 학습시킵니다.

비지도 머신러닝의 가장 일반적인 용도는 데이터를 서로 비슷한 예의 그룹으로 클러스터링하는 것입니다. 예를 들어 비지도 머신러닝 알고리즘은 음악의 다양한 속성을 기반으로 노래를 클러스터링할 수 있습니다. 이렇게 생성된 클러스터는 다른 머신러닝 알고리즘 (예: 음악 추천 서비스)의 입력으로 사용될 수 있습니다. 유용한 라벨이 부족하거나 없는 경우 클러스터링이 유용할 수 있습니다. 예를 들어 악용 및 사기 방지와 같은 분야에서 클러스터는 사람이 데이터를 이해하는 데 도움을 줄 수 있습니다.

지도 머신러닝과 대비되는 개념입니다.