머신러닝 용어집: 클러스터링

이 페이지에는 클러스터링 용어집이 포함되어 있습니다. 모든 용어집 용어를 보려면 여기를 클릭하세요.

A

집계 클러스터링

#clustering

계층적 클러스터링을 참고하세요.

C

centroid

#clustering

k-평균 또는 k-중앙값 알고리즘으로 결정되는 클러스터의 중심입니다. 예를 들어 k가 3이라면 k-평균 또는 k-중앙값 알고리즘이 3개의 중심을 찾습니다.

중심 기반 클러스터링

#clustering

데이터를 비계층적 클러스터로 구성하는 클러스터링 알고리즘의 카테고리입니다. k-평균은 가장 널리 사용되는 중심 기반 클러스터링 알고리즘입니다.

계층적 클러스터링 알고리즘과 대비되는 개념입니다.

클러스터링

#clustering

특히 비지도 학습 중에 관련 예시를 그룹화합니다. 모든 예시가 그룹화되면 사람이 선택적으로 각 클러스터에 의미를 제공할 수 있습니다.

많은 클러스터링 알고리즘이 있습니다. 예를 들어 k-평균 알고리즘은 다음 다이어그램과 같이 중심과의 근접성을 기준으로 클러스터 예를 표시합니다.

X축에 '트리 너비' 라벨이 지정되고
          Y축에 '트리 높이' 라벨이 지정된 2차원 그래프 그래프에는 2개의 중심과 수십 개의 데이터 포인트가 포함됩니다. 데이터 포인트는 근접도에 따라 분류됩니다. 즉, 한 중심에 가장 가까운 데이터 포인트는 '클러스터 1'로 분류되고 다른 중심에 가장 가까운 데이터 포인트는 '클러스터 2'로 분류됩니다.

그러면 연구원이 클러스터를 검토하고 예를 들어 클러스터 1을 '난쟁이 나무'로, 클러스터 2를 '원본 크기 트리'로 분류할 수 있습니다.

또 다른 예로, 중심점에서 예시까지의 거리를 기반으로 하는 클러스터링 알고리즘을 고려해 보세요. 방법은 다음과 같습니다.

수십 개의 데이터 포인트가 다트판 중앙의 구멍과 거의 같은 동심원 안에 정렬됩니다. 데이터 포인트의 가장 안쪽 링은 '클러스터 1'로, 가운데 링은 '클러스터 2'로, 가장 바깥쪽 링은 '클러스터 3'으로 분류됩니다.

D

분할 클러스터링

#clustering

계층적 클러스터링을 참고하세요.

H

계층적 클러스터링

#clustering

클러스터 트리를 만드는 클러스터링 알고리즘의 카테고리입니다. 계층적 군집화는 식물 분류와 같은 계층적 데이터에 적합합니다. 계층적 클러스터링 알고리즘에는 두 가지 유형이 있습니다.

  • 집계 클러스터링은 먼저 모든 예를 자체 클러스터에 할당하고 가장 가까운 클러스터를 반복적으로 병합하여 계층적 트리를 만듭니다.
  • 분리형 군집화는 먼저 모든 예를 하나의 클러스터로 그룹화한 다음 클러스터를 계층적 트리로 반복적으로 나눕니다.

중심 기반 클러스터링과 대비되는 개념입니다.

K

k-평균

#clustering

비지도 학습의 예를 그룹화하는 인기 클러스터링 알고리즘입니다. k-평균 알고리즘은 기본적으로 다음을 수행합니다.

  • 최고의 중심점 (중심이라고 함)을 반복적으로 결정합니다.
  • 각 예시를 가장 가까운 중심에 할당합니다. 동일한 중심에 가장 가까운 예는 동일한 그룹에 속합니다.

k-평균 알고리즘은 각 예가 가장 가까운 중심과 각 예 사이 거리의 누적 제곱을 최소화하기 위해 중심 위치를 선택합니다.

예를 들어 개의 반려견 너비는

수십 개의 데이터 포인트가 포함된 데카르트식 도표

k=3인 경우 k-평균 알고리즘이 세 개의 중심을 결정합니다. 각 예는 가장 가까운 중심에 할당되어 세 개의 그룹을 생성합니다.

세 개의 중심이 추가된 것을 제외하고 이전 그림과 동일한 카티전 플롯입니다.
          이전 데이터 포인트는 3개의 서로 다른 그룹으로 클러스터링되어 있으며 각 그룹은 특정 중심에 가장 가까운 데이터 포인트를 나타냅니다.

한 제조업체에서 애견용 소형, 중형, 대형 스웨터에 적합한 사이즈를 결정하고 싶어 합니다. 세 개의 중심은 해당 클러스터에 있는 각 개의 평균 키와 평균 너비를 나타냅니다. 따라서 제조업체는 이 세 개의 중심을 기준으로 하여 스웨터의 크기를 결정해야 할 것입니다. 일반적으로 한 클러스터의 중심은 해당 클러스터의 예가 아닙니다.

위의 그림은 두 개의 특성 (높이 및 너비)만 있는 예시의 k-평균을 보여줍니다. k-평균은 여러 특성에 걸쳐 예를 그룹화할 수 있습니다.

k-중앙값

#clustering

k-평균과 밀접한 관련이 있는 클러스터링 알고리즘입니다. 둘의 실질적인 차이점은 다음과 같습니다.

  • k-평균 알고리즘에서는 중심이 될 수 있는 위치와 각 예의 위치 사이 거리를 제곱한 값의 합계를 최소화하는 방식으로 중심을 결정합니다.
  • k-중앙값 알고리즘에서는 중심이 될 수 있는 위치와 각 예의 위치 사이의 거리 값의 합계를 최소화하는 방식으로 중심을 결정합니다.

거리의 정의도 다릅니다.

  • k-평균 알고리즘에서는 중심에서 예까지의 유클리드 거리를 사용합니다. 2차원에서 유클리드 거리는 피타고라스의 정리를 사용해 빗변을 계산하는 것을 의미합니다. 예를 들어 (2,2)와 (5, -2) 사이의 k-평균 거리는 다음과 같습니다.
$$ {\text{Euclidean distance}} = {\sqrt {(2-5)^2 + (2--2)^2}} = 5 $$
  • k-중앙값 알고리즘에서는 중심에서 예까지의 맨해튼 거리를 사용합니다. 이 거리는 각 차원 값 차의 합계입니다. 예를 들어 (2,2)와 (5, -2) 사이의 k-중앙값 거리는 다음과 같습니다.
$$ {\text{Manhattan distance}} = \lvert 2-5 \rvert + \lvert 2--2 \rvert = 7 $$

S

유사성 측정

#clustering

클러스터링 알고리즘에서 두 예의 유사성을 측정하는 데 사용되는 측정항목입니다.

스케치

#clustering

비지도 머신러닝에서 예시에 대한 예비 유사성 분석을 수행하는 알고리즘 카테고리입니다. 스케치 알고리즘은 로컬 구분 해시 함수를 사용하여 유사한 점을 식별한 다음 버킷으로 그룹화합니다.

스케치를 사용하면 대규모 데이터 세트의 유사성 계산에 필요한 계산이 줄어듭니다. 데이터 세트에서 모든 단일 쌍 쌍에 대한 유사성을 계산하는 대신 각 버킷 내에 있는 각 쌍 쌍의 유사성만 계산합니다.

T

시계열 분석

#clustering

시간적 데이터를 분석하는 머신러닝 및 통계의 하위 필드 분류, 클러스터링, 예측, 이상 감지 등 다양한 유형의 머신러닝 문제에 시계열 분석이 필요합니다. 예를 들어 시계열 분석을 사용하여 이전 판매 데이터를 기반으로 향후 겨울 코트 매출을 예측할 수 있습니다.

U

비지도 머신러닝

#clustering
#fundamentals

일반적으로 라벨이 없는 데이터 세트에서 패턴을 찾도록 모델을 학습시킵니다.

비지도 머신러닝의 가장 일반적인 용도는 데이터를 비슷한 예시 그룹으로 클러스터링하는 것입니다. 예를 들어 비지도 머신러닝 알고리즘은 음악의 다양한 속성을 기반으로 노래를 클러스터링할 수 있습니다. 이렇게 생성된 클러스터는 다른 머신러닝 알고리즘 (예: 음악 추천 서비스)에 대한 입력이 될 수 있습니다. 클러스터링은 유용한 라벨이 부족하거나 없는 경우에 도움이 될 수 있습니다. 예를 들어 악용 방지 및 사기와 같은 영역에서 클러스터는 사람이 데이터를 더 잘 이해하는 데 도움이 될 수 있습니다.

지도 머신러닝과 대비되는 개념입니다.