머신러닝 용어집: 클러스터링

이 페이지에는 클러스터링 용어집 용어가 포함되어 있습니다. 모든 용어집 용어를 보려면 여기를 클릭하세요.

A

응집적 군집화

#clustering

계층적 군집화를 참조하세요.

C

centroid

#clustering

k-평균 또는 k-중앙값 알고리즘으로 결정되는 클러스터의 중심입니다. 예를 들어 k가 3이면 k-평균 또는 k-중앙값 알고리즘은 3개의 중심을 찾습니다.

중심 기반 군집화

#clustering

데이터를 비계층적 클러스터로 정리하는 클러스터링 알고리즘의 카테고리입니다. k-평균은 가장 널리 사용되는 중심 기반 클러스터링 알고리즘입니다.

계층적 군집화 알고리즘과 대비되는 개념입니다.

클러스터링

#clustering

특히 비지도 학습 과정에서 관련 예시 그룹화 모든 예가 그룹화되면 인간은 선택적으로 각 클러스터에 의미를 제공할 수 있습니다.

클러스터링 알고리즘이 많이 있습니다. 예를 들어 다음 다이어그램과 같이 k-평균 알고리즘 클러스터 예시는 중심에 대한 근접성을 기준으로 합니다.

x축에 트리 너비 라벨이 지정되고 y축에 트리 높이 라벨이 지정된 2차원 그래프입니다. 그래프에는 두 개의 중심과 수십 개의 데이터 포인트가 있습니다. 데이터 포인트는 근접성을 기준으로 분류됩니다. 즉, 한 중심에 가장 가까운 데이터 포인트는 클러스터 1로 분류되고 다른 중심에 가장 가까운 데이터 포인트는 클러스터 2로 분류됩니다.

그런 다음 연구원이 클러스터를 검토하고 클러스터 1에는 '난쟁이나무', 클러스터 2에는 '원본 크기의 나무'로 라벨을 지정할 수 있습니다.

또 다른 예로, 다음과 같이 중심점으로부터 예의 거리를 기반으로 하는 클러스터링 알고리즘을 가정해 보겠습니다.

수십 개의 데이터 포인트가 다트판 중앙을 둘러싼 구멍과 비슷한 동심원으로 배열되어 있습니다. 데이터 포인트의 가장 안쪽 링은 클러스터 1로, 가운데 링은 클러스터 2로, 가장 바깥쪽 링은 클러스터 3으로 분류됩니다.

D

분리형 군집화

#clustering

계층적 군집화를 참조하세요.

H

계층적 군집화

#clustering

클러스터 트리를 만드는 클러스터링 알고리즘의 카테고리입니다. 계층적 군집화는 식물 분류와 같은 계층적 데이터에 적합합니다. 계층적 클러스터링 알고리즘에는 두 가지 유형이 있습니다

  • 병합형 군집화는 먼저 모든 예를 자체 클러스터에 할당하고 가장 가까운 클러스터를 반복적으로 병합하여 계층적 트리를 생성합니다.
  • 분리형 군집화는 먼저 모든 예를 하나의 클러스터로 그룹화한 다음 클러스터를 계층적 트리로 반복적으로 분할합니다.

중심 기반 군집화와 대비되는 개념입니다.

K

k-평균

#clustering

비지도 학습에서 여러 예를 그룹화하는 데 널리 사용되는 클러스터링 알고리즘입니다. k-평균 알고리즘은 기본적으로 다음을 실행합니다.

  • 최고의 중심점 (중심이라고 함)을 반복적으로 결정합니다.
  • 각 예를 가장 가까운 중심에 할당합니다. 같은 중심에 가장 가까운 예는 같은 그룹에 속합니다.

k-평균 알고리즘은 각 예에서 가장 가까운 중심까지 거리의 누적 제곱을 최소화하기 위해 중심 위치를 선택합니다.

예를 들어 다음과 같이 개의 키와 몸길이를 나타낸 플롯을 살펴보겠습니다.

수십 개의 데이터 포인트가 있는 데카르트 도표

k=3이면 k-평균 알고리즘이 3개의 중심을 결정합니다. 각 예는 가장 가까운 중심에 할당되며 세 그룹을 생성합니다.

중심 3개를 추가한 것을 제외하고 이전 그림과 동일한 데카르트 도표입니다.
          이전 데이터 포인트는 3개의 개별 그룹으로 클러스터링되며, 각 그룹은 특정 중심에 가장 가까운 데이터 포인트를 나타냅니다.

제조업체에서 애완견 스웨터의 S, M, L 사이즈의 이상적인 크기를 결정하려고 한다고 가정해 보겠습니다. 세 개의 중심은 해당 클러스터에 있는 각 개의 평균 키와 평균 몸길이를 나타냅니다. 따라서 제조업체는 이 세 개의 중심을 기준으로 스웨터 크기를 설정해야 할 것입니다. 일반적으로 한 클러스터의 중심은 해당 클러스터의 예가 아닙니다.

앞의 그림은 두 가지 특성 (키와 너비)만 있는 예의 k-평균을 보여줍니다. k-평균을 사용하면 여러 특성에 걸쳐 예를 그룹화할 수 있습니다.

k-중앙값

#clustering

k-평균과 밀접한 관련이 있는 클러스터링 알고리즘입니다. 둘의 실질적인 차이점은 다음과 같습니다.

  • k-평균 알고리즘에서는 중심이 될 수 있는 위치와 각 예의 위치 사이 거리를 제곱한 값의 합계를 최소화하는 방식으로 중심을 결정합니다.
  • k-중앙값 알고리즘에서는 중심이 될 수 있는 위치와 각 예의 위치 사이의 거리 합계를 최소화하는 방식으로 중심을 결정합니다.

거리의 정의도 다릅니다.

  • k-평균 알고리즘에서는 중심에서 예까지의 유클리드 거리를 사용합니다. 2차원에서 유클리드 거리는 피타고라스의 정리를 사용하여 빗변을 계산하는 것을 의미합니다. 예를 들어 (2,2)와 (5, -2) 사이의 k-평균 거리는 다음과 같습니다.
$$ {\text{Euclidean distance}} = {\sqrt {(2-5)^2 + (2--2)^2}} = 5 $$
  • k-중앙값 알고리즘에서는 중심에서 예까지의 맨해튼 거리를 사용합니다. 이 거리는 각 차원의 절댓값 델타의 합입니다. 예를 들어 (2,2)와 (5, -2) 사이의 k-중앙값 거리는 다음과 같습니다.
$$ {\text{Manhattan distance}} = \lvert 2-5 \rvert + \lvert 2--2 \rvert = 7 $$

S

유사도 측정

#clustering

클러스터링 알고리즘에서 두 예의 유사성을 판단하는 데 사용되는 측정항목입니다.

스케치

#clustering

비지도 머신러닝에서 예시에 대한 예비 유사성 분석을 수행하는 알고리즘의 카테고리입니다. 스케칭 알고리즘에서는 로컬 구분 해시 함수를 사용하여 유사한 점을 식별한 다음 버킷으로 그룹화합니다.

스케치를 사용하면 대규모 데이터 세트에서 유사성 계산에 필요한 계산이 줄어듭니다. 데이터 세트의 모든 단일 예 쌍에 대한 유사성을 계산하는 대신 각 버킷 내의 각 점 쌍에 대해서만 유사성을 계산합니다.

T

시계열 분석

#clustering

머신러닝 및 통계에서 시간적 데이터를 분석하는 하위 분야입니다. 분류, 클러스터링, 예측, 이상 감지를 비롯한 다양한 유형의 머신러닝 문제에는 시계열 분석이 필요합니다. 예를 들어 시계열 분석을 사용하여 과거 판매 데이터를 기반으로 겨울 코트의 향후 월별 매출을 예측할 수 있습니다.

U

비지도 머신러닝

#clustering
#fundamentals

일반적으로 라벨이 없는 데이터 세트에서 패턴을 찾도록 model을 학습시킵니다.

비지도 머신러닝의 가장 일반적인 용도는 데이터를 유사한 예의 그룹으로 클러스터링하는 것입니다. 예를 들어 비지도 머신러닝 알고리즘은 음악의 다양한 속성을 기반으로 노래를 클러스터링할 수 있습니다. 결과 클러스터는 다른 머신러닝 알고리즘 (예: 음악 추천 서비스)의 입력이 될 수 있습니다. 클러스터링은 유용한 라벨이 드물거나 없는 경우에 유용합니다. 예를 들어 악용 방지 및 사기와 같은 분야에서 클러스터는 인간이 데이터를 더 잘 이해하는 데 도움이 될 수 있습니다.

지도 머신러닝과 대비되는 개념입니다.