수동 유사성 측정

위에서 설명한 것처럼 k-평균에서는 점을 가장 가까운 중심에 할당합니다. 그렇다면 구체적으로 'closest' 의미

특성 데이터에 k-평균을 적용하려면 모든 특성 데이터를 단일 숫자 값으로 결합하는 유사성 수동 유사성 측정이라는 방법을 사용합니다.

신발 데이터 세트를 생각해 보세요. 이 데이터 세트의 유일한 특성으로 신발 사이즈가 있으면 두 신발의 유사성을 정의하면 알 수 있습니다. 크기 간의 숫자 차이가 작을수록 신발 간의 유사성입니다.

이 신발 데이터 세트에 사이즈와 가격이라는 두 개의 숫자 특성이 있으면 유사성을 나타내는 단일 숫자로 변환합니다. 먼저 데이터를 확장하여 두 기능은 비슷합니다.

  • 크기: 신발 크기는 아마도 가우시안 분포를 형성합니다. 확인해 주세요. 그런 다음 데이터를 정규화합니다.
  • 가격 (p): 데이터가 푸아송 분포일 가능성이 높습니다. 확인해 주세요. 만약 데이터가 충분한 경우 데이터를 분위수로 변환하고 \([0,1]\)로 확장합니다.

그런 다음 두 특성을 결합하여 평균 제곱근 오차 (RMSE)입니다. 이와 같은 유사성의 대략적인 척도는 \(\sqrt{\frac{(s_i - s_j)^2+(p_i - p_j)^2}{2}}\)

간단한 예로 미국 사이즈의 신발 두 개의 유사성을 계산해 보겠습니다. 8과 11, 가격 120과 150입니다. 데이터가 충분하지 않기 때문에 정규화하거나 사용하지 않고 데이터를 조정하겠습니다. 분위수입니다.

작업메서드
크기를 조정합니다. 가능한 최대 신발 사이즈를 20이라고 가정합니다. 8과 11을 다음과 같이 나눕니다. 최대 크기는 20이고 0.4와 0.55가 됩니다.
가격을 조정합니다. 120과 150을 최고 가격인 150으로 나누어 0.8과 1을 구합니다.
크기 차이를 찾습니다. \(0.55 - 0.4 = 0.15\)
가격 차이를 확인합니다. \(1 - 0.8 = 0.2\)
RMSE 계산 \(\sqrt{\frac{0.2^2+0.15^2}{2}} = 0.17\)

직관적으로 볼 때, 특성 데이터가 클수록 유사성도 증가해야 합니다. 있습니다. 유사성 측정 (RMSE)은 오히려 감소합니다. 나만의 1에서 빼서 직관을 따릅니다.

\[\text{Similarity} = 1 - 0.17 = 0.83\]

일반적으로 다음에 설명된 대로 수치 데이터를 준비할 수 있습니다. 데이터를 준비하고 데이터를 추출하는 방법입니다.

데이터 세트에 신발 사이즈와 신발 색이 모두 포함되면 어떻게 될까요? 색상: 범주형 데이터 머신러닝 단기집중과정에서 다룬 범주형 데이터 작업. 범주형 데이터는 숫자형 크기 데이터와 결합하기가 더 어렵습니다. 실행 가능한 시스템은 다음과 같습니다.

  • 자동차 색상('흰색' 또는 '파란색' 등 단일 값(1가)이지만 지정하지 않음) 둘 다)
  • 영화 장르(영화는 'action' '코미디'와 같은 '액션')만 포함

예를 들어 파란색 신발 두 켤레의 경우 1가 데이터가 일치하면 예시 간 유사성은 1입니다. 그렇지 않으면 유사도는 0입니다.

영화 장르와 같이 다목적 데이터는 활용하기가 더 어렵습니다. 만약 영화 장르가 정해져 있다면 유사성은 기존 장르의 공통 값인 Jaccard 유사성. 예 Jaccard 유사성 계산:

  • [“코미디””,액션”] 및 [“코미디””,액션”] = 1
  • ['코미디'''액션'] 및 ['액션'] = 1⁄2
  • [“코미디””,액션”] 및 [“액션”, "드라마"] = 1⁄3
  • [“코미디””,액션”] 및 [“논픽션””,약력”] = 0

Jaccard 유사성 외에도 학습합니다. 다른 두 가지 예:

  • 우편번호는 두 사이의 유클리드 거리를 계산합니다.
  • Color(색상)는 숫자 RGB 값으로 변환될 수 있으며 값을 유클리드 거리로 결합합니다.

범주형 데이터 작업을 참조하세요. 확인하세요.

일반적으로 수동 유사성 측정은 요구사항과 차이가 있습니다. 선택한 측정항목이 인코딩되지 않는 경우 인코딩해야 합니다.

유사성 측정을 계산하기 전에 데이터를 신중하게 전처리합니다. 이 보다 단순합니다. 대부분의 실제 데이터 세트는 대규모 매우 복잡합니다 앞서 언급했듯이 분위수는 좋은 기본 선택입니다. 숫자 데이터를 처리하는 데 사용됩니다

데이터의 복잡성이 증가함에 따라 수동 측정할 수 있습니다 이러한 경우 지도 유사성 측정으로, 지도 기반 모델이 유사성을 계산합니다. 이 내용은 확인할 수 있습니다