임베딩의 유사성 측정

이제 모든 예시 쌍에 대한 임베딩을 얻을 수 있습니다. 지도 유사성 측정은 이러한 임베딩을 가져와 유사성을 측정하는 숫자를 반환합니다. 임베딩은 숫자 벡터임을 기억하세요. 데이터 세트 간의 유사성을 두 벡터 \(A = [a_1,a_2,...,a_n]\) 그리고 \(B = [b_1,b_2,...,b_n]\), 다음 세 가지 유사성 척도 중 하나를 선택하세요.

측정의미수식 유사성이 증가하면 이 측정값은...
유클리드 거리벡터 양 끝 사이의 거리 \(\sqrt{(a_1-b_1)^2+(a_2-b_2)^2+...+(a_N-b_N)^2}\) 감소
코사인벡터 간 \(\theta\) 각도의 코사인 \(\frac{a^T b}{|a| \cdot |b|}\) 증가
내적코사인 곱하기 두 벡터의 길이 \(a_1b_1+a_2b_2+...+a_nb_n\) \(=|a||b|cos(\theta)\) 증가. 벡터의 길이에 따라 증가합니다.

유사성 측정 선택

코사인과 달리 내적은 벡터 길이에 비례합니다. 이 점이 중요한 이유는 학습에 매우 자주 나타나는 예시가 예를 들어 인기 있는 YouTube 동영상과 같은 임베딩 벡터가 사용할 수 있습니다. 만약 내적을 선택하세요. 그러나 유사성 측정항목을 왜곡할 수 있습니다 이 편향의 균형을 맞추기 위해 길이를 지수로 늘려 \(\alpha\ < 1\) 내적을 계산합니다. \(|a|^{\alpha}|b|^{\alpha}\cos(\theta)\).

벡터 길이가 유사성 측정을 어떻게 변경하는지 더 잘 이해하려면 벡터 길이가 1이 되고 세 측정값이 비례한다는 것을 제공할 수 있습니다.

증명: 유사성 측정의 비례성
\(||a||=1\) 및 \(||b||=1\)가 되도록 a와 b를 정규화한 후, 이 세 가지 측정은 다음과 같은 관련이 있습니다. <ph type="x-smartling-placeholder">
    </ph>
  • 유클리드 거리 = \(||a-b|| = \sqrt{||a||^2 + ||b||^2 - 2a^{T}b} = \sqrt{2-2\cos(\theta_{ab})}\).
  • 내적 = \( |a||b| \cos(\theta_{ab}) = 1\cdot1\cdot \cos(\theta_{ab}) = cos(\theta_{ab})\).
  • 코사인 = \(\cos(\theta_{ab})\).
따라서 세 가지 유사성 측정값은 모두 \(cos(\theta_{ab})\)에 비례합니다.

유사성 측정값 검토

유사성 측정은 한 쌍의 유사성을 수량화하고 상대적인 비율을 나타냅니다. 수동 및 이는 아래와 같습니다.

유형만드는 방법적합한 환경의미
수동수동으로 특성 데이터를 결합합니다. 간단하게 결합할 수 있는 특성을 갖춘 소규모 데이터 세트입니다. 유사성 계산 결과에 대한 유용한 정보를 제공합니다. If 기능 유사성 측정을 수동으로 업데이트해야 합니다.
감독 대상다음에 의해 생성된 임베딩 간의 거리 측정 지도 DNN을 사용합니다 결합하기 어려운 특성을 가진 대규모 데이터 세트 결과에 대한 유용한 정보를 제공하지 않습니다. 하지만 DNN은 특성 데이터를 변경하는 데 도움이 됩니다