이제 모든 예시 쌍에 대한 임베딩을 얻을 수 있습니다. 지도 유사성 측정은 이러한 임베딩을 가져와 유사성을 측정하는 숫자를 반환합니다. 임베딩은 숫자 벡터임을 기억하세요. 데이터 세트 간의 유사성을 두 벡터 \(A = [a_1,a_2,...,a_n]\) 그리고 \(B = [b_1,b_2,...,b_n]\), 다음 세 가지 유사성 척도 중 하나를 선택하세요.
측정 | 의미 | 수식 | 유사성이 증가하면 이 측정값은... |
---|---|---|---|
유클리드 거리 | 벡터 양 끝 사이의 거리 | \(\sqrt{(a_1-b_1)^2+(a_2-b_2)^2+...+(a_N-b_N)^2}\) | 감소 |
코사인 | 벡터 간 \(\theta\) 각도의 코사인 | \(\frac{a^T b}{|a| \cdot |b|}\) | 증가 |
내적 | 코사인 곱하기 두 벡터의 길이 | \(a_1b_1+a_2b_2+...+a_nb_n\) \(=|a||b|cos(\theta)\) | 증가. 벡터의 길이에 따라 증가합니다. |
유사성 측정 선택
코사인과 달리 내적은 벡터 길이에 비례합니다. 이 점이 중요한 이유는 학습에 매우 자주 나타나는 예시가 예를 들어 인기 있는 YouTube 동영상과 같은 임베딩 벡터가 사용할 수 있습니다. 만약 내적을 선택하세요. 그러나 유사성 측정항목을 왜곡할 수 있습니다 이 편향의 균형을 맞추기 위해 길이를 지수로 늘려 \(\alpha\ < 1\) 내적을 계산합니다. \(|a|^{\alpha}|b|^{\alpha}\cos(\theta)\).
벡터 길이가 유사성 측정을 어떻게 변경하는지 더 잘 이해하려면 벡터 길이가 1이 되고 세 측정값이 비례한다는 것을 제공할 수 있습니다.
- </ph>
- 유클리드 거리 = \(||a-b|| = \sqrt{||a||^2 + ||b||^2 - 2a^{T}b} = \sqrt{2-2\cos(\theta_{ab})}\).
- 내적 = \( |a||b| \cos(\theta_{ab}) = 1\cdot1\cdot \cos(\theta_{ab}) = cos(\theta_{ab})\).
- 코사인 = \(\cos(\theta_{ab})\).
유사성 측정값 검토
유사성 측정은 한 쌍의 유사성을 수량화하고 상대적인 비율을 나타냅니다. 수동 및 이는 아래와 같습니다.
유형 | 만드는 방법 | 적합한 환경 | 의미 |
---|---|---|---|
수동 | 수동으로 특성 데이터를 결합합니다. | 간단하게 결합할 수 있는 특성을 갖춘 소규모 데이터 세트입니다. | 유사성 계산 결과에 대한 유용한 정보를 제공합니다. If 기능 유사성 측정을 수동으로 업데이트해야 합니다. |
감독 대상 | 다음에 의해 생성된 임베딩 간의 거리 측정 지도 DNN을 사용합니다 | 결합하기 어려운 특성을 가진 대규모 데이터 세트 | 결과에 대한 유용한 정보를 제공하지 않습니다. 하지만 DNN은 특성 데이터를 변경하는 데 도움이 됩니다 |