임베딩의 유사성 측정

이제 임베딩이 생성되었습니다. 감독 유사성 측정값은 이러한 임베딩을 사용하여 유사성을 측정하는 숫자를 반환합니다. 임베딩은 숫자 벡터입니다. 두 벡터 A=[a1,a2,...,an]B=[b1,b2,...,bn]의 유사성을 찾으려면 다음 세 가지 유사성 측정 중 하나를 선택합니다.

측정의미수식 유사성이 증가하면 이 측정값은...
유클리드 거리벡터의 끝점 사이의 거리 (a1b1)2+(a2b2)2+...+(aNbN)2 감소
코사인벡터 간 각도 θ 의 코사인 aTb|a||b| 증가
내적코사인에 두 벡터의 길이를 곱한 값 a1b1+a2b2+...+anbn =|a||b|cos(θ) 증가합니다. 벡터 길이도 함께 증가합니다.

유사도 측정 선택

코사인과 달리 내적은 벡터 길이에 비례합니다. 이는 학습 세트에 매우 자주 등장하는 예시 (예: 인기 YouTube 동영상)에는 길이가 긴 임베딩 벡터가 있는 경향이 있기 때문에 중요합니다. 인기를 파악하려면 내적을 선택합니다. 하지만 인기 있는 예시가 유사성 측정항목을 왜곡할 수 있다는 위험이 있습니다. 이 왜곡을 보정하려면 길이를 지수 α <1 로 올려 내적을 |a|α|b|αcos(θ)로 계산할 수 있습니다.

벡터 길이가 유사성 측정값을 어떻게 변경하는지 더 잘 이해하려면 벡터 길이를 1로 정규화하고 세 측정값이 서로 비례하는 것을 확인합니다.

증명: 유사도 측정의 비례성
a와 b를 ||a||=1||b||=1로 정규화하면 다음 세 측정항목은 다음과 같이 관련이 있습니다.
  • 유클리드 거리 = ||ab||=||a||2+||b||22aTb=22cos(θab).
  • 내적 = |a||b|cos(θab)=11cos(θab)=cos(θab).
  • 코사인 = cos(θab).
따라서 세 가지 유사성 측정항목은 모두 cos(θab)에 비례하므로 동일합니다.

유사도 측정 검토

유사도 측정값은 다른 예시 쌍을 기준으로 한 예시 쌍 간의 유사성을 수치화합니다. 수동 및 감독의 두 가지 유형을 아래에서 비교해 보세요.

유형만들기 방법권장영향
수동지형지물 데이터를 수동으로 결합합니다. 결합하기 쉬운 기능이 있는 소규모 데이터 세트 유사도 계산 결과에 대한 유용한 정보를 제공합니다. 지형지물 데이터가 변경되면 유사성 측정값을 수동으로 업데이트해야 합니다.
감독 대상감독 DNN에서 생성된 임베딩 간의 거리를 측정합니다. 결합하기 어려운 기능이 있는 대규모 데이터 세트 결과에 대한 통계를 제공하지 않습니다. 하지만 DNN은 변화하는 지형지물 데이터에 자동으로 적응할 수 있습니다.