이제 임베딩이 생성되었습니다. 감독 유사성 측정값은 이러한 임베딩을 사용하여 유사성을 측정하는 숫자를 반환합니다. 임베딩은 숫자 벡터입니다. 두 벡터 와 의 유사성을 찾으려면 다음 세 가지 유사성 측정 중 하나를 선택합니다.
측정 | 의미 | 수식 | 유사성이 증가하면 이 측정값은... |
---|---|---|---|
유클리드 거리 | 벡터의 끝점 사이의 거리 | 감소 | |
코사인 | 벡터 간 각도 의 코사인 | 증가 | |
내적 | 코사인에 두 벡터의 길이를 곱한 값 | 증가합니다. 벡터 길이도 함께 증가합니다. |
유사도 측정 선택
코사인과 달리 내적은 벡터 길이에 비례합니다. 이는 학습 세트에 매우 자주 등장하는 예시 (예: 인기 YouTube 동영상)에는 길이가 긴 임베딩 벡터가 있는 경향이 있기 때문에 중요합니다. 인기를 파악하려면 내적을 선택합니다. 하지만 인기 있는 예시가 유사성 측정항목을 왜곡할 수 있다는 위험이 있습니다. 이 왜곡을 보정하려면 길이를 지수 로 올려 내적을 로 계산할 수 있습니다.
벡터 길이가 유사성 측정값을 어떻게 변경하는지 더 잘 이해하려면 벡터 길이를 1로 정규화하고 세 측정값이 서로 비례하는 것을 확인합니다.
증명: 유사도 측정의 비례성
a와 b를 와 로 정규화하면 다음 세 측정항목은 다음과 같이 관련이 있습니다.
- 유클리드 거리 = .
- 내적 = .
- 코사인 = .
유사도 측정 검토
유사도 측정값은 다른 예시 쌍을 기준으로 한 예시 쌍 간의 유사성을 수치화합니다. 수동 및 감독의 두 가지 유형을 아래에서 비교해 보세요.
유형 | 만들기 방법 | 권장 | 영향 |
---|---|---|---|
수동 | 지형지물 데이터를 수동으로 결합합니다. | 결합하기 쉬운 기능이 있는 소규모 데이터 세트 | 유사도 계산 결과에 대한 유용한 정보를 제공합니다. 지형지물 데이터가 변경되면 유사성 측정값을 수동으로 업데이트해야 합니다. |
감독 대상 | 감독 DNN에서 생성된 임베딩 간의 거리를 측정합니다. | 결합하기 어려운 기능이 있는 대규모 데이터 세트 | 결과에 대한 통계를 제공하지 않습니다. 하지만 DNN은 변화하는 지형지물 데이터에 자동으로 적응할 수 있습니다. |