유사성 측정: 이해도 확인

중심점을 기준으로 점 a, b, c를 보여주는 그래프입니다.
위 이미지에서 'b'가 'b'보다 'a'와 비슷하도록 하려면 어떤 측정값을 선택해야 하나요?
점 제품
정답입니다. 내적은 코사인과 벡터 길이에 비례합니다. 따라서 'b'와 'c'에 대해 코사인이 높더라도 'a'의 길이가 길면 'a'와 'b'가 'b'와 'c'보다 더 유사해집니다.
코사인
코사인은 벡터 사이의 각도에만 의존하며, 각도가 작으면 \(\theta_{bc}\) \(\cos(\theta_{bc})\) 이 \(\cos(\theta_{ab})\)보다 커집니다.
유클리드 거리
거리가 \(\vec{bc}\) \(\vec{ab}\) 이 'b'를 'a'보다 'c'와 더 작게 만듭니다.
뮤직 비디오의 유사성을 계산하는 중입니다. 뮤직 비디오의 임베딩 벡터 길이는 인기도에 비례합니다. 이제 유사성을 계산하기 위해 코사인 대신 내적을 선택합니다. 뮤직 비디오 간 유사점은 어떻게 변경되나요?
인기 동영상은 일반적인 모든 동영상과 더 유사합니다.
내적은 두 벡터의 길이에 영향을 미치므로 인기 동영상의 벡터 벡터 길이가 길면 모든 동영상과 더 유사해집니다.
인기 동영상은 다른 인기 동영상에 비해 유사해 보입니다.
내적은 \(|a||b|\cos(\theta)\)로 계산됩니다. 'a'가 인기 뮤직 비디오라고 가정할 때 Google은 임베딩 길이 \(|a|\)가 인기가 없는 동영상보다 크다는 것을 알고 있습니다. 길이가 클수록 \(|b|\)의 값에 관계없이 내적이 증가합니다. 따라서 인기 동영상은 다른 인기 동영상뿐 아니라 다른 모든 동영상과 유사합니다.
인기 동영상은 인기도가 낮은 동영상과 비슷합니다.
내적은 벡터 길이에 따라 증가하고 인기 동영상의 벡터 벡터 길이가 높기 때문에 유사성 측정값은 감소하지 않고 증가합니다.
변경사항 없음.
점 제품은 벡터 길이의 영향을 받으며, 인기 동영상의 벡터 벡터 길이는 유사성 측정값을 변경합니다.
이전 질문과 같은 시나리오에서 내적 제품에서 코사인으로 전환한다고 가정해 보겠습니다. 뮤직 비디오 간의 유사점은 어떻게 다른가요?
인기 동영상은 인기도가 낮은 동영상과 비슷합니다.
코사인은 벡터 길이의 영향을 받지 않으므로 인기 동영상의 임베딩의 큰 벡터 길이는 유사성에 기여하지 않습니다. 따라서 내적 제품에서 코사인으로 전환하면 인기 동영상의 유사성이 감소합니다.
인기 동영상은 인기가 낮은 동영상보다 더 유사합니다.
코사인은 벡터 길이의 영향을 받지 않으므로 내적 제품에서 전환하면 모든 인기 있는 동영상의 유사성이 감소합니다.
변경사항 없음.
코사인은 벡터 길이의 영향을 받지 않기 때문에 코사인을 사용하면 유사성이 달라집니다.