Mengukur Kemiripan dari Embeddings

Sekarang Anda memiliki penyematan untuk setiap pasangan contoh. Ukuran kesamaan mengambil sematan penyematan ini dan menampilkan angka yang mengukur kemiripannya. Ingat bahwa sematan hanya vektor angka. Untuk menemukan kesamaan antara dua vektor \(A = [a_1,a_2,...,a_n]\) dan \(B = [b_1,b_2,...,b_n]\), Anda memiliki tiga pilihan kesamaan untuk dipilih, seperti yang tercantum dalam tabel di bawah.

MengukurArtiFormulaHubungan dengan peningkatan kesamaan
Jarak EuclideanJarak antara ujung vektor \(\sqrt{(a_1-b_1)^2+(a_2-b_2)^2+...+(a_N-b_N)^2}\) Menurun
KosinusKosinus sudut \(\theta\) antara vektor \(\frac{a^T b}{|a| \cdot |b|}\) Peningkatan
Produk TitikKosinus dikalikan dengan panjang kedua vektor \(a_1b_1+a_2b_2+...+a_nb_n\) \(=|a||b|cos(\theta)\) Peningkatan. Juga meningkat seiring dengan panjang vektor.

Memilih Ukuran Kesamaan

Berbeda dengan kosinus, produk titik sebanding dengan panjang vektor. Hal ini penting karena contoh yang muncul sangat sering dalam kumpulan pelatihan (misalnya, video YouTube populer) cenderung memiliki vektor penyematan dengan durasi yang besar. Jika Anda ingin mencatat popularitas, pilih produk titik. Namun, risikonya adalah contoh populer dapat mendistorsi metrik kesamaan. Untuk menyeimbangkan kemiringan ini, Anda dapat menaikkan panjang ke eksponen \(\alpha\ < 1\) untuk menghitung produk titik sebagai \(|a|^{\alpha}|b|^{\alpha}\cos(\theta)\).

Untuk lebih memahami bagaimana panjang vektor mengubah ukuran kesamaan, menormalkan panjang vektor menjadi 1 dan perhatikan bahwa ketiga ukuran tersebut akan saling proporsional.

Bukti: Proporsionalitas Pengukuran Kemiripan
Setelah menormalkan a dan b sedemikian rupa sehingga \(||a||=1\) dan \(||b||=1\), ketiga tindakan ini terkait sebagai:
  • Jarak Euclidean = \(||a-b|| = \sqrt{||a||^2 + ||b||^2 - 2a^{T}b} = \sqrt{2-2\cos(\theta_{ab})}\).
  • Produk titik = \( |a||b| \cos(\theta_{ab}) = 1\cdot1\cdot \cos(\theta_{ab}) = cos(\theta_{ab})\).
  • Kosinus = \(\cos(\theta_{ab})\).
Dengan demikian, ketiga tindakan kesamaan tersebut setara karena sebanding dengan \(cos(\theta_{ab})\).