Mengukur kesamaan dari embedding

Sekarang Anda memiliki penyematan untuk setiap pasangan contoh. Pengukuran kesamaan yang diawasi menggunakan embeddings ini dan menampilkan angka yang mengukur kesamaannya. Ingat bahwa embedding adalah vektor angka. Untuk menemukan kemiripan antara dua vektor A=[a1,a2,...,an] dan B=[b1,b2,...,bn], pilih salah satu dari tiga ukuran kemiripan ini:

UkurArtiFormula Seiring meningkatnya kesamaan, ukuran ini...
Jarak EuclideanJarak antara ujung vektor (a1b1)2+(a2b2)2+...+(aNbN)2 Menurun
KosinusKosinus sudut θ antara vektor aTb|a||b| Meningkatkan
Perkalian titikKosinus dikalikan dengan panjang kedua vektor a1b1+a2b2+...+anbn =|a||b|cos(θ) Meningkat. Juga meningkat dengan panjang vektor.

Memilih ukuran kesamaan

Berbeda dengan kosinus, perkalian titik sebanding dengan panjang vektor. Hal ini penting karena contoh yang muncul sangat sering dalam set pelatihan (misalnya, video YouTube populer) cenderung memiliki vektor penyematan dengan panjang yang besar. Jika Anda ingin menangkap popularitas, pilih produk titik. Namun, risikonya adalah contoh populer dapat mendistorsi metrik kemiripan. Untuk menyeimbangkan kemiringan ini, Anda dapat menaikkan panjang ke eksponen α <1 untuk menghitung perkalian titik sebagai |a|α|b|αcos(θ).

Untuk lebih memahami bagaimana panjang vektor mengubah pengukuran kemiripan, normalisasi panjang vektor menjadi 1 dan perhatikan bahwa ketiga pengukuran menjadi proporsional satu sama lain.

Bukti: Proporsionalitas Ukuran Kesamaan
Setelah menormalisasi a dan b sehingga ||a||=1 dan ||b||=1, ketiga ukuran ini terkait sebagai:
  • Jarak Euclidean = ||ab||=||a||2+||b||22aTb=22cos(θab).
  • Perkalian titik = |a||b|cos(θab)=11cos(θab)=cos(θab).
  • Kosinus = cos(θab).
Dengan demikian, ketiga ukuran kesamaan tersebut setara karena proporsional dengan cos(θab).

Peninjauan ukuran kesamaan

Pengukuran kemiripan mengukur kemiripan antara sepasang contoh, relatif terhadap pasangan contoh lainnya. Kedua jenis, manual dan diawasi, dibandingkan di bawah ini:

JenisCara membuatPaling cocok untukImplikasi
ManualMenggabungkan data fitur secara manual. Set data kecil dengan fitur yang mudah digabungkan. Memberikan insight tentang hasil penghitungan kesamaan. Jika data fitur berubah, Anda harus memperbarui pengukuran kemiripan secara manual.
DiawasiMengukur jarak antara penyematan yang dihasilkan oleh DNN yang diawasi. Set data besar dengan fitur yang sulit digabungkan. Tidak memberikan insight tentang hasil. Namun, DNN dapat otomatis beradaptasi dengan perubahan data fitur.