Mengukur kesamaan dari embedding

Sekarang Anda memiliki embedding untuk sepasang contoh. Kesamaan yang diawasi mengambil embeddings ini dan menghasilkan angka yang mengukur kesamaannya. Ingat bahwa embedding adalah vektor angka. Untuk menemukan kesamaan antara dua vektor \(A = [a_1,a_2,...,a_n]\) dan \(B = [b_1,b_2,...,b_n]\), pilih salah satu dari tiga ukuran kesamaan berikut:

UkurArtiFormula Seiring meningkatnya kesamaan, ukuran ini...
Jarak EuclideanJarak antara ujung vektor \(\sqrt{(a_1-b_1)^2+(a_2-b_2)^2+...+(a_N-b_N)^2}\) Menurun
KosinusKosinus sudut \(\theta\) antarvektor \(\frac{a^T b}{|a| \cdot |b|}\) Meningkat
Perkalian titikKosinus dikalikan dengan panjang kedua vektor \(a_1b_1+a_2b_2+...+a_nb_n\) \(=|a||b|cos(\theta)\) Meningkat. Juga meningkat seiring dengan panjang vektor.

Memilih ukuran kemiripan

Berbeda dengan kosinus, produk titik sebanding dengan panjang vektor. Hal ini penting karena contoh yang sangat sering muncul dalam pelatihan (misalnya, video YouTube populer) cenderung memiliki vektor embedding dan panjang. Jika Anda ingin menangkap popularitas, lalu pilih produk titik. Namun, risikonya adalah contoh populer dapat mempengaruhi metrik kemiripan. Untuk menyeimbangkan kecondongan ini, Anda dapat naikkan panjang menjadi eksponen \(\alpha\ < 1\) untuk menghitung perkalian titik sebagai \(|a|^{\alpha}|b|^{\alpha}\cos(\theta)\).

Untuk lebih memahami bagaimana panjang vektor mengubah ukuran kesamaan, normalisasi panjang vektor ke 1 dan perhatikan bahwa ketiga ukuran tersebut menjadi proporsional satu sama lain.

Bukti: Proporsionalitas Pengukuran Kemiripan
Setelah menormalisasi a dan b sedemikian rupa sehingga \(||a||=1\) dan \(||b||=1\), ketiga ukuran ini terkait sebagai:
  • Jarak Euclidean = \(||a-b|| = \sqrt{||a||^2 + ||b||^2 - 2a^{T}b} = \sqrt{2-2\cos(\theta_{ab})}\).
  • Perkalian titik = \( |a||b| \cos(\theta_{ab}) = 1\cdot1\cdot \cos(\theta_{ab}) = cos(\theta_{ab})\).
  • Kosinus = \(\cos(\theta_{ab})\).
Dengan demikian, ketiga ukuran kesamaan tersebut setara karena sebanding dengan \(cos(\theta_{ab})\).

Tinjauan ukuran kemiripan

Ukuran kesamaan mengukur kesamaan antara sepasang contoh, relatif terhadap pasangan contoh lainnya. Ada dua jenis, manual dan diawasi, dibandingkan di bawah ini:

JenisCara membuatPaling cocok untukImplikasi
ManualMenggabungkan data fitur secara manual. {i>Dataset<i} kecil dengan fitur yang mudah digabungkan. Memberikan wawasan tentang hasil penghitungan kesamaan. Fitur if perubahan data, Anda harus memperbarui ukuran kemiripan secara manual.
DiawasiUkur jarak antara embedding yang dihasilkan oleh DNN yang diawasi. Set data besar dengan fitur yang sulit digabungkan. Tidak memberikan wawasan tentang hasil. Namun, DNN dapat secara otomatis beradaptasi hingga mengubah data fitur.