Sekarang Anda memiliki embedding untuk sepasang contoh. Kesamaan yang diawasi mengambil embeddings ini dan menghasilkan angka yang mengukur kesamaannya. Ingat bahwa embedding adalah vektor angka. Untuk menemukan kesamaan antara dua vektor \(A = [a_1,a_2,...,a_n]\) dan \(B = [b_1,b_2,...,b_n]\), pilih salah satu dari tiga ukuran kesamaan berikut:
Ukur | Arti | Formula | Seiring meningkatnya kesamaan, ukuran ini... |
---|---|---|---|
Jarak Euclidean | Jarak antara ujung vektor | \(\sqrt{(a_1-b_1)^2+(a_2-b_2)^2+...+(a_N-b_N)^2}\) | Menurun |
Kosinus | Kosinus sudut \(\theta\) antarvektor | \(\frac{a^T b}{|a| \cdot |b|}\) | Meningkat |
Perkalian titik | Kosinus dikalikan dengan panjang kedua vektor | \(a_1b_1+a_2b_2+...+a_nb_n\) \(=|a||b|cos(\theta)\) | Meningkat. Juga meningkat seiring dengan panjang vektor. |
Memilih ukuran kemiripan
Berbeda dengan kosinus, produk titik sebanding dengan panjang vektor. Hal ini penting karena contoh yang sangat sering muncul dalam pelatihan (misalnya, video YouTube populer) cenderung memiliki vektor embedding dan panjang. Jika Anda ingin menangkap popularitas, lalu pilih produk titik. Namun, risikonya adalah contoh populer dapat mempengaruhi metrik kemiripan. Untuk menyeimbangkan kecondongan ini, Anda dapat naikkan panjang menjadi eksponen \(\alpha\ < 1\) untuk menghitung perkalian titik sebagai \(|a|^{\alpha}|b|^{\alpha}\cos(\theta)\).
Untuk lebih memahami bagaimana panjang vektor mengubah ukuran kesamaan, normalisasi panjang vektor ke 1 dan perhatikan bahwa ketiga ukuran tersebut menjadi proporsional satu sama lain.
- Jarak Euclidean = \(||a-b|| = \sqrt{||a||^2 + ||b||^2 - 2a^{T}b} = \sqrt{2-2\cos(\theta_{ab})}\).
- Perkalian titik = \( |a||b| \cos(\theta_{ab}) = 1\cdot1\cdot \cos(\theta_{ab}) = cos(\theta_{ab})\).
- Kosinus = \(\cos(\theta_{ab})\).
Tinjauan ukuran kemiripan
Ukuran kesamaan mengukur kesamaan antara sepasang contoh, relatif terhadap pasangan contoh lainnya. Ada dua jenis, manual dan diawasi, dibandingkan di bawah ini:
Jenis | Cara membuat | Paling cocok untuk | Implikasi |
---|---|---|---|
Manual | Menggabungkan data fitur secara manual. | {i>Dataset<i} kecil dengan fitur yang mudah digabungkan. | Memberikan wawasan tentang hasil penghitungan kesamaan. Fitur if perubahan data, Anda harus memperbarui ukuran kemiripan secara manual. |
Diawasi | Ukur jarak antara embedding yang dihasilkan oleh DNN yang diawasi. | Set data besar dengan fitur yang sulit digabungkan. | Tidak memberikan wawasan tentang hasil. Namun, DNN dapat secara otomatis beradaptasi hingga mengubah data fitur. |