Sekarang Anda memiliki penyematan untuk setiap pasangan contoh. Ukuran kesamaan mengambil sematan penyematan ini dan menampilkan angka yang mengukur kemiripannya. Ingat bahwa sematan hanya vektor angka. Untuk menemukan kesamaan antara dua vektor \(A = [a_1,a_2,...,a_n]\) dan \(B = [b_1,b_2,...,b_n]\), Anda memiliki tiga pilihan kesamaan untuk dipilih, seperti yang tercantum dalam tabel di bawah.
Mengukur | Arti | Formula | Hubungan dengan peningkatan kesamaan |
---|---|---|---|
Jarak Euclidean | Jarak antara ujung vektor | \(\sqrt{(a_1-b_1)^2+(a_2-b_2)^2+...+(a_N-b_N)^2}\) | Menurun |
Kosinus | Kosinus sudut \(\theta\) antara vektor | \(\frac{a^T b}{|a| \cdot |b|}\) | Peningkatan |
Produk Titik | Kosinus dikalikan dengan panjang kedua vektor | \(a_1b_1+a_2b_2+...+a_nb_n\) \(=|a||b|cos(\theta)\) | Peningkatan. Juga meningkat seiring dengan panjang vektor. |
Memilih Ukuran Kesamaan
Berbeda dengan kosinus, produk titik sebanding dengan panjang vektor. Hal ini penting karena contoh yang muncul sangat sering dalam kumpulan pelatihan (misalnya, video YouTube populer) cenderung memiliki vektor penyematan dengan durasi yang besar. Jika Anda ingin mencatat popularitas, pilih produk titik. Namun, risikonya adalah contoh populer dapat mendistorsi metrik kesamaan. Untuk menyeimbangkan kemiringan ini, Anda dapat menaikkan panjang ke eksponen \(\alpha\ < 1\) untuk menghitung produk titik sebagai \(|a|^{\alpha}|b|^{\alpha}\cos(\theta)\).
Untuk lebih memahami bagaimana panjang vektor mengubah ukuran kesamaan, menormalkan panjang vektor menjadi 1 dan perhatikan bahwa ketiga ukuran tersebut akan saling proporsional.
- Jarak Euclidean = \(||a-b|| = \sqrt{||a||^2 + ||b||^2 - 2a^{T}b} = \sqrt{2-2\cos(\theta_{ab})}\).
- Produk titik = \( |a||b| \cos(\theta_{ab}) = 1\cdot1\cdot \cos(\theta_{ab}) = cos(\theta_{ab})\).
- Kosinus = \(\cos(\theta_{ab})\).