Sekarang Anda memiliki penyematan untuk setiap pasangan contoh. Pengukuran kesamaan yang diawasi menggunakan embeddings ini dan menampilkan angka yang mengukur kesamaannya. Ingat bahwa embedding adalah vektor angka. Untuk menemukan kemiripan antara dua vektor dan , pilih salah satu dari tiga ukuran kemiripan ini:
Ukur | Arti | Formula | Seiring meningkatnya kesamaan, ukuran ini... |
---|---|---|---|
Jarak Euclidean | Jarak antara ujung vektor | Menurun | |
Kosinus | Kosinus sudut antara vektor | Meningkatkan | |
Perkalian titik | Kosinus dikalikan dengan panjang kedua vektor | Meningkat. Juga meningkat dengan panjang vektor. |
Memilih ukuran kesamaan
Berbeda dengan kosinus, perkalian titik sebanding dengan panjang vektor. Hal ini penting karena contoh yang muncul sangat sering dalam set pelatihan (misalnya, video YouTube populer) cenderung memiliki vektor penyematan dengan panjang yang besar. Jika Anda ingin menangkap popularitas, pilih produk titik. Namun, risikonya adalah contoh populer dapat mendistorsi metrik kemiripan. Untuk menyeimbangkan kemiringan ini, Anda dapat menaikkan panjang ke eksponen untuk menghitung perkalian titik sebagai .
Untuk lebih memahami bagaimana panjang vektor mengubah pengukuran kemiripan, normalisasi panjang vektor menjadi 1 dan perhatikan bahwa ketiga pengukuran menjadi proporsional satu sama lain.
- Jarak Euclidean = .
- Perkalian titik = .
- Kosinus = .
Peninjauan ukuran kesamaan
Pengukuran kemiripan mengukur kemiripan antara sepasang contoh, relatif terhadap pasangan contoh lainnya. Kedua jenis, manual dan diawasi, dibandingkan di bawah ini:
Jenis | Cara membuat | Paling cocok untuk | Implikasi |
---|---|---|---|
Manual | Menggabungkan data fitur secara manual. | Set data kecil dengan fitur yang mudah digabungkan. | Memberikan insight tentang hasil penghitungan kesamaan. Jika data fitur berubah, Anda harus memperbarui pengukuran kemiripan secara manual. |
Diawasi | Mengukur jarak antara penyematan yang dihasilkan oleh DNN yang diawasi. | Set data besar dengan fitur yang sulit digabungkan. | Tidak memberikan insight tentang hasil. Namun, DNN dapat otomatis beradaptasi dengan perubahan data fitur. |