Bây giờ, bạn đã có các phần nhúng cho bất kỳ cặp ví dụ nào. Một phép đo tương đồng có giám sát sẽ lấy các giá trị nhúng này và trả về một số đo lường mức độ tương đồng của chúng. Hãy nhớ rằng các phần nhúng là vectơ số. Để tìm mức độ tương đồng giữa hai vectơ và , hãy chọn một trong ba phương pháp đo lường mức độ tương đồng sau:
Đo lường | Ý nghĩa | Công thức | Khi mức độ tương đồng tăng lên, chỉ số này... |
---|---|---|---|
Khoảng cách Euclide | Khoảng cách giữa hai đầu của vectơ | Giảm | |
Cosin | Cosin của góc giữa các vectơ | Tăng | |
Tích vô hướng | Cos nhân với độ dài của cả hai vectơ | Tăng. Cũng tăng theo độ dài của vectơ. |
Chọn một chỉ số đo lường mức độ tương đồng
Ngược lại với cosine, tích vô hướng tỷ lệ thuận với độ dài vectơ. Điều này rất quan trọng vì các ví dụ xuất hiện rất thường xuyên trong tập dữ liệu huấn luyện (ví dụ: video phổ biến trên YouTube) thường có vectơ nhúng có độ dài lớn. Nếu bạn muốn thu thập thông tin về mức độ phổ biến, hãy chọn tích vô hướng. Tuy nhiên, nguy cơ là các ví dụ phổ biến có thể làm sai lệch chỉ số tương đồng. Để cân bằng độ lệch này, bạn có thể tăng độ dài lên lũy thừa để tính tích vô hướng là .
Để hiểu rõ hơn về cách độ dài vectơ thay đổi mức đo tương đồng, hãy chuẩn hoá độ dài vectơ thành 1 và lưu ý rằng ba mức đo này trở nên tương ứng với nhau.
- Khoảng cách Euclide = .
- Tích vô hướng = .
- Cosin = .
Xem xét các biện pháp đo lường mức độ tương đồng
Một chỉ số tương đồng định lượng mức độ tương đồng giữa một cặp ví dụ so với các cặp ví dụ khác. Hai loại, thủ công và giám sát, được so sánh dưới đây:
Loại | Cách tạo | Phù hợp nhất cho | Tác động |
---|---|---|---|
Thủ công | Kết hợp dữ liệu tính năng theo cách thủ công. | Tập dữ liệu nhỏ có các tính năng dễ dàng kết hợp. | Cung cấp thông tin chi tiết về kết quả tính toán mức độ tương đồng. Nếu dữ liệu tính năng thay đổi, bạn phải cập nhật phương pháp đo lường mức độ tương đồng theo cách thủ công. |
Chịu sự giám sát | Đo khoảng cách giữa các bản nhúng do DNN có giám sát tạo ra. | Tập dữ liệu lớn có các tính năng khó kết hợp. | Không cung cấp thông tin chi tiết về kết quả. Tuy nhiên, DNN có thể tự động thích ứng với dữ liệu đặc điểm thay đổi. |