Bạn hiện có các mục nhúng cho một cặp ví dụ bất kỳ. Điểm tương đồng có giám sát phương pháp đo lường sẽ đo lường các nhúng này và trả về một số đo mức độ tương đồng của chúng. Hãy nhớ rằng các hàm nhúng là các vectơ của số. Để tìm điểm tương đồng giữa hai vectơ \(A = [a_1,a_2,...,a_n]\) và \(B = [b_1,b_2,...,b_n]\), chọn một trong ba chỉ số tương đồng sau:
Đo | Ý nghĩa | Công thức | Khi mức độ tương đồng tăng lên, phương pháp đo lường này... |
---|---|---|---|
Khoảng cách Euclide | Khoảng cách giữa các đầu vectơ | \(\sqrt{(a_1-b_1)^2+(a_2-b_2)^2+...+(a_N-b_N)^2}\) | Giảm |
Cosin | Cosin của góc \(\theta\) giữa các vectơ | \(\frac{a^T b}{|a| \cdot |b|}\) | Tăng |
Tích vô hướng | Cosin nhân với độ dài của cả hai vectơ | \(a_1b_1+a_2b_2+...+a_nb_n\) \(=|a||b|cos(\theta)\) | Tăng. Cũng tăng theo độ dài của vectơ. |
Chọn một chỉ số tương tự
Trái ngược với cosin, tích chấm tỷ lệ với độ dài vectơ. Điều này rất quan trọng vì các ví dụ xuất hiện rất thường xuyên trong chương trình đào tạo tập hợp (ví dụ: các video phổ biến trên YouTube) có xu hướng có các vectơ nhúng với có độ dài lớn. Nếu bạn muốn nắm bắt mức độ phổ biến, sau đó chọn sản phẩm chấm. Tuy nhiên, rủi ro là các ví dụ phổ biến có thể làm sai lệch chỉ số tương đồng. Để cân bằng độ lệch này, bạn có thể tăng độ dài lên số mũ \(\alpha\ < 1\) để tính tích vô hướng dưới tên \(|a|^{\alpha}|b|^{\alpha}\cos(\theta)\).
Để hiểu rõ hơn cách độ dài vectơ thay đổi số đo độ tương tự, hãy chuẩn hoá độ dài vectơ đến 1 và để ý rằng ba số đo trở thành tỷ lệ cho nhau.
- Khoảng cách Euclide = \(||a-b|| = \sqrt{||a||^2 + ||b||^2 - 2a^{T}b} = \sqrt{2-2\cos(\theta_{ab})}\).
- Tích dấu chấm = \( |a||b| \cos(\theta_{ab}) = 1\cdot1\cdot \cos(\theta_{ab}) = cos(\theta_{ab})\).
- Cosin = \(\cos(\theta_{ab})\).
Xem xét các chỉ số tương đồng
Phép đo độ tương đồng đo lường sự tương đồng giữa một cặp so với các cặp ví dụ khác. Có hai loại, thủ công và được so sánh dưới đây:
Loại | Cách tạo | Phù hợp nhất cho | Tác động |
---|---|---|---|
Thủ công | Kết hợp dữ liệu tính năng theo cách thủ công. | Tập dữ liệu nhỏ có các tính năng dễ kết hợp. | Cung cấp thông tin chi tiết về kết quả của các phép tính tương tự. Nếu đối tượng dữ liệu thay đổi, thì bạn phải tự cập nhật thước đo độ tương đồng. |
Chịu sự giám sát | Đo khoảng cách giữa các mục nhúng được tạo bởi một doanh nghiệp dựa trên nền tảng kỹ thuật số được giám sát. | Tập dữ liệu lớn với các tính năng khó kết hợp. | Không cung cấp thông tin chi tiết về kết quả. Tuy nhiên, DNN có thể tự động điều chỉnh để thay đổi dữ liệu tính năng. |