Đo lường mức độ tương đồng qua các mục nhúng

Bạn hiện có các mục nhúng cho một cặp ví dụ bất kỳ. Điểm tương đồng có giám sát phương pháp đo lường sẽ đo lường các nhúng này và trả về một số đo mức độ tương đồng của chúng. Hãy nhớ rằng các hàm nhúng là các vectơ của số. Để tìm điểm tương đồng giữa hai vectơ \(A = [a_1,a_2,...,a_n]\) và \(B = [b_1,b_2,...,b_n]\), chọn một trong ba chỉ số tương đồng sau:

ĐoÝ nghĩaCông thức Khi mức độ tương đồng tăng lên, phương pháp đo lường này...
Khoảng cách EuclideKhoảng cách giữa các đầu vectơ \(\sqrt{(a_1-b_1)^2+(a_2-b_2)^2+...+(a_N-b_N)^2}\) Giảm
CosinCosin của góc \(\theta\) giữa các vectơ \(\frac{a^T b}{|a| \cdot |b|}\) Tăng
Tích vô hướngCosin nhân với độ dài của cả hai vectơ \(a_1b_1+a_2b_2+...+a_nb_n\) \(=|a||b|cos(\theta)\) Tăng. Cũng tăng theo độ dài của vectơ.

Chọn một chỉ số tương tự

Trái ngược với cosin, tích chấm tỷ lệ với độ dài vectơ. Điều này rất quan trọng vì các ví dụ xuất hiện rất thường xuyên trong chương trình đào tạo tập hợp (ví dụ: các video phổ biến trên YouTube) có xu hướng có các vectơ nhúng với có độ dài lớn. Nếu bạn muốn nắm bắt mức độ phổ biến, sau đó chọn sản phẩm chấm. Tuy nhiên, rủi ro là các ví dụ phổ biến có thể làm sai lệch chỉ số tương đồng. Để cân bằng độ lệch này, bạn có thể tăng độ dài lên số mũ \(\alpha\ < 1\) để tính tích vô hướng dưới tên \(|a|^{\alpha}|b|^{\alpha}\cos(\theta)\).

Để hiểu rõ hơn cách độ dài vectơ thay đổi số đo độ tương tự, hãy chuẩn hoá độ dài vectơ đến 1 và để ý rằng ba số đo trở thành tỷ lệ cho nhau.

Chứng minh: Tỷ lệ của các phép đo tương tự
Sau khi chuẩn hoá a và b sao cho \(||a||=1\) và \(||b||=1\), ba chỉ số này liên quan đến nhau, cụ thể như sau:
  • Khoảng cách Euclide = \(||a-b|| = \sqrt{||a||^2 + ||b||^2 - 2a^{T}b} = \sqrt{2-2\cos(\theta_{ab})}\).
  • Tích dấu chấm = \( |a||b| \cos(\theta_{ab}) = 1\cdot1\cdot \cos(\theta_{ab}) = cos(\theta_{ab})\).
  • Cosin = \(\cos(\theta_{ab})\).
Do đó, cả ba chỉ số tương đồng đều tương đương vì chúng cùng tỷ lệ với \(cos(\theta_{ab})\).

Xem xét các chỉ số tương đồng

Phép đo độ tương đồng đo lường sự tương đồng giữa một cặp so với các cặp ví dụ khác. Có hai loại, thủ công và được so sánh dưới đây:

LoạiCách tạoPhù hợp nhất choTác động
Thủ côngKết hợp dữ liệu tính năng theo cách thủ công. Tập dữ liệu nhỏ có các tính năng dễ kết hợp. Cung cấp thông tin chi tiết về kết quả của các phép tính tương tự. Nếu đối tượng dữ liệu thay đổi, thì bạn phải tự cập nhật thước đo độ tương đồng.
Chịu sự giám sátĐo khoảng cách giữa các mục nhúng được tạo bởi một doanh nghiệp dựa trên nền tảng kỹ thuật số được giám sát. Tập dữ liệu lớn với các tính năng khó kết hợp. Không cung cấp thông tin chi tiết về kết quả. Tuy nhiên, DNN có thể tự động điều chỉnh để thay đổi dữ liệu tính năng.