Đo lường mức độ tương đồng được giám sát

Thay vì so sánh dữ liệu của tính năng được kết hợp theo cách thủ công, bạn có thể giảm tính năng này dữ liệu cho các đại diện được gọi là video được nhúng, sau đó so sánh các video nhúng. Các mục nhúng được tạo bằng cách huấn luyện mạng nơron sâu được giám sát mạng (DNN) về tính năng . Các mục nhúng ánh xạ dữ liệu đối tượng với một vectơ trong phần nhúng thường có ít kích thước hơn so với dữ liệu tính năng. Các mục nhúng được thảo luận trong phần Nhúng học phần của Khoá học nhanh về học máy, trong khi mạng nơron được thảo luận trong khoá học Lưới nơron . Nhúng vectơ cho các ví dụ tương tự, chẳng hạn như video YouTube trên các chủ đề tương tự được cùng người dùng xem, kết thúc gần nhau khi nhúng . Phương pháp đo lường sự tương đồng có giám sát sử dụng "sự gần gũi" này để định lượng sự tương đồng cho các cặp ví dụ.

Xin lưu ý rằng chúng ta sẽ chỉ thảo luận về phương pháp học có giám sát nhằm tạo ra điểm tương đồng đo lường. Sau đó, đo lường sự tương đồng sẽ được sử dụng theo cách thủ công hay được giám sát một thuật toán để thực hiện phân cụm không được giám sát.

So sánh biện pháp thủ công và biện pháp có giám sát

Bảng này mô tả các trường hợp nên sử dụng điểm tương tự theo cách thủ công hoặc được giám sát đo lường tuỳ thuộc vào yêu cầu của bạn.

Yêu cầuThủ côngChịu sự giám sát
Loại bỏ thông tin thừa trong các tính năng tương quan? Không, bạn cần phải điều tra mọi mối tương quan giữa các tính năng. Có, DNN loại bỏ thông tin dư thừa.
Cung cấp thông tin chi tiết về những điểm tương đồng được tính toán? Không, không thể giải mã các mục nhúng.
Có phù hợp với tập dữ liệu nhỏ có ít tính năng không? Có. Không, tập dữ liệu nhỏ không cung cấp đủ dữ liệu huấn luyện cho DNN.
Có phù hợp với các tập dữ liệu lớn với nhiều tính năng không? Không, xoá thông tin thừa khỏi nhiều tính năng theo cách thủ công và sau đó kết hợp chúng là rất khó. Có, DNN sẽ tự động loại bỏ thông tin thừa và kết hợp các tính năng.

Tạo một chỉ số tương đồng có giám sát

Dưới đây là thông tin tổng quan về quy trình tạo một thước đo tương tự có giám sát:

Nhập dữ liệu của tính năng. Chọn DNN: bộ mã hoá tự động hoặc công cụ dự đoán.
      Trích xuất các mục nhúng. Chọn phép đo: Tích dấu chấm, cosin hoặc
      Khoảng cách Euclide.
Hình 1: Các bước tạo một điểm tương đồng có giám sát đo lường.

Trang này thảo luận về DNN, trong khi các trang sau đây trình bày các bước còn lại.

Chọn DNN dựa trên các nhãn huấn luyện

Giảm dữ liệu tính năng xuống các mục nhúng thứ nguyên thấp hơn bằng cách huấn luyện một DNN sử dụng cùng một dữ liệu tính năng làm dữ liệu đầu vào và làm nhãn. Ví dụ: trong trong trường hợp dữ liệu nội bộ, DNN sẽ sử dụng các tính năng—như giá, kích thước và mã bưu chính—để dự đoán chính các đối tượng này.

Bộ mã hoá tự động

Một DNN học các mục nhúng của dữ liệu đầu vào bằng cách tự dự đoán dữ liệu đầu vào được gọi là bộ mã hoá tự động. Do các lớp ẩn của bộ mã hoá tự động nhỏ hơn các lớp đầu vào và đầu ra, bộ mã hoá tự động buộc phải học bản trình bày được nén của dữ liệu tính năng đầu vào. Sau khi huấn luyện DNN, trích xuất các mục nhúng từ lớp ẩn nhỏ nhất để tính độ tương đồng.

Hình ảnh cho thấy một số lượng lớn các nút cho cùng một
       dữ liệu đầu vào và đầu ra, được nén thành 3 nút ở giữa.
       về 5 lớp ẩn.
Hình 2: Cấu trúc bộ mã hoá tự động.

Công cụ dự đoán

Bộ mã hoá tự động là lựa chọn đơn giản nhất để tạo mục nhúng. Tuy nhiên, một bộ mã hoá tự động không phải là lựa chọn tối ưu khi một số tính năng nhất định có thể quan trọng hơn các yếu tố khác trong việc xác định sự tương đồng. Ví dụ: dữ liệu nội bộ, giả định giá quan trọng hơn mã bưu chính. Trong những trường hợp như vậy, hãy sử dụng chỉ tính năng quan trọng làm nhãn huấn luyện cho DNN. Vì DNN này dự đoán một tính năng đầu vào cụ thể thay vì dự đoán tất cả các tính năng đầu vào, được gọi là DNN dự đoán. Thường thì các mục nhúng nên được trích xuất từ lớp nhúng cuối cùng.

Hình cho thấy số lượng lớn các nút trong vectơ đầu vào
       bị giảm qua ba lớp ẩn thành lớp ba nút mà từ đó
       các mục nhúng cần được trích xuất. Lớp đầu ra cuối cùng là lớp được dự đoán
       giá trị nhãn.
Hình 3: Cấu trúc trình dự đoán.

Khi chọn một đối tượng làm nhãn:

  • Ưu tiên các đối tượng dạng số hơn danh mục phân loại do ngừng sử dụng dễ tính toán và diễn giải hơn đối với các đối tượng số.

  • Xoá tính năng mà bạn dùng làm nhãn khỏi giá trị đầu vào của DNN, hoặc nếu không, DNN sẽ sử dụng tính năng đó để dự đoán kết quả chính xác nhất. (Đây là một ví dụ điển hình về sự cố rò rỉ nhãn.)

Tuỳ thuộc vào nhãn mà bạn chọn, DNN thu được sẽ là bộ mã hoá tự động hoặc công cụ dự đoán.