Nhúng: Nhận các mục nhúng

Phần này tập trung vào 2 kỹ thuật phổ biến để nhúng video:

  • Giảm kích thước
  • Trích xuất một mục nhúng từ mô hình mạng nơron lớn hơn

Kỹ thuật giảm kích thước

Có nhiều kỹ thuật toán học để nắm bắt những thông tin quan trọng cấu trúc của không gian chiều cao trong không gian chiều thấp. Trên lý thuyết, bất kỳ kỹ thuật nào trong số này đều có thể sử dụng để tạo nhúng cho máy hệ thống học tập.

Ví dụ: phân tích thành phần chính (PCA) đã được dùng để nhúng từ. Với một tập hợp các thực thể như Vectơ bag of từ, PCA cố gắng để tìm các chiều tương quan chặt chẽ có thể thu gọn thành một .

Huấn luyện hoạt động nhúng trong mạng nơron

Bạn có thể tạo một nhúng trong khi huấn luyện một mạng nơron cho nhiệm vụ mục tiêu của bạn. Phương pháp này giúp bạn có một tính năng nhúng được tuỳ chỉnh tốt cho phù hợp với hệ thống cụ thể, nhưng có thể mất nhiều thời gian hơn so với việc huấn luyện việc nhúng một cách riêng biệt.

Nói chung, bạn có thể tạo một lớp ẩn có kích thước d trong mạng nơron nhân tạo được chỉ định là lớp nhúng, trong đó d biểu thị cả số nút trong lớp ẩn và số về kích thước trong không gian nhúng. Lớp nhúng này có thể được kết hợp với bất kỳ tính năng và lớp ẩn nào khác. Như trong bất kỳ mạng nơron sâu nào, sẽ được tối ưu hoá trong quá trình huấn luyện để giảm thiểu tổn thất trên các nút trong lớp đầu ra của mạng.

Quay lại ví dụ về đề xuất về thực phẩm, mục tiêu của chúng ta là để dự đoán bữa ăn mới mà người dùng sẽ thích dựa trên món ăn mà họ yêu thích bữa ăn chính. Trước tiên, chúng tôi có thể biên dịch thêm dữ liệu dựa trên dữ liệu về năm ứng dụng được yêu thích nhất thực phẩm. Sau đó, chúng tôi có thể mô hình hoá bài tập này dưới dạng một bài tập học tập có giám sát. Chúng ta thiết lập 4 trong số 5 loại thực phẩm hàng đầu này làm dữ liệu nổi bật, sau đó ngẫu nhiên dùng riêng thực phẩm thứ năm là nhãn hiệu tích cực mà mô hình của chúng tôi hướng đến để dự đoán, tối ưu hoá dự đoán của người mẫu bằng softmax tổn thất.

Trong quá trình huấn luyện, mô hình mạng nơron sẽ học các trọng số tối ưu cho các nút trong lớp ẩn đầu tiên, đóng vai trò là lớp nhúng. Ví dụ: nếu mô hình chứa ba nút trong lớp ẩn đầu tiên, có thể xác định rằng ba phương diện phù hợp nhất của các mặt hàng thực phẩm là bánh mì kẹp, món tráng miệng và tính lỏng. Hình 12 hiển thị mã hoá một nóng giá trị nhập cho "bánh mì kẹp xúc xích" biến đổi thành vectơ ba chiều.

Hình 12. Mạng nơron để mã hoá một lần cho món bánh mì kẹp xúc xích. Lớp đầu tiên là một
    lớp đầu vào có 5 nút, mỗi nút được chú thích bằng một biểu tượng của món ăn
    đại diện cho (borscht, xúc xích, rau trộn, ... và shawarma). Các nút này có
    các giá trị [0, 1, 0, ..., 0] tương ứng, đại diện cho giá trị nóng một lần
    mã hoá "hot Dog". Lớp đầu vào được kết nối với một nhúng 3 nút
    lớp chứa các giá trị tương ứng là 2,98, -0,75 và 0. Chiến lược phát hành đĩa đơn
    lớp nhúng được kết nối với một lớp ẩn gồm 5 nút, sau đó
    được kết nối với một lớp đầu ra 5 nút.
Hình 12. Phương thức mã hoá nhanh hot dog được cung cấp làm đầu vào cho mạng nơron sâu. Một lớp nhúng có chức năng dịch mã hoá một nóng vào vectơ nhúng ba chiều [2.98, -0.75, 0].

Trong quá trình đào tạo, trọng số của lớp nhúng sẽ được tối ưu hoá để vectơ nhúng các ví dụ tương tự sẽ hiển thị gần hơn khác. Kích thước riêng lẻ của lớp nhúng (mỗi nút trong lớp nhúng biểu thị) hiếm khi dễ hiểu như "món tráng miệng" hoặc "tính thanh khoản". Đôi khi ý nghĩa của các từ khoá đó có thể suy luận được, nhưng không phải lúc nào cũng trường hợp.

Các phần nhúng thường dành riêng cho từng tác vụ và sẽ khác nhau khi tác vụ khác đi. Ví dụ: video nhúng do người ăn chay tạo ra so với mô hình phân loại người không ăn chay có thể có hai phương diện: hàm lượng thịt và nội dung từ sữa. Trong khi đó, các mục nhúng do bữa sáng tạo ra so với thuật toán phân loại bữa tối cho món ăn Mỹ có thể có các phương diện hơi khác: hàm lượng calo, hàm lượng ngũ cốc và hàm lượng thịt. "Ngũ cốc" và "bánh mì kẹp trứng và thịt xông khói" có thể nằm gần nhau trong không gian nhúng của bộ phân loại bữa sáng so với bữa tối nhưng khác xa nhau trong không gian nhúng của phân loại người ăn chay so với người không ăn chay.

Đào tạo về cách nhúng từ

Trong phần trước, bạn đã tìm hiểu một trực quan hoá mối quan hệ ngữ nghĩa trong Không gian nhúng word2vec.

Word2vec là một trong nhiều thuật toán được dùng để huấn luyện tính năng nhúng từ. Chiến lược này dựa vào giả thuyết phân phối để ánh xạ tương tự về mặt ngữ nghĩa các từ với vectơ nhúng gần về mặt hình học. Hàm phân phối giả thuyết cho biết những từ thường có cùng các từ lân cận có xu hướng tương tự về mặt ngữ nghĩa. Cả "chó" và "mèo" thường xuyên xuất hiện ở gần từ "bác sĩ thú y" và thực tế này phản ánh sự tương đồng về mặt ngữ nghĩa của chúng. Như nhà ngôn ngữ học John Firth đã nói vào năm 1957: "Bạn sẽ biết một từ của công ty nó có thể duy trì".

Video sau đây giải thích một phương pháp khác để tạo một nhúng từ là là một phần của quá trình huấn luyện mạng nơron, bằng cách sử dụng một mô hình đơn giản hơn:

Nhúng tĩnh so với theo ngữ cảnh

Một hạn chế đối với việc nhúng từ như cách nhúng được thảo luận trong video ở trên là rằng chúng ở dạng tĩnh. Mỗi từ được biểu thị bằng một điểm duy nhất trong vectơ không gian, mặc dù nó có thể mang nhiều ý nghĩa khác nhau, tuỳ thuộc vào cách nó được sử dụng trong một câu. Trong bài tập cuối cùng, bạn phát hiện ra khó khăn trong việc liên kết các điểm tương đồng về mặt ngữ nghĩa cho từ cam,có thể biểu thị một màu sắc hoặc một loại trái cây.

Chúng tôi đã phát triển tính năng Nhúng theo ngữ cảnh để giải quyết những hạn chế này. Nhúng theo ngữ cảnh cho phép nhiều bản trình bày của cùng một từ, mỗi từ chứa thông tin về ngữ cảnh mà từ đó được sử dụng. Trong chế độ nhúng theo ngữ cảnh, từ cam có thể có hai cách biểu diễn riêng biệt: một cách biểu diễn "màu sắc" cách dùng từ này, chẳng hạn như trong những câu như "Áo len yêu thích của tôi có màu cam sọc" và một ảnh chụp "trái cây" cách sử dụng từ đó, như trong các câu như "Quả cam được nhổ khỏi cây trước khi quả chín hoàn toàn."