embedding là không gian có kích thước tương đối thấp mà bạn có thể dịch sang vectơ chiều cao. Để thảo luận về khía cạnh cấp cao so với dữ liệu có kích thước thấp, hãy xem phần Danh mục Dữ liệu .
Việc nhúng giúp dễ dàng hơn trong việc thực hiện công nghệ học máy trên vectơ đặc trưng, chẳng hạn như dưới dạng các vectơ thưa thớt biểu thị các món ăn được thảo luận trong phần trước. Tốt nhất là một video nhúng sẽ thu được một số ngữ nghĩa của đầu vào bằng cách đặt đầu vào giống nhau hơn về ý nghĩa cùng nhau trong không gian nhúng. Ví dụ: một nhúng tốt sẽ đặt từ "ô tô" gần với "garage" hơn thay vì "voi". Bạn có thể huấn luyện một nhúng và được tái sử dụng trên các mô hình.
Để có ý tưởng về cách nhúng vectơ biểu thị thông tin, hãy xem xét biểu diễn một chiều các món ăn bánh mì kẹp xúc xích, pizza, món rau trộn, shawarma và borscht, trên thang đo "ít giống bánh mì kẹp" thành "giống như một chiếc bánh sandwich". "Bánh mì kẹp thịt" là phương diện duy nhất.
Vị trí trên dòng này
bánh táo strudel
bị ngã? Có thể đặt giá trị trong khoảng từ hot dog
đến shawarma
. Nhưng Apple
strudel dường như cũng có thêm một chiều độ ngọt
món ăn là gì) hoặc món tráng miệng (món tráng miệng giống như món ăn đó)
tuỳ chọn này rất khác so với các tuỳ chọn khác. Hình sau đây minh hoạ phương thức này
bằng cách thêm "món tráng miệng" phương diện:
Một mục nhúng đại diện cho từng mục trong không gian n chiều bằng n dấu phẩy động (thường trong khoảng –1 đến 1 hoặc 0 đến 1). Ví dụ: nội dung nhúng trong Hình 4 đại diện cho từng món ăn trong không gian hai chiều với hai toạ độ. Mặt hàng "apple strudel" nằm trong góc phần tư trên bên phải của đồ thị và có thể được gán điểm (0,5, 0,3), còn "bánh mì kẹp xúc xích" nằm ở góc phần tư dưới cùng bên phải của biểu đồ và có thể được gán điểm (0,2, -0,5).
Trong một nhúng, bạn có thể tính khoảng cách giữa hai mục bất kỳ
về mặt toán học,
và có thể được hiểu là hai chỉ số tương đối giống nhau
mục. Hai vật ở gần nhau, chẳng hạn như shawarma
và hot dog
trong Hình 4, có liên quan chặt chẽ hơn hai vật ở xa nhau hơn
khác, chẳng hạn như apple strudel
và borscht
.
Ngoài ra, cũng xin lưu ý rằng trong không gian 2D trong Hình 4, apple strudel
xa hơn rất nhiều
từ shawarma
và hot dog
so với trong không gian 1D, phù hợp với
trực giác: apple strudel
không giống bánh mì kẹp xúc xích hoặc món shawarma nóng
chó và shawarmas với nhau.
Bây giờ, hãy xem xét borscht, loại này có chất lỏng cao hơn nhiều so với các vật phẩm khác. Chiến dịch này gợi ý đến phương diện thứ ba, tính lỏng (độ lỏng của thực phẩm). Khi thêm phương diện đó, các mục có thể được trình bày ở chế độ 3D theo cách sau:
Nơi nào trong không gian 3D này sẽ tangyuan đi? Bây giờ soupy, như kẹo borscht, và một món tráng miệng ngọt ngào như bánh strudel táo và chắc chắn là không phải bánh mì kẹp. Dưới đây là một vị trí có thể có:
Lưu ý lượng thông tin được thể hiện trong ba chiều này. Bạn có thể tưởng tượng các phương diện khác, như thịt hoặc nướng.
Không gian nhúng thực tế
Như bạn đã thấy trong các ví dụ về thực phẩm ở trên, ngay cả một không gian đa chiều nhỏ cung cấp quyền tự do nhóm các mục tương tự về mặt ngữ nghĩa với nhau và duy trì mặt hàng không giống nhau nhưng cách xa nhau. Vị trí (khoảng cách và hướng) trong vectơ có thể mã hoá ngữ nghĩa trong một khả năng nhúng phù hợp. Ví dụ: như sau hình ảnh trực quan của các mục nhúng thực tế minh hoạ các mối quan hệ hình học giữa các từ chỉ một quốc gia và thủ đô của quốc gia đó. Bạn có thể thấy rằng khoảng cách từ "Canada" đến "Ottawa" giống với khoảng cách từ "Thổ Nhĩ Kỳ" đến "Ankara".
Không gian nhúng có ý nghĩa sẽ giúp mô hình học máy phát hiện các mẫu trong quá trình huấn luyện.
Bài tập
Trong bài tập này, bạn sẽ sử dụng kỹ thuật Nhúng Công cụ Projector giúp trực quan hoá một từ trong đó có tên là word2vec biểu thị hơn 70.000 từ tiếng Anh bằng số trong không gian vectơ.
Nhiệm vụ 1
Thực hiện các tác vụ sau rồi trả lời câu hỏi bên dưới.
Mở công cụ Nhúng máy chiếu.
Trong bảng điều khiển bên phải, hãy nhập từ atom vào trường Tìm kiếm. Sau đó nhấp vào từ atom trong các kết quả bên dưới (trong 4 kết quả khớp). Thông tin màn hình sẽ trông giống như Hình 8.
Một lần nữa, trong bảng điều khiển bên phải, nhấp vào nút Isolate 101 points (ở trên trường Tìm kiếm) để hiển thị 100 từ gần nhất so với atom. Màn hình của bạn sẽ có dạng như Hình 9.
Bây giờ, hãy xem lại các từ được liệt kê trong phần Điểm gần nhất trong không gian ban đầu. Bạn sẽ mô tả những từ này như thế nào?
Nhấp vào đây để xem câu trả lời của chúng tôi
Phần lớn các từ gần nhất là những từ thường liên quan đến có từ atom, chẳng hạn như ở dạng số nhiều "atoms", và các từ "electron", "phân tử", và "hạt nhân".
Nhiệm vụ 2
Thực hiện các tác vụ sau rồi trả lời câu hỏi bên dưới:
Nhấp vào nút Hiển thị tất cả dữ liệu trong bảng điều khiển bên phải để đặt lại dữ liệu trực quan hoá từ Nhiệm vụ 1.
Trong bảng điều khiển bên phải, hãy nhập từ uranium vào trường Tìm kiếm. Màn hình của bạn sẽ trông giống như Hình 10.
Xem lại các từ được liệt kê trong phần Điểm gần nhất trong không gian ban đầu. Cách thức những từ này có khác với các từ gần nhất với atom không?
Nhấp vào đây để xem câu trả lời của chúng tôi
Uran là một chất phóng xạ cụ thể nguyên tố hoá học, và nhiều từ gần nhất là các nguyên tố khác, như kẽm, mangan, đồng và nhôm.
Nhiệm vụ 3
Thực hiện các tác vụ sau rồi trả lời câu hỏi bên dưới:
Nhấp vào nút Hiển thị tất cả dữ liệu trong bảng điều khiển bên phải để đặt lại dữ liệu trực quan hoá từ Nhiệm vụ 2.
Trong bảng điều khiển bên phải, hãy nhập từ cam vào trường Tìm kiếm. Thông tin màn hình sẽ có dạng như Hình 11.
Xem lại các từ được liệt kê trong phần Điểm gần nhất trong không gian ban đầu. Bạn nhận thấy điều gì về các loại từ cũng như các loại từ xuất hiện ở đây không xuất hiện ở đây?
Nhấp vào đây để xem câu trả lời của chúng tôi
Gần như tất cả các từ gần nhất đều là các màu khác, chẳng hạn như "vàng", "xanh lục" "xanh dương", "tím", và "đỏ". Chỉ một trong các từ gần nhất ("nước ép") tham chiếu đến nghĩa khác của từ này (trái cây cam quýt). Các loại trái cây khác bạn có thể muốn thấy, chẳng hạn như "apple" và "chuối", không có trong danh sách cụm từ gần nhất.
Ví dụ này minh hoạ một trong những thiếu sót chính của tính năng nhúng tĩnh như word2vec. Tất cả các nghĩa có thể có của một từ được thể hiện bằng một từ duy nhất điểm trong không gian vectơ, để khi bạn phân tích sự tương đồng cho "màu cam", đó là không thể tách riêng các điểm gần nhất cho một ký hiệu cụ thể của từ đó, chẳng hạn như "cam" (trái cây) nhưng không phải "cam" (màu sắc).