Hãy tưởng tượng bạn đang phát triển một đơn đăng ký đề xuất về thực phẩm, trong đó người dùng nhập bữa ăn yêu thích của họ, đồng thời ứng dụng đề xuất các bữa ăn tương tự mà họ có thể thích. Bạn muốn phát triển một mô hình học máy (ML) có thể dự đoán sự tương đồng về thực phẩm, nhờ đó, ứng dụng của bạn có thể giúp nâng cao chất lượng đề xuất ("Vì bạn thích bánh kếp, chúng tôi đề xuất bánh kếp").
Để huấn luyện mô hình của mình, bạn chọn một tập dữ liệu gồm 5.000 món ăn chính, bao gồm borscht, bánh mì kẹp xúc xích, món rau trộn, pizza, và shawarma.
Bạn tạo một đối tượng meal
chứa
được mã hoá một lần
đại diện cho từng món ăn trong tập dữ liệu.
Sự cố biểu diễn dữ liệu thưa thớt
Xem lại các kiểu mã hoá nóng bỏng này, bạn nhận thấy hai vấn đề chính với biểu diễn dữ liệu.
- Số lượng trọng số. Vectơ đầu vào lớn có nghĩa là số lượng lớn
trọng số
cho mạng nơron.
Với các mục nhập M trong chế độ mã hoá một điểm, và N
các nút trong lớp đầu tiên của mạng sau đầu vào, mô hình phải huấn luyện
Trọng số MxN cho lớp đó. Một số lượng lớn trọng số gây ra thêm nhiều vấn đề:
- Số điểm dữ liệu. Mô hình của bạn càng có nhiều trọng số, thì bạn càng có nhiều dữ liệu cần huấn luyện một cách hiệu quả.
- Số lượng phép tính. Càng nhiều trọng số, càng cần nhiều phép tính để huấn luyện và sử dụng mô hình. Bạn có thể dễ dàng vượt quá khả năng của phần cứng.
- Dung lượng bộ nhớ. Mô hình của bạn càng có nhiều trọng số thì càng có nhiều bộ nhớ là cần thiết cho các trình tăng tốc huấn luyện và phân phát quảng cáo đó. Mở rộng quy mô hiệu quả là công việc rất khó khăn.
- Khó hỗ trợ công nghệ học máy trên thiết bị (ODML). Nếu bạn muốn chạy mô hình học máy trên các thiết bị cục bộ (thay vì phân phát chúng), bạn sẽ cần tập trung vào việc làm cho mô hình của mình nhỏ hơn và sẽ muốn để giảm số lượng trọng số.
- Thiếu mối quan hệ có ý nghĩa giữa các vectơ. Các giá trị vectơ trong cho thực phẩm không cung cấp bất kỳ thông tin có ý nghĩa nào về điểm tương đồng của các mặt hàng thực phẩm. Về mặt toán học, chỉ mục 1 ("bánh mì kẹp xúc xích") là gần với chỉ số 2 ("salad") hơn so với chỉ số 4999 ("shawarma"), mặc dù món chó giống với món shawarma (cả thịt và bánh mì) hơn là rau trộn.
Trong học phần này, bạn sẽ tìm hiểu cách tạo video nhúng, nội dung có chiều rộng thấp hơn để biểu diễn dữ liệu thưa thớt nhằm giải quyết cả hai vấn đề này.