Mô hình ngôn ngữ là gì?
Mô hình ngôn ngữ ước tính xác suất của một mã thông báo hoặc chuỗi mã thông báo xảy ra trong một chuỗi mã thông báo dài hơn. Mã thông báo có thể là từ, từ phụ (một tập hợp con của từ) hoặc thậm chí là một ký tự đơn.
Hãy xem xét câu sau và(các) mã thông báo có thể hoàn tất câu này:
When I hear rain on my roof, I _______ in my kitchen.
Mô hình ngôn ngữ xác định xác suất của các mã thông báo hoặc các chuỗi mã thông báo để điền vào chỗ trống đó. Ví dụ: như sau bảng xác suất xác định một số mã thông báo có thể có và xác suất của chúng:
Xác suất | (Các) mã thông báo |
---|---|
9,4% | nấu súp |
5,2% | làm ấm ấm đun nước |
3,6% | máy co rút |
2,5% | ngủ trưa |
2,2% | thư giãn |
Trong một số trường hợp, chuỗi mã thông báo có thể là cả một câu, một đoạn văn hoặc thậm chí là toàn bộ một bài tiểu luận.
Ứng dụng có thể sử dụng bảng xác suất để đưa ra dự đoán. Thông tin dự đoán có thể là xác suất cao nhất (ví dụ: "nấu súp") hoặc lựa chọn ngẫu nhiên từ mã thông báo có xác suất lớn hơn ngưỡng.
Việc ước tính xác suất điền vào chỗ trống trong chuỗi văn bản có thể được mở rộng cho các công việc phức tạp hơn, bao gồm:
- Đang tạo văn bản.
- Dịch văn bản từ ngôn ngữ này sang ngôn ngữ khác.
- Đang tóm tắt tài liệu.
Bằng cách lập mô hình các mẫu thống kê của mã thông báo, các mô hình ngôn ngữ hiện đại sẽ phát triển đại diện nội bộ cực kỳ mạnh mẽ về ngôn ngữ và có thể tạo ra ngôn từ hợp lý.
Mô hình ngôn ngữ Ngram
N-gram là chuỗi từ được sắp xếp theo thứ tự dùng để xây dựng mô hình ngôn ngữ, trong đó N là số từ trong trình tự. Ví dụ: khi N là 2, N-gram được gọi là 2-gram (hoặc bigram); khi N là 5, N-gram là gọi là 5 gam. Cho cụm từ sau trong một tài liệu đào tạo:
you are very nice
2 gam thu được như sau:
- bạn
- rất
- rất tốt
Khi N là 3, N-gram được gọi là 3-gram (hoặc trigram). Với cùng cụm từ đó, thu được 3 gam là:
- bạn rất
- rất tốt
Cho sẵn hai từ làm dữ liệu đầu vào, mô hình ngôn ngữ dựa trên 3 gam có thể dự đoán khả năng xuất hiện từ thứ ba. Ví dụ: cho hai từ sau:
orange is
Một mô hình ngôn ngữ kiểm tra tất cả 3 gam khác nhau có được từ quá trình huấn luyện
tập sao lục bắt đầu bằng orange is
để xác định từ thứ ba có khả năng xuất hiện nhất.
Hàng trăm 3 gam có thể bắt đầu bằng hai từ orange is
, nhưng bạn có thể
chỉ tập trung vào hai khả năng sau:
orange is ripe orange is cheerful
Khả năng đầu tiên (orange is ripe
) là về quả cam,
còn khả năng thứ hai (orange is cheerful
) là về màu sắc
màu cam.
Bối cảnh
Con người có thể giữ lại ngữ cảnh tương đối dài. Khi xem Màn 3 của một vở kịch, bạn duy trì kiến thức về các ký tự được giới thiệu trong Đạo luật 1. Tương tự, câu chuyện cười dài khiến bạn cười vì bạn có thể nhớ được bối cảnh từ phần thiết lập câu chuyện đùa.
Trong các mô hình ngôn ngữ, bối cảnh là thông tin hữu ích ở trước hoặc sau mã thông báo mục tiêu. Bối cảnh có thể giúp mô hình ngôn ngữ xác định liệu "màu cam" có phải là để chỉ một loại trái cây họ cam quýt hoặc một màu sắc.
Bối cảnh có thể giúp mô hình ngôn ngữ đưa ra dự đoán chính xác hơn, nhưng
3 gam cung cấp đủ ngữ cảnh? Rất tiếc, ngữ cảnh duy nhất của cụm từ 3G
cung cấp là hai từ đầu tiên. Ví dụ: hai từ orange is
không
cung cấp đủ ngữ cảnh để mô hình ngôn ngữ dự đoán từ thứ ba.
Do thiếu ngữ cảnh, các mô hình ngôn ngữ dựa trên 3 gram mắc rất nhiều lỗi.
N-gram dài hơn chắc chắn sẽ cung cấp nhiều ngữ cảnh hơn so với N-gram ngắn. Tuy nhiên, khi N tăng lên, lần xuất hiện tương đối của mỗi thực thể sẽ giảm đi. Khi N trở nên rất lớn, mô hình ngôn ngữ thường chỉ có một duy nhất của mỗi lần xuất hiện mã thông báo N. Điều này không hữu ích lắm trong dự đoán mã thông báo mục tiêu.
Mạng nơron tái phát
Tơ ron thần kinh tái phát mạng truyền hình cung cấp nhiều ngữ cảnh hơn so với N-gram. Mạng nơron lặp lại là một loại mạng nơron huấn luyện trên một chuỗi mã thông báo. Ví dụ: mạng nơron lặp lại có thể dần dần tìm hiểu (và học cách bỏ qua) ngữ cảnh đã chọn của mỗi từ trong một câu, giống như khi bạn lắng nghe người khác nói. Một mạng nơron lặp đi lặp lại lớn có thể hiểu được ngữ cảnh từ việc đi qua một số câu.
Mặc dù mạng nơron tái phát tìm hiểu nhiều ngữ cảnh hơn so với N-gram, số lượng các mạng nơron lặp lại hữu ích có thể vẫn tương đối bị hạn chế. Mạng nơron định kỳ đánh giá thông tin "mã thông báo theo mã thông báo". Ngược lại, các mô hình ngôn ngữ lớn – chủ đề của – có thể đánh giá toàn bộ ngữ cảnh cùng một lúc.
Lưu ý rằng việc huấn luyện mạng nơron tái phát cho các ngữ cảnh dài bị hạn chế bởi độ dốc biến mất vấn đề.
Bài tập: Kiểm tra kiến thức
- Một mô hình ngôn ngữ dựa trên 6 gam
- Một mô hình ngôn ngữ dựa trên 5 gam