Một công nghệ mới hơn, mô hình ngôn ngữ lớn (LLM) dự đoán một mã thông báo hoặc một chuỗi các mã thông báo, đôi khi là nhiều đoạn văn bản mã thông báo dự đoán. Hãy nhớ rằng mã thông báo có thể là một từ, một từ phụ (một tập hợp con của một từ) hay thậm chí là một ký tự đơn. Các LLM đưa ra dự đoán chính xác hơn nhiều so với các mô hình ngôn ngữ N-gram hoặc mạng nơron lặp lại vì:
- Các LLM chứa nhiều tham số hơn so với các mô hình lặp lại.
- Các LLM thu thập nhiều ngữ cảnh hơn.
Phần này giới thiệu các cấu trúc thành công và được sử dụng rộng rãi nhất để xây dựng các mô hình ngôn ngữ lớn: Transformer.
Máy biến áp là gì?
Bộ chuyển đổi là kiến trúc tiên tiến dành cho nhiều loại ứng dụng mô hình ngôn ngữ, chẳng hạn như dịch:
Bộ biến áp đầy đủ bao gồm một bộ mã hoá và một bộ giải mã:
- Bộ mã hoá chuyển đổi nhập văn bản thành cách biểu diễn trung gian. Bộ mã hoá là một mạng nơron.
- Bộ giải mã chuyển đổi phần trình bày trung gian đó thành văn bản hữu ích. Bộ giải mã cũng là một mạng nơron khổng lồ.
Ví dụ: trong một biên dịch:
- Bộ mã hoá sẽ xử lý văn bản đầu vào (ví dụ: một câu tiếng Anh) thành một số đại diện trung gian.
- Bộ giải mã chuyển đổi cách biểu diễn trung gian đó thành văn bản đầu ra (cho ví dụ: câu tương đương bằng tiếng Pháp).
Quan tâm đến bản thân là gì?
Để cải thiện bối cảnh, Transformers chủ yếu dựa vào một khái niệm có tên là sự tự chú ý. Một cách hiệu quả, thay mặt cho từng mã thông báo của thông tin đầu vào, mức độ chú ý tự đặt ra sẽ yêu cầu câu hỏi sau:
"Các mã thông báo đầu vào khác nhau ảnh hưởng như thế nào đến việc diễn giải thông tin này không?"
"Bản thân" trong "tự chú ý" đề cập đến chuỗi đầu vào. Cần chú ý cơ chế quan hệ trọng số của mã thông báo đầu vào với mã thông báo trong trình tự đầu ra như bản dịch hoặc mã thông báo trong một trình tự khác. Tuy nhiên, chỉ tập trung vào bản thân đo lường mức độ quan trọng của mối quan hệ giữa các mã thông báo trong trình tự đầu vào.
Để đơn giản hoá các vấn đề, hãy giả định rằng mỗi mã thông báo là một từ và là ngữ cảnh chỉ là một câu. Hãy xem xét câu sau:
The animal didn't cross the street because it was too tired.
Câu trước chứa 11 từ. Mỗi từ trong số 11 từ chú ý đến 10 từ còn lại, tự hỏi mỗi từ trong 10 từ đó có bao nhiêu từ có ý nghĩa quan trọng đối với bản thân nó. Ví dụ: chú ý rằng câu đó có chứa đại từ nhân xưng it. Đại từ nhân xưng thường không rõ ràng. Đại từ it thường đề cập đến danh từ hoặc cụm danh từ gần đây, nhưng trong câu ví dụ, danh từ gần đây nó đề cập đến động vật hay đường phố?
Cơ chế tự chú ý xác định mức độ liên quan của mỗi từ lân cận với đại từ nhân xưng it. Hình 3 cho thấy kết quả – đường kẻ càng xanh thì càng quan trọng từ đó với đại từ it. Tức là animal (động vật) phù hợp hơn quan trọng hơn từ street đối với đại từ it.
Ngược lại, giả sử từ cuối cùng trong câu thay đổi như sau:
The animal didn't cross the street because it was too wide.
Trong câu được sửa đổi này, hy vọng chủ đề tự chú ý sẽ đánh giá đường phố là phù hợp hơn từ animal (động vật) với đại từ it.
Một số cơ chế tự chú ý có tính hai chiều, tức là tính điểm số mức độ liên quan cho mã thông báo trước và theo sau từ đã tham gia. Ví dụ: trong Hình 3, chú ý rằng các từ ở cả hai bên của nó sẽ được kiểm tra. Vì vậy, một cơ chế tự chú ý hai chiều có thể thu thập ngữ cảnh của các từ ở một trong hai bên của từ. Ngược lại, một cơ chế tự chú ý một chiều chỉ có thể thu thập ngữ cảnh từ các từ ở một bên của từ được chú ý. Quan tâm tự chú ý hai chiều là đặc biệt hữu ích trong việc tạo các biểu diễn của toàn bộ dãy số, trong khi các ứng dụng tạo ra trình tự từng mã thông báo yêu cầu ứng dụng một chiều sự chú ý của bản thân. Vì lý do này, bộ mã hoá sử dụng tính năng tự chú ý hai chiều, trong khi bộ giải mã sử dụng một chiều.
Tính năng Tự chú ý nhiều đầu là gì?
Mỗi lớp tự chú ý thường bao gồm nhiều đầu quan tâm tự chú ý. Đầu ra của một lớp là một phép toán (ví dụ: trung bình có trọng số hoặc tích vô hướng) của đầu ra của đầu khác nhau.
Do mỗi tầng tự chú ý được khởi tạo cho các giá trị ngẫu nhiên, nên các đầu có thể tìm hiểu mối quan hệ khác nhau giữa mỗi từ được chú ý và các từ lân cận. Ví dụ: tầng tự chú ý được mô tả trong phần trước tập trung vào việc xác định danh từ mà đại từ nó đề cập đến. Tuy nhiên, các tầng tự chú ý khác cũng có thể biết được mức độ liên quan về mặt ngữ pháp của từng từ với nhau hoặc tìm hiểu các hoạt động tương tác khác.
Tại sao Bộ chuyển đổi lại lớn như vậy?
Máy biến áp chứa hàng trăm tỷ hoặc thậm chí hàng nghìn tỷ tham số. Khoá học này thường khuyến khích các mô hình xây dựng có kích thước nhỏ so với những thông số có số lượng tham số lớn hơn. Suy cho cùng, một mô hình có số lượng tham số nhỏ hơn sẽ sử dụng ít tài nguyên hơn để đưa ra dự đoán so với mô hình có số lượng tham số lớn hơn. Tuy nhiên, nghiên cứu cho thấy rằng Transformer có nhiều tham số hơn liên tục hoạt động tốt hơn Máy biến áp với ít thông số hơn.
Nhưng LLM tạo văn bản bằng cách nào?
Bạn đã thấy cách các nhà nghiên cứu huấn luyện các mô hình ngôn ngữ lớn (LLM) để dự đoán một hoặc hai từ bị thiếu và bạn có thể không ấn tượng. Suy cho cùng, việc dự đoán một hoặc hai từ về cơ bản là tính năng tự động hoàn thành được tích hợp vào nhiều văn bản, email và phần mềm biên soạn. Có thể bạn đang thắc mắc cách các LLM có thể tạo câu, đoạn hoặc bài thơ haiku về chuyên đăng quảng cáo.
Trên thực tế, về cơ bản, các LLM là cơ chế tự động hoàn thành dự đoán (hoàn tất) hàng nghìn mã thông báo. Ví dụ: hãy cân nhắc một câu theo sau là một câu được che giấu:
My dog, Max, knows how to perform many traditional dog tricks. ___ (masked sentence)
Một LLM có thể tạo ra xác suất cho câu được che giấu, bao gồm:
Xác suất | (Các) từ |
---|---|
3,1% | Ví dụ: trẻ có thể ngồi, ở và cuộn qua. |
2,9% | Ví dụ: trẻ biết cách ngồi, ngồi và cuộn qua. |
Một LLM đủ lớn có thể tạo xác suất cho các đoạn văn và toàn bộ tiểu luận. Bạn có thể coi câu hỏi của người dùng đối với một LLM là "được đưa ra" câu tiếp theo là một mặt nạ tưởng tượng. Ví dụ:
User's question: What is the easiest trick to teach a dog? LLM's response: ___
LLM tạo ra xác suất cho nhiều phản hồi có thể có.
Một ví dụ khác là một LLM được huấn luyện dựa trên một số lượng lớn các "từ" toán học bài tập" có thể mang lại hình thức suy luận toán học phức tạp. Tuy nhiên, về cơ bản, các LLM đó chỉ tự động hoàn thành một câu lệnh cho bài toán về từ.
Lợi ích của LLM
Các LLM có thể tạo ra văn bản rõ ràng, dễ hiểu cho cho nhiều đối tượng mục tiêu. Các LLM có thể đưa ra dự đoán về những nhiệm vụ mà chúng thực hiện được đào tạo rõ ràng về chúng. Một số nhà nghiên cứu tuyên bố rằng các LLM cũng có thể tạo các cụm từ gợi ý đầu vào để chúng không được huấn luyện rõ ràng, mà là các nhà nghiên cứu đã bác bỏ tuyên bố này.
Vấn đề liên quan đến các mô hình ngôn ngữ lớn (LLM)
Hoạt động đào tạo một mô hình ngôn ngữ lớn (LLM) đòi hỏi nhiều vấn đề, trong đó có:
- Tập hợp một bộ nội dung đào tạo khổng lồ.
- tiêu tốn nhiều tháng cũng như tài nguyên điện toán khổng lồ và điện.
- Giải quyết những thách thức về chủ nghĩa song song.
Việc sử dụng các LLM để suy luận dự đoán sẽ gây ra những vấn đề sau:
- Các LLM gây ảo giác nghĩa là những dự đoán của họ thường có sai sót.
- Các LLM tiêu thụ một lượng lớn tài nguyên điện toán và điện. Việc huấn luyện các LLM trên các tập dữ liệu lớn hơn thường làm giảm lượng tài nguyên cần thiết để suy luận, mặc dù việc huấn luyện sẽ tốn nhiều tài nguyên huấn luyện hơn.
- Giống như mọi mô hình học máy khác, các LLM có thể thể hiện mọi kiểu thiên lệch.