Một công nghệ mới hơn, mô hình ngôn ngữ lớn (LLM) dự đoán một mã thông báo hoặc trình tự mã thông báo, đôi khi là nhiều đoạn văn bản chứa các mã thông báo được dự đoán. Hãy nhớ rằng mã thông báo có thể là một từ, một từ phụ (một tập hợp con của một từ) hoặc thậm chí là một ký tự. Các LLM đưa ra dự đoán chính xác hơn nhiều so với các mô hình ngôn ngữ N-gram hoặc mạng nơron lặp lại vì:
- LLM chứa nhiều thông số hơn nhiều so với các mô hình tái sinh.
- Các LLM thu thập nhiều ngữ cảnh hơn.
Phần này giới thiệu cấu trúc thành công và được sử dụng rộng rãi nhất để xây dựng các mô hình ngôn ngữ lớn: Bộ chuyển đổi.
Máy biến áp là gì?
Mô hình chuyển đổi là kiến trúc hiện đại cho nhiều ứng dụng mô hình ngôn ngữ, chẳng hạn như dịch:
Bộ chuyển đổi đầy đủ bao gồm một bộ mã hoá và một bộ giải mã:
- Mã hoá chuyển đổi văn bản đầu vào thành một bản trình bày trung gian. Bộ mã hoá là một mạng nơron khổng lồ.
- Bộ giải mã chuyển đổi bản trình bày trung gian đó thành văn bản hữu ích. Bộ giải mã cũng là một mạng nơron khổng lồ.
Ví dụ: trong trình dịch:
- Bộ mã hoá xử lý văn bản đầu vào (ví dụ: một câu tiếng Anh) thành một số nội dung biểu thị trung gian.
- Bộ giải mã chuyển đổi bản trình bày trung gian đó thành văn bản đầu ra (ví dụ: câu tương đương bằng tiếng Pháp).
Tự chú ý là gì?
Để tăng cường ngữ cảnh, các mô hình Biến đổi phụ thuộc nhiều vào một khái niệm có tên là tự chú ý. Về cơ bản, thay mặt cho mỗi mã thông báo đầu vào, tính năng tự chú ý sẽ đặt câu hỏi sau:
"Các mã thông báo đầu vào khác nhau ảnh hưởng như thế nào đến việc diễn giải mã thông báo này?"
"Tự" trong "tự chú ý" đề cập đến trình tự đầu vào. Một số cơ chế chú ý cân bằng mối quan hệ của các mã thông báo đầu vào với các mã thông báo trong một trình tự đầu ra như bản dịch hoặc với các mã thông báo trong một số trình tự khác. Tuy nhiên, mô hình chú ý tự chỉ đánh giá mức độ quan trọng của mối quan hệ giữa các mã thông báo trong trình tự đầu vào.
Để đơn giản hoá vấn đề, giả sử mỗi mã thông báo là một từ và ngữ cảnh hoàn chỉnh chỉ là một câu. Hãy xem xét câu sau:
The animal didn't cross the street because it was too tired.
Câu trước có 11 từ. Mỗi từ trong số 11 từ này đều chú ý đến 10 từ còn lại, tự hỏi mỗi từ trong số 10 từ đó quan trọng như thế nào đối với chính nó. Ví dụ: hãy lưu ý rằng câu này chứa đại từ it. Đại từ nhân xưng thường không rõ ràng. Đại từ it thường dùng để chỉ một danh từ hoặc cụm danh từ gần đây, nhưng trong câu ví dụ, danh từ gần đây nó đề cập đến động vật hay đường phố?
Cơ chế tự chú ý xác định mức độ liên quan của từng từ ở gần với đại từ it. Hình 3 cho thấy kết quả – đường màu xanh dương càng đậm thì từ đó càng quan trọng đối với đại từ it. Tức là animal quan trọng hơn street đối với đại từ it.
Ngược lại, giả sử từ cuối cùng trong câu thay đổi như sau:
The animal didn't cross the street because it was too wide.
Trong câu sửa đổi này, tính năng tự chú ý hy vọng sẽ đánh giá đường là phù hợp hơn động vật với đại từ nó.
Một số cơ chế tự chú ý là hai chiều, nghĩa là các cơ chế này tính toán điểm liên quan cho các mã thông báo trước và sau từ đang được chú ý. Ví dụ: trong Hình 3, hãy lưu ý rằng các từ ở cả hai bên của it đều được kiểm tra. Do đó, cơ chế tự chú ý hai chiều có thể thu thập ngữ cảnh từ các từ ở hai bên của từ đang được chú ý. Ngược lại, cơ chế tự chú ý một chiều chỉ có thể thu thập ngữ cảnh từ các từ ở một bên của từ đang được chú ý. Tính năng tự chú ý hai chiều đặc biệt hữu ích trong việc tạo bản trình bày của toàn bộ trình tự, trong khi các ứng dụng tạo trình tự theo từng mã thông báo lại yêu cầu tính năng tự chú ý một chiều. Vì lý do này, bộ mã hoá sử dụng tính năng tự chú ý hai chiều, còn bộ giải mã sử dụng tính năng một chiều.
Tự chú ý nhiều đầu là gì?
Mỗi lớp tự chú ý thường bao gồm nhiều đầu tự chú ý. Đầu ra của một lớp là một phép toán (ví dụ: trung bình có trọng số hoặc tích chấm) của đầu ra của nhiều phần đầu.
Vì mỗi lớp tự chú ý được khởi động cho các giá trị ngẫu nhiên, nên các đầu được xem khác nhau có thể tìm hiểu mối quan hệ khác nhau giữa từng từ được chú ý và các từ lân cận. Ví dụ: lớp tự chú ý được mô tả trong phần trước tập trung vào việc xác định danh từ mà đại từ it (nó) đề cập đến. Tuy nhiên, các lớp tự chú ý khác có thể học được mức độ liên quan về mặt ngữ pháp của từng từ với mọi từ khác hoặc tìm hiểu các hoạt động tương tác khác.
Tại sao tệp Transformer lại lớn như vậy?
Các trình chuyển đổi chứa hàng trăm tỷ hoặc thậm chí hàng nghìn tỷ tham số. Khóa học này thường đề xuất xây dựng mô hình có số lượng tham số nhỏ hơn so với những mô hình có số lượng tham số lớn hơn. Xét cho cùng, mô hình có ít tham số hơn sẽ sử dụng ít tài nguyên hơn để dự đoán so với mô hình có nhiều tham số hơn. Tuy nhiên, nghiên cứu cho thấy rằng các Biến đổi có nhiều tham số hơn liên tục hoạt động hiệu quả hơn các Biến đổi có ít tham số hơn.
Nhưng làm cách nào để LLM tạo văn bản?
Bạn đã thấy cách các nhà nghiên cứu huấn luyện LLM để dự đoán một hoặc hai từ bị thiếu và bạn có thể không ấn tượng. Xét cho cùng, việc dự đoán một hoặc hai từ về cơ bản là tính năng tự động hoàn thành được tích hợp vào nhiều phần mềm văn bản, email và tạo nội dung. Bạn có thể thắc mắc làm cách nào để LLM có thể tạo các câu, đoạn văn hoặc bài thơ haiku về hoạt động chênh lệch giá.
Trên thực tế, LLM về cơ bản là các cơ chế tự động hoàn thành có thể tự động dự đoán (hoàn thành) hàng nghìn mã thông báo. Ví dụ: hãy xem xét một câu, theo sau là một câu bị che:
My dog, Max, knows how to perform many traditional dog tricks. ___ (masked sentence)
LLM có thể tạo ra xác suất cho câu bị che, bao gồm:
Xác suất | Từ |
---|---|
3,1% | Ví dụ: chú chó có thể ngồi, đứng yên và lăn qua. |
2,9% | Ví dụ: chú chó biết cách ngồi, đứng yên và lăn qua. |
Một LLM đủ lớn có thể tạo xác suất cho các đoạn văn và toàn bộ bài tiểu luận. Bạn có thể coi câu hỏi của người dùng đối với một LLM là câu "cho" theo sau là một mặt nạ ảo. Ví dụ:
User's question: What is the easiest trick to teach a dog? LLM's response: ___
LLM tạo ra xác suất cho nhiều phản hồi có thể có.
Một ví dụ khác là LLM được huấn luyện trên một lượng lớn "bài toán có lời văn" toán học có thể tạo ra cảm giác như đang thực hiện suy luận toán học phức tạp. Tuy nhiên, về cơ bản, các LLM đó chỉ tự động hoàn thành lời nhắc về bài tập dạng từ.
Lợi ích của LLM
Các LLM có thể tạo ra văn bản rõ ràng, dễ hiểu cho nhiều đối tượng mục tiêu. LLM có thể đưa ra dự đoán về các nhiệm vụ mà chúng được huấn luyện rõ ràng. Một số nhà nghiên cứu tuyên bố rằng các LLM cũng có thể đưa ra dự đoán cho dữ liệu đầu vào mà chúng không được huấn luyện rõ ràng, nhưng các nhà nghiên cứu khác đã bác bỏ tuyên bố này.
Vấn đề với LLM
Hoạt động đào tạo một mô hình ngôn ngữ lớn (LLM) đòi hỏi nhiều vấn đề, trong đó có:
- Thu thập một tập dữ liệu huấn luyện khổng lồ.
- Tiêu tốn nhiều tháng, tài nguyên điện toán và điện năng khổng lồ.
- Giải quyết những thách thức về chủ nghĩa song song.
Việc sử dụng LLM để xét đoán các dự đoán gây ra các vấn đề sau:
- LLM ảo tưởng, nghĩa là dự đoán của chúng thường chứa lỗi.
- Các LLM tiêu tốn một lượng lớn tài nguyên điện toán và điện. Việc huấn luyện LLM trên các tập dữ liệu lớn hơn thường làm giảm lượng tài nguyên cần thiết cho quá trình suy luận, mặc dù các tập huấn luyện lớn hơn sẽ tiêu tốn nhiều tài nguyên huấn luyện hơn.
- Giống như tất cả các mô hình học máy, LLM có thể thể hiện mọi loại thiên kiến.