Một công nghệ mới hơn, mô hình ngôn ngữ lớn (LLM) dự đoán một mã thông báo hoặc trình tự mã thông báo, đôi khi là nhiều đoạn mã thông báo được dự đoán. Hãy nhớ rằng mã thông báo có thể là một từ, một từ phụ (một tập hợp con của một từ) hoặc thậm chí là một ký tự. LLM dự đoán tốt hơn nhiều so với mô hình ngôn ngữ N-gram hoặc mạng nơron tái sinh vì:
- LLM chứa nhiều thông số hơn nhiều so với các mô hình tái sinh.
- LLM thu thập nhiều ngữ cảnh hơn.
Phần này giới thiệu kiến trúc thành công và được sử dụng rộng rãi nhất để xây dựng LLM: Transformer.
Transformer là gì?
Mô hình chuyển đổi là kiến trúc hiện đại cho nhiều ứng dụng mô hình ngôn ngữ, chẳng hạn như dịch:

Bộ chuyển đổi đầy đủ bao gồm bộ mã hoá và bộ giải mã:
- Mã hoá chuyển đổi văn bản đầu vào thành một bản trình bày trung gian. Bộ mã hoá là một mạng nơron khổng lồ.
- Bộ giải mã chuyển đổi bản trình bày trung gian đó thành văn bản hữu ích. Bộ giải mã cũng là một mạng nơron khổng lồ.
Ví dụ: trong trình dịch:
- Bộ mã hoá xử lý văn bản đầu vào (ví dụ: một câu tiếng Anh) thành một số nội dung biểu thị trung gian.
- Bộ giải mã chuyển đổi bản trình bày trung gian đó thành văn bản đầu ra (ví dụ: câu tương đương bằng tiếng Pháp).

Nhấp vào biểu tượng để tìm hiểu thêm về các Biến đổi một phần.
Tự chú ý là gì?
Để tăng cường ngữ cảnh, các mô hình Biến đổi phụ thuộc nhiều vào một khái niệm có tên là tự chú ý. Về cơ bản, thay mặt cho mỗi mã thông báo đầu vào, tính năng tự chú ý sẽ đặt câu hỏi sau:
"Mỗi mã thông báo đầu vào khác ảnh hưởng như thế nào đến việc diễn giải mã thông báo này?"
"Tự" trong "tự chú ý" đề cập đến trình tự đầu vào. Một số cơ chế chú ý cân bằng mối quan hệ của các mã thông báo đầu vào với các mã thông báo trong một trình tự đầu ra như bản dịch hoặc với các mã thông báo trong một số trình tự khác. Tuy nhiên, mô hình chú ý tự chỉ đánh giá mức độ quan trọng của mối quan hệ giữa các mã thông báo trong trình tự đầu vào.
Để đơn giản hoá vấn đề, giả sử mỗi mã thông báo là một từ và ngữ cảnh hoàn chỉnh chỉ là một câu. Hãy xem xét câu sau:
The animal didn't cross the street because it was too tired.
Câu trước có 11 từ. Mỗi từ trong số 11 từ này đều chú ý đến 10 từ còn lại, tự hỏi mỗi từ trong số 10 từ đó quan trọng như thế nào đối với chính nó. Ví dụ: hãy lưu ý rằng câu này chứa đại từ it. Đại từ nhân xưng thường gây nhầm lẫn. Đại từ it thường đề cập đến một danh từ hoặc cụm danh từ gần đây, nhưng trong câu ví dụ, it đề cập đến danh từ nào gần đây – con vật hay đường phố?
Cơ chế tự chú ý xác định mức độ liên quan của từng từ ở gần với đại từ it. Hình 3 cho thấy kết quả – đường màu xanh dương càng đậm thì từ đó càng quan trọng đối với đại từ it. Tức là động vật quan trọng hơn đường phố đối với đại từ nó.

Ngược lại, giả sử từ cuối cùng trong câu thay đổi như sau:
The animal didn't cross the street because it was too wide.
Trong câu sửa đổi này, hy vọng là tính năng tự chú ý sẽ đánh giá đường là phù hợp hơn với đại từ nhân xưng nó so với động vật.
Một số cơ chế tự chú ý là hai chiều, nghĩa là các cơ chế này tính toán điểm liên quan cho các mã thông báo trước và sau từ đang được chú ý. Ví dụ: trong Hình 3, hãy lưu ý rằng các từ ở cả hai bên của it đều được kiểm tra. Do đó, cơ chế tự chú ý hai chiều có thể thu thập ngữ cảnh từ các từ ở hai bên của từ đang được chú ý. Ngược lại, cơ chế tự chú ý một chiều chỉ có thể thu thập ngữ cảnh từ các từ ở một bên của từ đang được chú ý. Tính năng tự chú ý hai chiều đặc biệt hữu ích trong việc tạo bản trình bày của toàn bộ trình tự, trong khi các ứng dụng tạo trình tự theo từng mã thông báo lại yêu cầu tính năng tự chú ý một chiều. Vì lý do này, bộ mã hoá sử dụng tính năng tự chú ý hai chiều, còn bộ giải mã sử dụng tính năng một chiều.
Tự chú ý nhiều đầu là gì?
Mỗi lớp tự chú ý thường bao gồm nhiều đầu tự chú ý. Đầu ra của một lớp là một phép toán (ví dụ: trung bình có trọng số hoặc tích vô hướng) của đầu ra của các đầu khác nhau.
Vì mỗi lớp tự chú ý được khởi tạo thành các giá trị ngẫu nhiên, nên các đầu khác nhau có thể tìm hiểu các mối quan hệ khác nhau giữa mỗi từ được chú ý và các từ lân cận. Ví dụ: lớp tự chú ý được mô tả trong phần trước tập trung vào việc xác định danh từ mà đại từ it (nó) đề cập đến. Tuy nhiên, các lớp tự chú ý khác có thể học được mức độ liên quan về ngữ pháp của mỗi từ với mọi từ khác hoặc học các hoạt động tương tác khác.
Nhấp vào biểu tượng để tìm hiểu về Big O cho LLM.
Nhấp vào biểu tượng để tìm hiểu thêm về cách huấn luyện LLM.
Tại sao tệp Transformer lại lớn như vậy?
Các trình chuyển đổi chứa hàng trăm tỷ hoặc thậm chí hàng nghìn tỷ thông số. Khóa học này thường đề xuất xây dựng mô hình có số lượng tham số nhỏ hơn so với những mô hình có số lượng tham số lớn hơn. Xét cho cùng, mô hình có ít tham số hơn sẽ sử dụng ít tài nguyên hơn để dự đoán so với mô hình có nhiều tham số hơn. Tuy nhiên, nghiên cứu cho thấy rằng các Biến đổi có nhiều tham số hơn liên tục hoạt động hiệu quả hơn các Biến đổi có ít tham số hơn.
Nhưng làm cách nào để LLM tạo văn bản?
Bạn đã thấy cách các nhà nghiên cứu huấn luyện LLM để dự đoán một hoặc hai từ bị thiếu và bạn có thể không ấn tượng. Xét cho cùng, việc dự đoán một hoặc hai từ về cơ bản là tính năng tự động hoàn thành được tích hợp vào nhiều phần mềm văn bản, email và phần mềm soạn thảo. Bạn có thể thắc mắc làm cách nào để LLM có thể tạo các câu, đoạn văn hoặc bài thơ haiku về hoạt động chênh lệch giá.
Trên thực tế, LLM về cơ bản là các cơ chế tự động hoàn thành có thể tự động dự đoán (hoàn thành) hàng nghìn mã thông báo. Ví dụ: hãy xem xét một câu, theo sau là một câu bị che:
My dog, Max, knows how to perform many traditional dog tricks. ___ (masked sentence)
LLM có thể tạo ra xác suất cho câu bị che, bao gồm:
Xác suất | (Các) từ |
---|---|
3,1% | Ví dụ: chú chó có thể ngồi, đứng yên và lăn qua. |
2,9% | Ví dụ: chú chó biết cách ngồi, đứng yên và lăn qua. |
Một LLM đủ lớn có thể tạo ra xác suất cho các đoạn văn và toàn bộ bài tiểu luận. Bạn có thể coi câu hỏi của người dùng đối với LLM là câu "được cho", theo sau là một mặt nạ tưởng tượng. Ví dụ:
User's question: What is the easiest trick to teach a dog? LLM's response: ___
LLM tạo ra xác suất cho nhiều câu trả lời có thể có.
Một ví dụ khác là LLM được huấn luyện trên một lượng lớn "bài toán có lời văn" toán học có thể tạo ra cảm giác như đang thực hiện suy luận toán học phức tạp. Tuy nhiên, về cơ bản, các LLM đó chỉ tự động hoàn thành lời nhắc về bài tập dạng từ.
Lợi ích của LLM
LLM có thể tạo văn bản rõ ràng, dễ hiểu cho nhiều đối tượng mục tiêu. LLM có thể đưa ra dự đoán về các nhiệm vụ mà chúng được huấn luyện rõ ràng. Một số nhà nghiên cứu tuyên bố rằng LLM cũng có thể đưa ra dự đoán cho dữ liệu đầu vào mà chúng không được huấn luyện rõ ràng, nhưng các nhà nghiên cứu khác đã bác bỏ tuyên bố này.
Vấn đề với LLM
Việc huấn luyện một LLM sẽ gặp nhiều vấn đề, bao gồm:
- Thu thập một tập dữ liệu huấn luyện khổng lồ.
- Tiêu tốn nhiều tháng, tài nguyên điện toán và điện năng khổng lồ.
- Giải quyết các thách thức về tính song song.
Việc sử dụng LLM để xét đoán các dự đoán gây ra các vấn đề sau:
- LLM ảo tưởng, nghĩa là dự đoán của chúng thường chứa lỗi.
- LLM tiêu tốn một lượng lớn tài nguyên điện toán và điện năng. Việc huấn luyện LLM trên các tập dữ liệu lớn hơn thường làm giảm lượng tài nguyên cần thiết cho quá trình suy luận, mặc dù các tập huấn luyện lớn hơn sẽ tiêu tốn nhiều tài nguyên huấn luyện hơn.
- Giống như tất cả các mô hình học máy, LLM có thể thể hiện mọi loại thiên kiến.