Trang này được dịch bởi Cloud Translation API.

LLM: Mô hình ngôn ngữ lớn là gì?

Một công nghệ mới hơn, mô hình ngôn ngữ lớn (LLM) dự đoán một mã thông báo hoặc một chuỗi các mã thông báo, đôi khi là nhiều đoạn văn bản mã thông báo dự đoán. Hãy nhớ rằng mã thông báo có thể là một từ, một từ phụ (một tập hợp con của một từ) hay thậm chí là một ký tự đơn. Các LLM đưa ra dự đoán chính xác hơn nhiều so với các mô hình ngôn ngữ N-gram hoặc mạng nơron lặp lại vì:

Các LLM chứa nhiều tham số hơn so với các mô hình lặp lại.
Các LLM thu thập nhiều ngữ cảnh hơn.

Phần này giới thiệu các cấu trúc thành công và được sử dụng rộng rãi nhất để xây dựng các mô hình ngôn ngữ lớn: Transformer.

Máy biến áp là gì?

Bộ chuyển đổi là kiến trúc tiên tiến dành cho nhiều loại ứng dụng mô hình ngôn ngữ, chẳng hạn như dịch:

Hình 1. Câu trả lời là: Tôi là một chú chó giỏi. Dựa trên bộ chuyển đổi
trình dịch biến đổi đầu vào thành đầu ra: Je suis un bon
chien, chính là câu này được dịch sang tiếng Pháp. — **Hình 1.** Ứng dụng dựa trên Transformer có chức năng dịch từ Tiếng Anh sang tiếng Pháp.

Bộ biến áp đầy đủ bao gồm một bộ mã hoá và một bộ giải mã:

Bộ mã hoá chuyển đổi nhập văn bản thành cách biểu diễn trung gian. Bộ mã hoá là một mạng nơron.
Bộ giải mã chuyển đổi phần trình bày trung gian đó thành văn bản hữu ích. Bộ giải mã cũng là một mạng nơron khổng lồ.

Ví dụ: trong một biên dịch:

Bộ mã hoá sẽ xử lý văn bản đầu vào (ví dụ: một câu tiếng Anh) thành một số đại diện trung gian.
Bộ giải mã chuyển đổi cách biểu diễn trung gian đó thành văn bản đầu ra (cho ví dụ: câu tương đương bằng tiếng Pháp).

Hình 2. Trình biên dịch dựa trên Transformer bắt đầu với một bộ mã hoá,
tạo ra một bản trình bày trung gian của một tiếng Anh
. Bộ giải mã chuyển đổi cách biểu diễn trung gian đó thành
một câu đầu ra bằng tiếng Pháp. — **Hình 2.** Bộ chuyển đổi đầy đủ chứa cả bộ mã hoá và bộ giải mã.

Nhấp vào biểu tượng để tìm hiểu thêm về Bộ chuyển đổi một phần.

Mô-đun này tập trung vào Transformers đầy đủ chứa cả một bộ mã hoá và một bộ giải mã; tuy nhiên, các kiến trúc chỉ có bộ mã hoá và bộ giải mã cũng tồn tại:

Kiến trúc chỉ dành cho bộ mã hoá ánh xạ văn bản đầu vào thành trung gian đại diện (thường là lớp nhúng). Sau đây là các trường hợp sử dụng cấu trúc chỉ có bộ mã hoá:
- Dự đoán bất kỳ mã thông báo nào trong chuỗi đầu vào (là đoạn mã quy ước vai trò của mô hình ngôn ngữ).
- Tạo một quy trình nhúng tinh vi mà có thể đóng vai trò là dữ liệu đầu vào cho một hệ thống khác, chẳng hạn như thuật toán phân loại.
Kiến trúc chỉ dành cho bộ giải mã sẽ tạo mã thông báo mới từ văn bản đã có tạo. Các mô hình chỉ có bộ giải mã thường xuất sắc trong việc tạo trình tự; các mô hình chỉ có bộ giải mã hiện đại có thể sử dụng sức mạnh tạo ra của chúng để tạo phần tiếp theo của lịch sử hộp thoại và các câu lệnh khác.

Quan tâm đến bản thân là gì?

Để cải thiện bối cảnh, Transformers chủ yếu dựa vào một khái niệm có tên là sự tự chú ý. Một cách hiệu quả, thay mặt cho từng mã thông báo của thông tin đầu vào, mức độ chú ý tự đặt ra sẽ yêu cầu câu hỏi sau:

"Các mã thông báo đầu vào khác nhau ảnh hưởng như thế nào đến việc diễn giải thông tin này không?"

"Bản thân" trong "tự chú ý" đề cập đến chuỗi đầu vào. Cần chú ý cơ chế quan hệ trọng số của mã thông báo đầu vào với mã thông báo trong trình tự đầu ra như bản dịch hoặc mã thông báo trong một trình tự khác. Tuy nhiên, chỉ tập trung vào bản thân đo lường mức độ quan trọng của mối quan hệ giữa các mã thông báo trong trình tự đầu vào.

Để đơn giản hoá các vấn đề, hãy giả định rằng mỗi mã thông báo là một từ và là ngữ cảnh chỉ là một câu. Hãy xem xét câu sau:

The animal didn't cross the street because it was too tired.

Câu trước chứa 11 từ. Mỗi từ trong số 11 từ chú ý đến 10 từ còn lại, tự hỏi mỗi từ trong 10 từ đó có bao nhiêu từ có ý nghĩa quan trọng đối với bản thân nó. Ví dụ: chú ý rằng câu đó có chứa đại từ nhân xưng it. Đại từ nhân xưng thường không rõ ràng. Đại từ it thường đề cập đến danh từ hoặc cụm danh từ gần đây, nhưng trong câu ví dụ, danh từ gần đây nó đề cập đến động vật hay đường phố?

Cơ chế tự chú ý xác định mức độ liên quan của mỗi từ lân cận với đại từ nhân xưng it. Hình 3 cho thấy kết quả – đường kẻ càng xanh thì càng quan trọng từ đó với đại từ it. Tức là animal (động vật) phù hợp hơn quan trọng hơn từ street đối với đại từ it.

Hình 3. Mức độ phù hợp của mỗi từ trong số mười một từ trong câu:
"Con vật không băng qua đường vì quá mệt"
với đại từ "it". Từ 'động vật' là địa điểm phù hợp nhất với
đại từ nhân xưng "it". — **Hình 3.** Sự chú ý của đại từ it. Từ Transformer: Cấu trúc mạng nơron mới cho Hiểu ngôn ngữ.

Ngược lại, giả sử từ cuối cùng trong câu thay đổi như sau:

The animal didn't cross the street because it was too wide.

Trong câu được sửa đổi này, hy vọng chủ đề tự chú ý sẽ đánh giá đường phố là phù hợp hơn từ animal (động vật) với đại từ it.

Một số cơ chế tự chú ý có tính hai chiều, tức là tính điểm số mức độ liên quan cho mã thông báo trước và theo sau từ đã tham gia. Ví dụ: trong Hình 3, chú ý rằng các từ ở cả hai bên của nó sẽ được kiểm tra. Vì vậy, một cơ chế tự chú ý hai chiều có thể thu thập ngữ cảnh của các từ ở một trong hai bên của từ. Ngược lại, một cơ chế tự chú ý một chiều chỉ có thể thu thập ngữ cảnh từ các từ ở một bên của từ được chú ý. Quan tâm tự chú ý hai chiều là đặc biệt hữu ích trong việc tạo các biểu diễn của toàn bộ dãy số, trong khi các ứng dụng tạo ra trình tự từng mã thông báo yêu cầu ứng dụng một chiều sự chú ý của bản thân. Vì lý do này, bộ mã hoá sử dụng tính năng tự chú ý hai chiều, trong khi bộ giải mã sử dụng một chiều.

Tính năng Tự chú ý nhiều đầu là gì?

Mỗi lớp tự chú ý thường bao gồm nhiều đầu quan tâm tự chú ý. Đầu ra của một lớp là một phép toán (ví dụ: trung bình có trọng số hoặc tích vô hướng) của đầu ra của đầu khác nhau.

Do mỗi tầng tự chú ý được khởi tạo cho các giá trị ngẫu nhiên, nên các đầu có thể tìm hiểu mối quan hệ khác nhau giữa mỗi từ được chú ý và các từ lân cận. Ví dụ: tầng tự chú ý được mô tả trong phần trước tập trung vào việc xác định danh từ mà đại từ nó đề cập đến. Tuy nhiên, các tầng tự chú ý khác cũng có thể biết được mức độ liên quan về mặt ngữ pháp của từng từ với nhau hoặc tìm hiểu các hoạt động tương tác khác.

Nhấp vào biểu tượng để tìm hiểu về Big O cho các mô hình ngôn ngữ lớn (LLM).

Sự chú ý buộc mọi từ trong ngữ cảnh phải tìm hiểu mức độ liên quan của tất cả các từ khác trong ngữ cảnh. Vậy nên, thật hấp dẫn để tuyên bố đây là vấn đề O(N²), trong đó:

N là số lượng mã thông báo trong ngữ cảnh.

Như thể trận Big O trước đó vẫn chưa đủ gây phiền toái, thì Transformers chứa nhiều lớp tự chú ý và nhiều đầu tự chú ý cho mỗi lớp tự chú ý, vì vậy Big O thực sự là:

O(N² · S · D)

trong đó:

S là số lớp tự chú ý.
D là số đầu mỗi lớp.

Hãy nhấp vào biểu tượng này để tìm hiểu thêm về cách huấn luyện các LLM.

Có thể bạn sẽ không bao giờ huấn luyện một LLM từ đầu. Huấn luyện một LLM mạnh mẽ trong công nghiệp đòi hỏi lượng lớn chuyên môn về máy học, tài nguyên điện toán và thời gian. Mặc dù vậy, bạn đã nhấp vào biểu tượng để để tìm hiểu thêm, vì vậy chúng tôi nợ bạn một lời giải thích.

Thành phần chính trong việc xây dựng một mô hình ngôn ngữ lớn (LLM) là một số lượng rất lớn dữ liệu huấn luyện (văn bản), thường được lọc một chút. Giai đoạn đầu tiên đào tạo thường là một số hình thức không được giám sát về dữ liệu huấn luyện đó. Cụ thể, mô hình này sẽ huấn luyện dựa trên các cụm từ gợi ý được che giấu, tức là một số mã thông báo trong dữ liệu huấn luyện được ẩn có chủ đích. Mô hình huấn luyện bằng cách cố gắng dự đoán những mã thông báo bị thiếu đó. Ví dụ: giả sử như sau là một phần của dữ liệu huấn luyện:

The residents of the sleepy town weren't prepared for what came next.

Mã thông báo ngẫu nhiên sẽ bị xoá, ví dụ:

The ___ of the sleepy town weren't prepared for ___ came next.

LLM chỉ là một mạng nơron, vì vậy, sự mất mát (số lượng mã thông báo được che giấu mà mô hình được xem xét một cách chính xác) hướng dẫn mức độ cập nhật lan truyền ngược giá trị tham số.

Mô hình dựa trên Transformer được huấn luyện để dự đoán dần dữ liệu bị thiếu học cách phát hiện các mẫu hình và cấu trúc bậc cao trong dữ liệu để lấy gợi ý về mã thông báo bị thiếu. Hãy xem xét ví dụ về thực thể bị che khuất sau đây:

Oranges are traditionally ___ by hand. Once clipped from a tree, __ don't ripen.

Việc đào tạo chuyên sâu về số lượng lớn các ví dụ được che giấu giúp hỗ trợ một mô hình ngôn ngữ lớn (LLM) để biết rằng "thu hoạch" hoặc "đã chọn" có khả năng phù hợp cao cho mã thông báo đầu tiên và "cam" hoặc "họ" là lựa chọn tốt cho mã thông báo thứ hai.

Một bước huấn luyện bổ sung (không bắt buộc) có tên là hướng dẫn việc điều chỉnh có thể cải thiện khả năng làm theo hướng dẫn của một mô hình ngôn ngữ lớn (LLM).

Tại sao Bộ chuyển đổi lại lớn như vậy?

Máy biến áp chứa hàng trăm tỷ hoặc thậm chí hàng nghìn tỷ tham số. Khoá học này thường khuyến khích các mô hình xây dựng có kích thước nhỏ so với những thông số có số lượng tham số lớn hơn. Suy cho cùng, một mô hình có số lượng tham số nhỏ hơn sẽ sử dụng ít tài nguyên hơn để đưa ra dự đoán so với mô hình có số lượng tham số lớn hơn. Tuy nhiên, nghiên cứu cho thấy rằng Transformer có nhiều tham số hơn liên tục hoạt động tốt hơn Máy biến áp với ít thông số hơn.

Nhưng LLM tạo văn bản bằng cách nào?

Bạn đã thấy cách các nhà nghiên cứu huấn luyện các mô hình ngôn ngữ lớn (LLM) để dự đoán một hoặc hai từ bị thiếu và bạn có thể không ấn tượng. Suy cho cùng, việc dự đoán một hoặc hai từ về cơ bản là tính năng tự động hoàn thành được tích hợp vào nhiều văn bản, email và phần mềm biên soạn. Có thể bạn đang thắc mắc cách các LLM có thể tạo câu, đoạn hoặc bài thơ haiku về chuyên đăng quảng cáo.

Trên thực tế, về cơ bản, các LLM là cơ chế tự động hoàn thành dự đoán (hoàn tất) hàng nghìn mã thông báo. Ví dụ: hãy cân nhắc một câu theo sau là một câu được che giấu:

My dog, Max, knows how to perform many traditional dog tricks.
___ (masked sentence)

Một LLM có thể tạo ra xác suất cho câu được che giấu, bao gồm:

Xác suất	(Các) từ
3,1%	Ví dụ: trẻ có thể ngồi, ở và cuộn qua.
2,9%	Ví dụ: trẻ biết cách ngồi, ngồi và cuộn qua.

Một LLM đủ lớn có thể tạo xác suất cho các đoạn văn và toàn bộ tiểu luận. Bạn có thể coi câu hỏi của người dùng đối với một LLM là "được đưa ra" câu tiếp theo là một mặt nạ tưởng tượng. Ví dụ:

User's question: What is the easiest trick to teach a dog?
LLM's response:  ___

LLM tạo ra xác suất cho nhiều phản hồi có thể có.

Một ví dụ khác là một LLM được huấn luyện dựa trên một số lượng lớn các "từ" toán học bài tập" có thể mang lại hình thức suy luận toán học phức tạp. Tuy nhiên, về cơ bản, các LLM đó chỉ tự động hoàn thành một câu lệnh cho bài toán về từ.

Lợi ích của LLM

Các LLM có thể tạo ra văn bản rõ ràng, dễ hiểu cho cho nhiều đối tượng mục tiêu. Các LLM có thể đưa ra dự đoán về những nhiệm vụ mà chúng thực hiện được đào tạo rõ ràng về chúng. Một số nhà nghiên cứu tuyên bố rằng các LLM cũng có thể tạo các cụm từ gợi ý đầu vào để chúng không được huấn luyện rõ ràng, mà là các nhà nghiên cứu đã bác bỏ tuyên bố này.

Vấn đề liên quan đến các mô hình ngôn ngữ lớn (LLM)

Hoạt động đào tạo một mô hình ngôn ngữ lớn (LLM) đòi hỏi nhiều vấn đề, trong đó có:

Tập hợp một bộ nội dung đào tạo khổng lồ.
tiêu tốn nhiều tháng cũng như tài nguyên điện toán khổng lồ và điện.
Giải quyết những thách thức về chủ nghĩa song song.

Việc sử dụng các LLM để suy luận dự đoán sẽ gây ra những vấn đề sau:

Các LLM gây ảo giác nghĩa là những dự đoán của họ thường có sai sót.
Các LLM tiêu thụ một lượng lớn tài nguyên điện toán và điện. Việc huấn luyện các LLM trên các tập dữ liệu lớn hơn thường làm giảm lượng tài nguyên cần thiết để suy luận, mặc dù việc huấn luyện sẽ tốn nhiều tài nguyên huấn luyện hơn.
Giống như mọi mô hình học máy khác, các LLM có thể thể hiện mọi kiểu thiên lệch.

Bài tập: Kiểm tra kiến thức

Giả sử một Transformer được huấn luyện dựa trên một tỷ tài liệu, bao gồm hàng nghìn tài liệu có chứa ít nhất một lần xuất hiện của từ đó voi. Câu nào sau đây có thể đúng?

Cây keo, một phần quan trọng trong chế độ ăn của voi, sẽ dần đạt được điểm mức độ chú ý cao với từ này voi.

Có và điều này sẽ cho phép Transformer trả lời các câu hỏi về chế độ ăn cho voi.

Transformer sẽ liên kết từ elephant với nhiều từ thành ngữ chứa từ voi.

Có, hệ thống sẽ bắt đầu đính kèm điểm số tự tập trung cao độ giữa từ elephele và các từ khác trong thành ngữ voi.

The Transformer sẽ dần học cách bỏ qua mọi lời châm biếm hoặc cách sử dụng từ voi một cách châm biếm trong dữ liệu huấn luyện.

Máy biến áp đủ lớn được huấn luyện trên phạm vi đủ rộng chương trình huấn luyện trở nên rất thành thạo trong việc nhận ra những lời châm biếm, hài hước, và trớ trêu. Vì vậy, thay vì phớt lờ những lời châm biếm và châm biếm, Transformer học hỏi từ điều đó.

Giới thiệu: Mô hình ngôn ngữ là gì? (10 phút)

Tiếp

Tinh chỉnh, chưng cất và kỹ thuật nhắc (10 phút)