Trang này được dịch bởi Cloud Translation API.

LLM: Mô hình ngôn ngữ lớn là gì?

Một công nghệ mới hơn, mô hình ngôn ngữ lớn (LLM) dự đoán một mã thông báo hoặc trình tự mã thông báo, đôi khi là nhiều đoạn văn bản chứa các mã thông báo được dự đoán. Hãy nhớ rằng mã thông báo có thể là một từ, một từ phụ (một tập hợp con của một từ) hoặc thậm chí là một ký tự. Các LLM đưa ra dự đoán chính xác hơn nhiều so với các mô hình ngôn ngữ N-gram hoặc mạng nơron lặp lại vì:

LLM chứa nhiều thông số hơn nhiều so với các mô hình tái sinh.
Các LLM thu thập nhiều ngữ cảnh hơn.

Phần này giới thiệu cấu trúc thành công và được sử dụng rộng rãi nhất để xây dựng các mô hình ngôn ngữ lớn: Bộ chuyển đổi.

Máy biến áp là gì?

Mô hình chuyển đổi là kiến trúc hiện đại cho nhiều ứng dụng mô hình ngôn ngữ, chẳng hạn như dịch:

Hình 1. Câu trả lời là: Tôi là một chú chó giỏi. Trình dịch dựa trên Transformer sẽ biến đổi dữ liệu đầu vào đó thành dữ liệu đầu ra: Je suis un bon chien, chính là câu tương tự được dịch sang tiếng Pháp. — **Hình 1.** Một ứng dụng dựa trên Transformer (Công cụ chuyển đổi) dịch từ tiếng Anh sang tiếng Pháp.

Bộ chuyển đổi đầy đủ bao gồm một bộ mã hoá và một bộ giải mã:

Mã hoá chuyển đổi văn bản đầu vào thành một bản trình bày trung gian. Bộ mã hoá là một mạng nơron khổng lồ.
Bộ giải mã chuyển đổi bản trình bày trung gian đó thành văn bản hữu ích. Bộ giải mã cũng là một mạng nơron khổng lồ.

Ví dụ: trong trình dịch:

Bộ mã hoá xử lý văn bản đầu vào (ví dụ: một câu tiếng Anh) thành một số nội dung biểu thị trung gian.
Bộ giải mã chuyển đổi bản trình bày trung gian đó thành văn bản đầu ra (ví dụ: câu tương đương bằng tiếng Pháp).

Hình 2. Trình dịch dựa trên Transformer bắt đầu bằng một bộ mã hoá, tạo ra một bản trình bày trung gian của một câu tiếng Anh. Bộ giải mã chuyển đổi bản trình bày trung gian đó thành một câu đầu ra bằng tiếng Pháp. — **Hình 2.** Bộ chuyển đổi đầy đủ chứa cả bộ mã hoá và bộ giải mã.

Nhấp vào biểu tượng để tìm hiểu thêm về các Biến đổi một phần.

Mô-đun này tập trung vào các Biến đổi đầy đủ, chứa cả bộ mã hoá và bộ giải mã; tuy nhiên, các cấu trúc chỉ có bộ mã hoá và chỉ có bộ giải mã cũng tồn tại:

Cấu trúc chỉ có bộ mã hoá ánh xạ văn bản đầu vào thành một bản trình bày trung gian (thường là một lớp nhúng). Các trường hợp sử dụng cho cấu trúc chỉ có bộ mã hoá bao gồm:
- Dự đoán bất kỳ mã thông báo nào trong trình tự đầu vào (đây là vai trò thông thường của các mô hình ngôn ngữ).
- Tạo một quy trình nhúng tinh vi có thể đóng vai trò làm dữ liệu đầu vào cho một hệ thống khác, chẳng hạn như một thuật toán phân loại.
Cấu trúc chỉ có bộ giải mã tạo mã thông báo mới từ văn bản đã được tạo. Các mô hình chỉ giải mã thường xuất sắc trong việc tạo trình tự; các mô hình chỉ giải mã hiện đại có thể sử dụng sức mạnh tạo sinh của chúng để tạo tiếp tục nhật ký hộp thoại và các lời nhắc khác.

Tự chú ý là gì?

Để tăng cường ngữ cảnh, các mô hình Biến đổi phụ thuộc nhiều vào một khái niệm có tên là tự chú ý. Về cơ bản, thay mặt cho mỗi mã thông báo đầu vào, tính năng tự chú ý sẽ đặt câu hỏi sau:

"Các mã thông báo đầu vào khác nhau ảnh hưởng như thế nào đến việc diễn giải mã thông báo này?"

"Tự" trong "tự chú ý" đề cập đến trình tự đầu vào. Một số cơ chế chú ý cân bằng mối quan hệ của các mã thông báo đầu vào với các mã thông báo trong một trình tự đầu ra như bản dịch hoặc với các mã thông báo trong một số trình tự khác. Tuy nhiên, mô hình chú ý tự chỉ đánh giá mức độ quan trọng của mối quan hệ giữa các mã thông báo trong trình tự đầu vào.

Để đơn giản hoá vấn đề, giả sử mỗi mã thông báo là một từ và ngữ cảnh hoàn chỉnh chỉ là một câu. Hãy xem xét câu sau:

The animal didn't cross the street because it was too tired.

Câu trước có 11 từ. Mỗi từ trong số 11 từ này đều chú ý đến 10 từ còn lại, tự hỏi mỗi từ trong số 10 từ đó quan trọng như thế nào đối với chính nó. Ví dụ: hãy lưu ý rằng câu này chứa đại từ it. Đại từ nhân xưng thường không rõ ràng. Đại từ it thường dùng để chỉ một danh từ hoặc cụm danh từ gần đây, nhưng trong câu ví dụ, danh từ gần đây nó đề cập đến động vật hay đường phố?

Cơ chế tự chú ý xác định mức độ liên quan của từng từ ở gần với đại từ it. Hình 3 cho thấy kết quả – đường màu xanh dương càng đậm thì từ đó càng quan trọng đối với đại từ it. Tức là animal quan trọng hơn street đối với đại từ it.

Hình 3. Mức độ liên quan của từng từ trong số 11 từ trong câu: "Con vật không băng qua đường vì nó quá mệt" với đại từ "nó". Từ "animal" phù hợp nhất với đại từ "it". — **Hình 3.** Tập trung vào đại từ it. Trích từ bài viết Transformer: A Novel Neural Network Architecture for Language Understanding (Trình chuyển đổi: Một kiến trúc mạng nơron mới để hiểu ngôn ngữ).

Ngược lại, giả sử từ cuối cùng trong câu thay đổi như sau:

The animal didn't cross the street because it was too wide.

Trong câu sửa đổi này, tính năng tự chú ý hy vọng sẽ đánh giá đường là phù hợp hơn động vật với đại từ nó.

Một số cơ chế tự chú ý là hai chiều, nghĩa là các cơ chế này tính toán điểm liên quan cho các mã thông báo trước và sau từ đang được chú ý. Ví dụ: trong Hình 3, hãy lưu ý rằng các từ ở cả hai bên của it đều được kiểm tra. Do đó, cơ chế tự chú ý hai chiều có thể thu thập ngữ cảnh từ các từ ở hai bên của từ đang được chú ý. Ngược lại, cơ chế tự chú ý một chiều chỉ có thể thu thập ngữ cảnh từ các từ ở một bên của từ đang được chú ý. Tính năng tự chú ý hai chiều đặc biệt hữu ích trong việc tạo bản trình bày của toàn bộ trình tự, trong khi các ứng dụng tạo trình tự theo từng mã thông báo lại yêu cầu tính năng tự chú ý một chiều. Vì lý do này, bộ mã hoá sử dụng tính năng tự chú ý hai chiều, còn bộ giải mã sử dụng tính năng một chiều.

Tự chú ý nhiều đầu là gì?

Mỗi lớp tự chú ý thường bao gồm nhiều đầu tự chú ý. Đầu ra của một lớp là một phép toán (ví dụ: trung bình có trọng số hoặc tích chấm) của đầu ra của nhiều phần đầu.

Vì mỗi lớp tự chú ý được khởi động cho các giá trị ngẫu nhiên, nên các đầu được xem khác nhau có thể tìm hiểu mối quan hệ khác nhau giữa từng từ được chú ý và các từ lân cận. Ví dụ: lớp tự chú ý được mô tả trong phần trước tập trung vào việc xác định danh từ mà đại từ it (nó) đề cập đến. Tuy nhiên, các lớp tự chú ý khác có thể học được mức độ liên quan về mặt ngữ pháp của từng từ với mọi từ khác hoặc tìm hiểu các hoạt động tương tác khác.

Nhấp vào biểu tượng để tìm hiểu về Big O cho LLM.

Sự tự chú ý buộc mọi từ trong ngữ cảnh phải tìm hiểu mức độ liên quan của tất cả các từ khác trong ngữ cảnh. Vì vậy, bạn có thể coi đây là một vấn đề O(N²), trong đó:

N là số lượng mã thông báo trong ngữ cảnh.

Như thể Big O trước đó chưa đủ gây phiền toái, Transformers chứa nhiều lớp tự chú ý và nhiều đầu tự chú ý trên mỗi lớp tự chú ý, vì vậy, Big O thực sự là:

O(N² · S · D)

trong đó:

S là số lớp tự chú ý.
D là số đầu mỗi lớp.

Hãy nhấp vào biểu tượng này để tìm hiểu thêm về cách huấn luyện các mô hình ngôn ngữ lớn (LLM).

Có thể bạn sẽ không bao giờ huấn luyện LLM từ đầu. Việc huấn luyện một LLM mạnh công nghiệp đòi hỏi lượng lớn chuyên môn về công nghệ học máy, tài nguyên điện toán và thời gian. Dù sao thì bạn đã nhấp vào biểu tượng này để tìm hiểu thêm, vì vậy, chúng tôi cần giải thích cho bạn.

Thành phần chính trong việc xây dựng LLM là một lượng lớn dữ liệu huấn luyện (văn bản), thường được lọc một chút. Giai đoạn đầu tiên của quá trình huấn luyện thường là một số hình thức học không được giám sát đối với dữ liệu huấn luyện đó. Cụ thể, mô hình này huấn luyện dựa trên dữ liệu dự đoán được che, nghĩa là một số mã thông báo nhất định trong dữ liệu huấn luyện được ẩn một cách có chủ ý. Mô hình này sẽ huấn luyện bằng cách cố gắng dự đoán các mã thông báo bị thiếu đó. Ví dụ: giả sử câu sau đây là một phần của dữ liệu huấn luyện:

The residents of the sleepy town weren't prepared for what came next.

Các mã thông báo ngẫu nhiên sẽ bị xoá, ví dụ:

The ___ of the sleepy town weren't prepared for ___ came next.

LLM chỉ là một mạng nơron, vì vậy, tổn thất (số lượng mã thông báo bị che mà mô hình xem xét chính xác) sẽ hướng dẫn mức độ mà quá trình truyền ngược cập nhật các giá trị tham số.

Mô hình dựa trên Bộ biến áp được huấn luyện để dự đoán dữ liệu bị thiếu sẽ dần học cách phát hiện các mẫu và cấu trúc bậc cao hơn trong dữ liệu để lấy manh mối về mã thông báo bị thiếu. Hãy xem xét thực thể được che ví dụ sau:

Oranges are traditionally ___ by hand. Once clipped from a tree, __ don't ripen.

Việc huấn luyện chuyên sâu trên một số lượng lớn các ví dụ được che khuất cho phép LLM tìm hiểu rằng "harvested" (thu hoạch) hoặc "picked" (nhặt) có nhiều khả năng khớp với mã thông báo đầu tiên và "oranges" (cam) hoặc "they" (chúng) là lựa chọn phù hợp cho mã thông báo thứ hai.

Một bước huấn luyện bổ sung (không bắt buộc) có tên là điều chỉnh hướng dẫn có thể giúp cải thiện khả năng tuân theo hướng dẫn của LLM.

Tại sao tệp Transformer lại lớn như vậy?

Các trình chuyển đổi chứa hàng trăm tỷ hoặc thậm chí hàng nghìn tỷ tham số. Khóa học này thường đề xuất xây dựng mô hình có số lượng tham số nhỏ hơn so với những mô hình có số lượng tham số lớn hơn. Xét cho cùng, mô hình có ít tham số hơn sẽ sử dụng ít tài nguyên hơn để dự đoán so với mô hình có nhiều tham số hơn. Tuy nhiên, nghiên cứu cho thấy rằng các Biến đổi có nhiều tham số hơn liên tục hoạt động hiệu quả hơn các Biến đổi có ít tham số hơn.

Nhưng làm cách nào để LLM tạo văn bản?

Bạn đã thấy cách các nhà nghiên cứu huấn luyện LLM để dự đoán một hoặc hai từ bị thiếu và bạn có thể không ấn tượng. Xét cho cùng, việc dự đoán một hoặc hai từ về cơ bản là tính năng tự động hoàn thành được tích hợp vào nhiều phần mềm văn bản, email và tạo nội dung. Bạn có thể thắc mắc làm cách nào để LLM có thể tạo các câu, đoạn văn hoặc bài thơ haiku về hoạt động chênh lệch giá.

Trên thực tế, LLM về cơ bản là các cơ chế tự động hoàn thành có thể tự động dự đoán (hoàn thành) hàng nghìn mã thông báo. Ví dụ: hãy xem xét một câu, theo sau là một câu bị che:

My dog, Max, knows how to perform many traditional dog tricks.
___ (masked sentence)

LLM có thể tạo ra xác suất cho câu bị che, bao gồm:

Xác suất	Từ
3,1%	Ví dụ: chú chó có thể ngồi, đứng yên và lăn qua.
2,9%	Ví dụ: chú chó biết cách ngồi, đứng yên và lăn qua.

Một LLM đủ lớn có thể tạo xác suất cho các đoạn văn và toàn bộ bài tiểu luận. Bạn có thể coi câu hỏi của người dùng đối với một LLM là câu "cho" theo sau là một mặt nạ ảo. Ví dụ:

User's question: What is the easiest trick to teach a dog?
LLM's response:  ___

LLM tạo ra xác suất cho nhiều phản hồi có thể có.

Một ví dụ khác là LLM được huấn luyện trên một lượng lớn "bài toán có lời văn" toán học có thể tạo ra cảm giác như đang thực hiện suy luận toán học phức tạp. Tuy nhiên, về cơ bản, các LLM đó chỉ tự động hoàn thành lời nhắc về bài tập dạng từ.

Lợi ích của LLM

Các LLM có thể tạo ra văn bản rõ ràng, dễ hiểu cho nhiều đối tượng mục tiêu. LLM có thể đưa ra dự đoán về các nhiệm vụ mà chúng được huấn luyện rõ ràng. Một số nhà nghiên cứu tuyên bố rằng các LLM cũng có thể đưa ra dự đoán cho dữ liệu đầu vào mà chúng không được huấn luyện rõ ràng, nhưng các nhà nghiên cứu khác đã bác bỏ tuyên bố này.

Vấn đề với LLM

Hoạt động đào tạo một mô hình ngôn ngữ lớn (LLM) đòi hỏi nhiều vấn đề, trong đó có:

Thu thập một tập dữ liệu huấn luyện khổng lồ.
Tiêu tốn nhiều tháng, tài nguyên điện toán và điện năng khổng lồ.
Giải quyết những thách thức về chủ nghĩa song song.

Việc sử dụng LLM để xét đoán các dự đoán gây ra các vấn đề sau:

LLM ảo tưởng, nghĩa là dự đoán của chúng thường chứa lỗi.
Các LLM tiêu tốn một lượng lớn tài nguyên điện toán và điện. Việc huấn luyện LLM trên các tập dữ liệu lớn hơn thường làm giảm lượng tài nguyên cần thiết cho quá trình suy luận, mặc dù các tập huấn luyện lớn hơn sẽ tiêu tốn nhiều tài nguyên huấn luyện hơn.
Giống như tất cả các mô hình học máy, LLM có thể thể hiện mọi loại thiên kiến.

Bài tập: Kiểm tra mức độ hiểu bài

Giả sử một Transformer được huấn luyện trên một tỷ tài liệu, bao gồm cả hàng nghìn tài liệu chứa ít nhất một thực thể của từ elephant (voi). Câu nào sau đây có thể đúng?

Cây keo, một phần quan trọng trong chế độ ăn của voi, sẽ dần đạt được điểm tự chú ý cao với từ voi.

Có, điều này sẽ cho phép Transformer trả lời các câu hỏi về chế độ ăn của voi.

Trình chuyển đổi sẽ liên kết từ elephant (voi) với nhiều thành ngữ chứa từ elephant.

Có, hệ thống sẽ bắt đầu gắn điểm chú ý đến bản thân cao giữa từ elephant (voi) và các từ khác trong thành ngữ về voi.

Transformer sẽ dần học cách bỏ qua mọi cách sử dụng từ voi mang tính châm biếm hoặc châm biếm trong dữ liệu huấn luyện.

Các mô hình Transformer đủ lớn được huấn luyện trên một tập dữ liệu huấn luyện đủ rộng sẽ rất giỏi trong việc nhận ra lời châm biếm, hài hước và mỉa mai. Vì vậy, thay vì bỏ qua những lời châm biếm và mỉa mai, Transformer sẽ học hỏi từ những lời nói đó.

Giới thiệu: Mô hình ngôn ngữ là gì? (10 phút)

Tiếp

Tinh chỉnh, chưng cất và kỹ thuật nhắc (10 phút)