LLM: Mô hình ngôn ngữ lớn là gì?

Một công nghệ mới hơn, mô hình ngôn ngữ lớn (LLM) dự đoán một mã thông báo hoặc một chuỗi các mã thông báo, đôi khi là nhiều đoạn văn bản mã thông báo dự đoán. Hãy nhớ rằng mã thông báo có thể là một từ, một từ phụ (một tập hợp con của một từ) hay thậm chí là một ký tự đơn. Các LLM đưa ra dự đoán chính xác hơn nhiều so với các mô hình ngôn ngữ N-gram hoặc mạng nơron lặp lại vì:

  • Các LLM chứa nhiều tham số hơn so với các mô hình lặp lại.
  • Các LLM thu thập nhiều ngữ cảnh hơn.

Phần này giới thiệu các cấu trúc thành công và được sử dụng rộng rãi nhất để xây dựng các mô hình ngôn ngữ lớn: Transformer.

Máy biến áp là gì?

Bộ chuyển đổi là kiến trúc tiên tiến dành cho nhiều loại ứng dụng mô hình ngôn ngữ, chẳng hạn như dịch:

Hình 1. Câu trả lời là: Tôi là một chú chó giỏi. Dựa trên bộ chuyển đổi
            trình dịch biến đổi đầu vào thành đầu ra: Je suis un bon
            chien, chính là câu này được dịch sang tiếng Pháp.
Hình 1. Ứng dụng dựa trên Transformer có chức năng dịch từ Tiếng Anh sang tiếng Pháp.

 

Bộ biến áp đầy đủ bao gồm một bộ mã hoá và một bộ giải mã:

  • Bộ mã hoá chuyển đổi nhập văn bản thành cách biểu diễn trung gian. Bộ mã hoá là một mạng nơron.
  • Bộ giải mã chuyển đổi phần trình bày trung gian đó thành văn bản hữu ích. Bộ giải mã cũng là một mạng nơron khổng lồ.

Ví dụ: trong một biên dịch:

  • Bộ mã hoá sẽ xử lý văn bản đầu vào (ví dụ: một câu tiếng Anh) thành một số đại diện trung gian.
  • Bộ giải mã chuyển đổi cách biểu diễn trung gian đó thành văn bản đầu ra (cho ví dụ: câu tương đương bằng tiếng Pháp).
Hình 2. Trình biên dịch dựa trên Transformer bắt đầu với một bộ mã hoá,
            tạo ra một bản trình bày trung gian của một tiếng Anh
            . Bộ giải mã chuyển đổi cách biểu diễn trung gian đó thành
            một câu đầu ra bằng tiếng Pháp.
Hình 2. Bộ chuyển đổi đầy đủ chứa cả bộ mã hoá và bộ giải mã.

 

Quan tâm đến bản thân là gì?

Để cải thiện bối cảnh, Transformers chủ yếu dựa vào một khái niệm có tên là sự tự chú ý. Một cách hiệu quả, thay mặt cho từng mã thông báo của thông tin đầu vào, mức độ chú ý tự đặt ra sẽ yêu cầu câu hỏi sau:

"Các mã thông báo đầu vào khác nhau ảnh hưởng như thế nào đến việc diễn giải thông tin này không?"

"Bản thân" trong "tự chú ý" đề cập đến chuỗi đầu vào. Cần chú ý cơ chế quan hệ trọng số của mã thông báo đầu vào với mã thông báo trong trình tự đầu ra như bản dịch hoặc mã thông báo trong một trình tự khác. Tuy nhiên, chỉ tập trung vào bản thân đo lường mức độ quan trọng của mối quan hệ giữa các mã thông báo trong trình tự đầu vào.

Để đơn giản hoá các vấn đề, hãy giả định rằng mỗi mã thông báo là một từ và là ngữ cảnh chỉ là một câu. Hãy xem xét câu sau:

The animal didn't cross the street because it was too tired.

Câu trước chứa 11 từ. Mỗi từ trong số 11 từ chú ý đến 10 từ còn lại, tự hỏi mỗi từ trong 10 từ đó có bao nhiêu từ có ý nghĩa quan trọng đối với bản thân nó. Ví dụ: chú ý rằng câu đó có chứa đại từ nhân xưng it. Đại từ nhân xưng thường không rõ ràng. Đại từ it thường đề cập đến danh từ hoặc cụm danh từ gần đây, nhưng trong câu ví dụ, danh từ gần đây đề cập đến động vật hay đường phố?

Cơ chế tự chú ý xác định mức độ liên quan của mỗi từ lân cận với đại từ nhân xưng it. Hình 3 cho thấy kết quả – đường kẻ càng xanh thì càng quan trọng từ đó với đại từ it. Tức là animal (động vật) phù hợp hơn quan trọng hơn từ street đối với đại từ it.

Hình 3. Mức độ phù hợp của mỗi từ trong số mười một từ trong câu:
            "Con vật không băng qua đường vì quá mệt"
            với đại từ "it". Từ 'động vật' là địa điểm phù hợp nhất với
            đại từ nhân xưng "it".
Hình 3. Sự chú ý của đại từ it. Từ Transformer: Cấu trúc mạng nơron mới cho Hiểu ngôn ngữ.

 

Ngược lại, giả sử từ cuối cùng trong câu thay đổi như sau:

The animal didn't cross the street because it was too wide.

Trong câu được sửa đổi này, hy vọng chủ đề tự chú ý sẽ đánh giá đường phố là phù hợp hơn từ animal (động vật) với đại từ it.

Một số cơ chế tự chú ý có tính hai chiều, tức là tính điểm số mức độ liên quan cho mã thông báo trướctheo sau từ đã tham gia. Ví dụ: trong Hình 3, chú ý rằng các từ ở cả hai bên của sẽ được kiểm tra. Vì vậy, một cơ chế tự chú ý hai chiều có thể thu thập ngữ cảnh của các từ ở một trong hai bên của từ. Ngược lại, một cơ chế tự chú ý một chiều chỉ có thể thu thập ngữ cảnh từ các từ ở một bên của từ được chú ý. Quan tâm tự chú ý hai chiều là đặc biệt hữu ích trong việc tạo các biểu diễn của toàn bộ dãy số, trong khi các ứng dụng tạo ra trình tự từng mã thông báo yêu cầu ứng dụng một chiều sự chú ý của bản thân. Vì lý do này, bộ mã hoá sử dụng tính năng tự chú ý hai chiều, trong khi bộ giải mã sử dụng một chiều.

Tính năng Tự chú ý nhiều đầu là gì?

Mỗi lớp tự chú ý thường bao gồm nhiều đầu quan tâm tự chú ý. Đầu ra của một lớp là một phép toán (ví dụ: trung bình có trọng số hoặc tích vô hướng) của đầu ra của đầu khác nhau.

Do mỗi tầng tự chú ý được khởi tạo cho các giá trị ngẫu nhiên, nên các đầu có thể tìm hiểu mối quan hệ khác nhau giữa mỗi từ được chú ý và các từ lân cận. Ví dụ: tầng tự chú ý được mô tả trong phần trước tập trung vào việc xác định danh từ mà đại từ đề cập đến. Tuy nhiên, các tầng tự chú ý khác cũng có thể biết được mức độ liên quan về mặt ngữ pháp của từng từ với nhau hoặc tìm hiểu các hoạt động tương tác khác.

Tại sao Bộ chuyển đổi lại lớn như vậy?

Máy biến áp chứa hàng trăm tỷ hoặc thậm chí hàng nghìn tỷ tham số. Khoá học này thường khuyến khích các mô hình xây dựng có kích thước nhỏ so với những thông số có số lượng tham số lớn hơn. Suy cho cùng, một mô hình có số lượng tham số nhỏ hơn sẽ sử dụng ít tài nguyên hơn để đưa ra dự đoán so với mô hình có số lượng tham số lớn hơn. Tuy nhiên, nghiên cứu cho thấy rằng Transformer có nhiều tham số hơn liên tục hoạt động tốt hơn Máy biến áp với ít thông số hơn.

Nhưng LLM tạo văn bản bằng cách nào?

Bạn đã thấy cách các nhà nghiên cứu huấn luyện các mô hình ngôn ngữ lớn (LLM) để dự đoán một hoặc hai từ bị thiếu và bạn có thể không ấn tượng. Suy cho cùng, việc dự đoán một hoặc hai từ về cơ bản là tính năng tự động hoàn thành được tích hợp vào nhiều văn bản, email và phần mềm biên soạn. Có thể bạn đang thắc mắc cách các LLM có thể tạo câu, đoạn hoặc bài thơ haiku về chuyên đăng quảng cáo.

Trên thực tế, về cơ bản, các LLM là cơ chế tự động hoàn thành dự đoán (hoàn tất) hàng nghìn mã thông báo. Ví dụ: hãy cân nhắc một câu theo sau là một câu được che giấu:

My dog, Max, knows how to perform many traditional dog tricks.
___ (masked sentence)

Một LLM có thể tạo ra xác suất cho câu được che giấu, bao gồm:

Xác suất (Các) từ
3,1% Ví dụ: trẻ có thể ngồi, ở và cuộn qua.
2,9% Ví dụ: trẻ biết cách ngồi, ngồi và cuộn qua.

Một LLM đủ lớn có thể tạo xác suất cho các đoạn văn và toàn bộ tiểu luận. Bạn có thể coi câu hỏi của người dùng đối với một LLM là "được đưa ra" câu tiếp theo là một mặt nạ tưởng tượng. Ví dụ:

User's question: What is the easiest trick to teach a dog?
LLM's response:  ___

LLM tạo ra xác suất cho nhiều phản hồi có thể có.

Một ví dụ khác là một LLM được huấn luyện dựa trên một số lượng lớn các "từ" toán học bài tập" có thể mang lại hình thức suy luận toán học phức tạp. Tuy nhiên, về cơ bản, các LLM đó chỉ tự động hoàn thành một câu lệnh cho bài toán về từ.

Lợi ích của LLM

Các LLM có thể tạo ra văn bản rõ ràng, dễ hiểu cho cho nhiều đối tượng mục tiêu. Các LLM có thể đưa ra dự đoán về những nhiệm vụ mà chúng thực hiện được đào tạo rõ ràng về chúng. Một số nhà nghiên cứu tuyên bố rằng các LLM cũng có thể tạo các cụm từ gợi ý đầu vào để chúng không được huấn luyện rõ ràng, mà là các nhà nghiên cứu đã bác bỏ tuyên bố này.

Vấn đề liên quan đến các mô hình ngôn ngữ lớn (LLM)

Hoạt động đào tạo một mô hình ngôn ngữ lớn (LLM) đòi hỏi nhiều vấn đề, trong đó có:

  • Tập hợp một bộ nội dung đào tạo khổng lồ.
  • tiêu tốn nhiều tháng cũng như tài nguyên điện toán khổng lồ và điện.
  • Giải quyết những thách thức về chủ nghĩa song song.

Việc sử dụng các LLM để suy luận dự đoán sẽ gây ra những vấn đề sau:

  • Các LLM gây ảo giác nghĩa là những dự đoán của họ thường có sai sót.
  • Các LLM tiêu thụ một lượng lớn tài nguyên điện toán và điện. Việc huấn luyện các LLM trên các tập dữ liệu lớn hơn thường làm giảm lượng tài nguyên cần thiết để suy luận, mặc dù việc huấn luyện sẽ tốn nhiều tài nguyên huấn luyện hơn.
  • Giống như mọi mô hình học máy khác, các LLM có thể thể hiện mọi kiểu thiên lệch.

Bài tập: Kiểm tra kiến thức

Giả sử một Transformer được huấn luyện dựa trên một tỷ tài liệu, bao gồm hàng nghìn tài liệu có chứa ít nhất một lần xuất hiện của từ đó voi. Câu nào sau đây có thể đúng?
Cây keo, một phần quan trọng trong chế độ ăn của voi, sẽ dần đạt được điểm mức độ chú ý cao với từ này voi.
Có và điều này sẽ cho phép Transformer trả lời các câu hỏi về chế độ ăn cho voi.
Transformer sẽ liên kết từ elephant với nhiều từ thành ngữ chứa từ voi.
Có, hệ thống sẽ bắt đầu đính kèm điểm số tự tập trung cao độ giữa từ elephele và các từ khác trong thành ngữ voi.
The Transformer sẽ dần học cách bỏ qua mọi lời châm biếm hoặc cách sử dụng từ voi một cách châm biếm trong dữ liệu huấn luyện.
Máy biến áp đủ lớn được huấn luyện trên phạm vi đủ rộng chương trình huấn luyện trở nên rất thành thạo trong việc nhận ra những lời châm biếm, hài hước, và trớ trêu. Vì vậy, thay vì phớt lờ những lời châm biếm và châm biếm, Transformer học hỏi từ điều đó.