Trang này được dịch bởi Cloud Translation API.

Giới thiệu về các mô hình ngôn ngữ lớn

Bạn mới làm quen với các mô hình ngôn ngữ hoặc mô hình ngôn ngữ lớn? Hãy xem các tài nguyên dưới đây.

Mô hình ngôn ngữ là gì?

Mô hình ngôn ngữ là công nghệ học máy mô hình nhằm dự đoán và tạo ra ngôn từ hợp lý. Tính năng Tự động hoàn thành là một mô hình ngôn ngữ.

Các mô hình này hoạt động bằng cách ước tính xác suất mã thông báo hoặc chuỗi mã thông báo xảy ra trong một chuỗi mã thông báo dài hơn. Cân nhắc câu sau:

When I hear rain on my roof, I _______ in my kitchen.

Nếu bạn giả định mã thông báo là một từ thì mô hình ngôn ngữ sẽ xác định xác suất của các từ hoặc chuỗi từ khác nhau để thay thế dấu gạch dưới. Ví dụ: mô hình ngôn ngữ có thể xác định những dữ liệu sau xác suất:

cook soup 9.4%
warm up a kettle 5.2%
cower 3.6%
nap 2.5%
relax 2.2%
...

Một "chuỗi mã thông báo" có thể là toàn bộ một câu hoặc một chuỗi câu. Tức là một mô hình ngôn ngữ có thể tính toán khả năng xảy ra câu hoặc khối văn bản.

Việc ước tính xác suất của kết quả tiếp theo trong một trình tự là một cách hữu ích đối với tất cả một số việc: tạo văn bản, dịch ngôn ngữ và trả lời và một số câu hỏi khác.

Mô hình ngôn ngữ lớn là gì?

Mô hình hoá ngôn ngữ của con người trên quy mô lớn là một quá trình cực kỳ phức tạp và tiêu tốn nhiều tài nguyên của chúng tôi. Con đường để đạt đến các khả năng hiện tại của mô hình ngôn ngữ và các mô hình ngôn ngữ lớn đã trải dài vài thập kỷ.

Khi các mô hình được xây dựng ngày càng lớn hơn, độ phức tạp và hiệu quả của chúng cũng tăng lên. Các mô hình ngôn ngữ ban đầu có thể dự đoán xác suất của một từ; hiện đại các mô hình ngôn ngữ lớn có thể dự đoán xác suất của các câu, đoạn văn hoặc thậm chí là toàn bộ tài liệu.

Quy mô và khả năng của các mô hình ngôn ngữ đã bùng nổ trong thời gian qua vài năm khi bộ nhớ máy tính, kích thước tập dữ liệu và công suất xử lý tăng lên và phát triển các kỹ thuật hiệu quả hơn để lập mô hình các chuỗi văn bản dài hơn.

Lớn đến mức nào?

Định nghĩa này không rõ ràng, nhưng lại "lớn" được dùng để mô tả BERT (110 triệu tham số) cũng như PaLM 2 (lên đến 340B tham số).

Tham số là trọng lượng mô hình học được trong quá trình huấn luyện, dùng để dự đoán mã thông báo tiếp theo trong trình tự. "Lớn" có thể đề cập đến số lượng tham số trong mô hình, hoặc đôi khi số lượng từ trong tập dữ liệu.

Bộ chuyển đổi

Một bước phát triển quan trọng trong mô hình ngôn ngữ là việc ra mắt vào năm 2017 của Transformers, một kiến trúc được thiết kế xoay quanh ý tưởng về sự chú ý. Nhờ vậy, có thể xử lý các trình tự dài hơn bằng cách tập trung vào phần quan trọng của đầu vào, giải quyết các vấn đề về bộ nhớ gặp phải trước đó người mẫu.

Bộ chuyển đổi là kiến trúc tiên tiến dành cho nhiều loại ứng dụng mô hình ngôn ngữ, chẳng hạn như người dịch.

Nếu nội dung nhập vào là "Tôi là một chú chó cưng.", tức là một trình biên dịch dựa trên Bộ chuyển đổi biến đổi đầu vào đó thành đầu ra "Je suis un bon chien.", đó là cùng câu này được dịch sang tiếng Pháp.

Full Transformer bao gồm một bộ mã hoá và bộ giải mã. Một bộ mã hoá sẽ chuyển đổi văn bản đầu vào thành đại diện trung gian và bộ giải mã chuyển đổi cách biểu diễn trung gian đó thành văn bản hữu ích.

Quan tâm đến bản thân

Máy biến áp (Transformer) chủ yếu dựa trên một khái niệm gọi là hướng đến bản thân. Phần riêng của sự tự chú ý đề cập đến khái niệm "cá nhân hoá bản thân" tiêu điểm của từng mã thông báo trong tập sao lục. Một cách hiệu quả, thay mặt cho từng mã thông báo đầu vào, mức độ chú ý tự đặt ra cho mình: "Bao nhiêu mọi mã thông báo khác của dữ liệu đầu vào có quan trọng đối với tôi không?" Để đơn giản hoá các vấn đề, hãy giả định rằng mỗi mã thông báo là một từ và ngữ cảnh đầy đủ là một từ . Hãy xem xét câu sau:

Con vật không qua đường vì quá mệt.

Có 11 từ trong câu trước, vì vậy mỗi từ trong số 11 từ là trả tiền chú ý đến 10 từ còn lại, tự hỏi mỗi từ trong số 10 từ đó có ý nghĩa bao nhiêu cho họ. Ví dụ: hãy chú ý rằng câu đó có chứa đại từ nhân xưng it. Đại từ nhân xưng thường không rõ ràng. Đại từ it luôn đề cập đến một danh từ gần đây, nhưng trong câu ví dụ, danh từ nào gần đây nó đề cập đến: động vật hay trên đường phố?

Cơ chế tự chú ý xác định mức độ liên quan của từng từ gần đó với đại từ nhân xưng it.

Có những trường hợp sử dụng LLM nào?

Các LLM hoạt động hiệu quả cao trong nhiệm vụ mà chúng được xây dựng, tức là đang tạo ra văn bản hợp lý nhất để phản hồi một thông tin đầu vào. Chúng thậm chí đang bắt đầu hiển thị hiệu suất cao đối với các nhiệm vụ khác; ví dụ: tóm tắt, đặt câu hỏi trả lời và phân loại văn bản. Đây được gọi là khả năng mở rộng. Các LLM thậm chí có thể giải một số bài toán và viết mã (mặc dù bạn nên kiểm tra cơ quan).

Các LLM rất hiệu quả trong việc bắt chước các mẫu lời nói của con người. Ngoài ra, chúng rất hiệu quả trong việc kết hợp thông tin với nhiều phong cách và tông màu.

Tuy nhiên, các LLM có thể là thành phần của các mô hình làm nhiều việc khác ngoài tạo văn bản. Các LLM gần đây được dùng để xây dựng công cụ phát hiện quan điểm, thuật toán phân loại độc tính và tạo chú thích cho hình ảnh.

Những điều cần cân nhắc về LLM

Những mô hình lớn như vậy không có nhược điểm.

Những LLM lớn nhất đều rất đắt đỏ. Kết quả là họ có thể mất hàng tháng để đào tạo tốn rất nhiều tài nguyên.

Chúng cũng có thể thường được tái sử dụng cho các nhiệm vụ khác, một điều đáng quý.

Mô hình huấn luyện có một nghìn tỷ thông số tạo ra những thách thức về kỹ thuật. Cơ sở hạ tầng và chương trình đặc biệt cần có các kỹ thuật để điều phối luồng đến các chip và ngược lại.

Có nhiều cách để giảm thiểu chi phí của những mô hình lớn này. 2 phương pháp suy luận ngoại tuyến và chưng cất.

Độ lệch có thể là một vấn đề trong các mô hình rất lớn và cần được xem xét trong quá trình huấn luyện và triển khai ứng dụng.

Vì các mô hình này được huấn luyện bằng ngôn ngữ của con người, nên điều này có thể giới thiệu nhiều các vấn đề đạo đức tiềm ẩn, bao gồm cả việc sử dụng sai ngôn từ và thiên kiến trong chủng tộc, giới tính, tôn giáo, v.v.

Rõ ràng là khi các mô hình này tiếp tục phát triển và hoạt động hiệu quả hơn tốt hơn, cần tiếp tục siêng năng tìm hiểu và giảm thiểu hạn chế. Tìm hiểu thêm về phương pháp tiếp cận của Google để AI có trách nhiệm.