Giới thiệu về các mô hình ngôn ngữ lớn

Bạn mới sử dụng mô hình ngôn ngữ hoặc mô hình ngôn ngữ lớn? Hãy xem các tài nguyên dưới đây.

Mô hình ngôn ngữ là gì?

Mô hình ngôn ngữ là công nghệ học máy mô hình nhằm dự đoán và tạo ra ngôn từ hợp lý. Tính năng Tự động hoàn thành là một mô hình ngôn ngữ.

Các mô hình này hoạt động bằng cách ước tính xác suất mã thông báo hoặc chuỗi mã thông báo xảy ra trong một chuỗi mã thông báo dài hơn. Hãy xem xét câu sau:

When I hear rain on my roof, I _______ in my kitchen.

Nếu bạn giả định rằng một mã thông báo là một từ, thì mô hình ngôn ngữ sẽ xác định xác suất của các từ hoặc chuỗi từ khác nhau để thay thế dấu gạch dưới đó. Ví dụ: mô hình ngôn ngữ có thể xác định những dữ liệu sau xác suất:

cook soup 9.4%
warm up a kettle 5.2%
cower 3.6%
nap 2.5%
relax 2.2%
...

Một "chuỗi mã thông báo" có thể là toàn bộ một câu hoặc một chuỗi câu. Tức là mô hình ngôn ngữ có thể tính toán xác suất của toàn bộ các câu hoặc khối văn bản khác nhau.

Việc ước tính xác suất của nội dung tiếp theo trong một trình tự sẽ hữu ích cho mọi thứ: tạo văn bản, dịch ngôn ngữ và trả lời câu hỏi, v.v.

Mô hình ngôn ngữ lớn là gì?

Mô hình hoá ngôn ngữ của con người trên quy mô lớn là một quá trình cực kỳ phức tạp và tiêu tốn nhiều tài nguyên của chúng tôi. Con đường để đạt đến các khả năng hiện tại của mô hình ngôn ngữ và các mô hình ngôn ngữ lớn đã trải dài vài thập kỷ.

Khi các mô hình được xây dựng ngày càng lớn, độ phức tạp và hiệu quả của các mô hình đó cũng tăng lên. Các mô hình ngôn ngữ ban đầu có thể dự đoán xác suất của một từ; hiện đại các mô hình ngôn ngữ lớn có thể dự đoán xác suất của các câu, đoạn văn hoặc thậm chí là toàn bộ tài liệu.

Kích thước và khả năng của các mô hình ngôn ngữ đã bùng nổ trong vài năm qua khi bộ nhớ máy tính, kích thước tập dữ liệu và sức mạnh xử lý tăng lên, đồng thời các kỹ thuật hiệu quả hơn để lập mô hình các chuỗi văn bản dài hơn được phát triển.

Lớn đến mức nào?

Định nghĩa này không rõ ràng, nhưng lại "lớn" được dùng để mô tả BERT (110 triệu tham số) cũng như PaLM 2 (lên đến 340B tham số).

Thông sốtrọng số mà mô hình đã học được trong quá trình huấn luyện, dùng để dự đoán mã thông báo tiếp theo trong trình tự. "Lớn" có thể đề cập đến số lượng tham số trong mô hình hoặc đôi khi là số lượng từ trong tập dữ liệu.

Bộ chuyển đổi

Một bước phát triển quan trọng trong mô hình ngôn ngữ là việc ra mắt vào năm 2017 của Transformers, một kiến trúc được thiết kế xoay quanh ý tưởng về sự chú ý. Điều này giúp xử lý các trình tự dài hơn bằng cách tập trung vào phần quan trọng nhất của dữ liệu đầu vào, giải quyết các vấn đề về bộ nhớ gặp phải trong các mô hình trước đó.

Bộ chuyển đổi là kiến trúc tiên tiến dành cho nhiều loại ứng dụng mô hình ngôn ngữ, chẳng hạn như người dịch.

Nếu nội dung nhập vào là "Tôi là một chú chó cưng.", tức là một trình biên dịch dựa trên Bộ chuyển đổi biến đổi đầu vào đó thành đầu ra "Je suis un bon chien.", đó là cùng câu này được dịch sang tiếng Pháp.

Full Transformer bao gồm một bộ mã hoábộ giải mã. Một bộ mã hoá sẽ chuyển đổi văn bản đầu vào thành đại diện trung gian và bộ giải mã chuyển đổi cách biểu diễn trung gian đó thành văn bản hữu ích.

Quan tâm đến bản thân

Máy biến áp (Transformer) chủ yếu dựa trên một khái niệm gọi là hướng đến bản thân. Phần riêng của quan tâm đến bản thân đề cập đến khái niệm "cá nhân hoá bản thân" tiêu điểm của từng mã thông báo trong tập sao lục. Một cách hiệu quả, thay mặt cho từng mã thông báo của thông tin đầu vào, mức độ chú ý tự đặt ra cho bản thân là: "Bao nhiêu mọi mã thông báo khác của dữ liệu đầu vào có quan trọng đối với tôi không?" Để đơn giản hoá vấn đề, hãy giả định rằng mỗi mã thông báo là một từ và ngữ cảnh hoàn chỉnh là một câu. Hãy xem xét câu sau:

Con vật không qua đường vì quá mệt.

Có 11 từ trong câu trước, vì vậy mỗi từ trong số 11 từ là trả tiền chú ý đến 10 từ còn lại, tự hỏi mỗi từ trong số 10 từ đó có ý nghĩa bao nhiêu cho họ. Ví dụ: hãy lưu ý rằng câu này chứa đại từ it. Đại từ nhân xưng thường gây nhầm lẫn. Đại từ it luôn chỉ đến một danh từ gần đây, nhưng trong câu ví dụ, it chỉ đến danh từ nào gần đây: con vật hay con đường?

Cơ chế tự chú ý xác định mức độ liên quan của từng từ lân cận với đại từ it.

Có những trường hợp sử dụng nào cho LLM?

LLM rất hiệu quả trong việc thực hiện nhiệm vụ mà chúng được tạo ra, đó là tạo văn bản hợp lý nhất để phản hồi dữ liệu đầu vào. Các mô hình này thậm chí còn bắt đầu cho thấy hiệu suất mạnh mẽ trên các nhiệm vụ khác; ví dụ: tóm tắt, trả lời câu hỏi và phân loại văn bản. Đây được gọi là khả năng ngày càng phát triển. Các LLM thậm chí có thể giải một số bài toán và viết mã (mặc dù bạn nên kiểm tra cơ quan).

LLM rất giỏi bắt chước các mẫu lời nói của con người. Ngoài ra, các thẻ này rất phù hợp để kết hợp thông tin với nhiều kiểu và tông màu.

Tuy nhiên, các LLM có thể là thành phần của các mô hình làm nhiều việc khác ngoài tạo văn bản. Các LLM gần đây đã được dùng để tạo trình phát hiện cảm xúc, trình phân loại nội dung độc hại và tạo chú thích hình ảnh.

Những điều cần cân nhắc về LLM

Các mô hình lớn như vậy không phải không có hạn chế.

Các LLM lớn nhất có giá đắt. Kết quả là họ có thể mất hàng tháng để đào tạo tốn rất nhiều tài nguyên.

Thông thường, bạn cũng có thể sử dụng lại các thành phần này cho các tác vụ khác. Đây là một điểm sáng đáng giá.

Việc huấn luyện các mô hình có hơn một nghìn tỷ tham số sẽ tạo ra các thách thức về kỹ thuật. Bạn cần có cơ sở hạ tầng và kỹ thuật lập trình đặc biệt để điều phối luồng đến các khối và quay lại.

Có nhiều cách để giảm thiểu chi phí của những mô hình lớn này. Có hai phương pháp là xác suất ngoại tuyếnchưng cất.

Độ lệch có thể là một vấn đề trong các mô hình rất lớn và cần được xem xét trong quá trình huấn luyện và triển khai ứng dụng.

Vì các mô hình này được huấn luyện bằng ngôn ngữ của con người, nên điều này có thể giới thiệu nhiều các vấn đề đạo đức tiềm ẩn, bao gồm cả việc sử dụng sai ngôn từ và thiên kiến trong chủng tộc, giới tính, tôn giáo, v.v.

Rõ ràng là khi các mô hình này tiếp tục phát triển và hoạt động hiệu quả hơn tốt hơn, cần tiếp tục siêng năng tìm hiểu và giảm thiểu hạn chế. Tìm hiểu thêm về phương pháp tiếp cận của Google đối với AI có trách nhiệm.

Tìm hiểu thêm về LLM

Bạn muốn tìm hiểu sâu hơn về mô hình ngôn ngữ lớn? Séc mô-đun Mô hình ngôn ngữ lớn mới trong Khoá học nhanh về máy học.