Giới thiệu về Mô hình ngôn ngữ lớn

Bạn mới sử dụng mô hình ngôn ngữ hay mô hình ngôn ngữ lớn? Hãy xem các tài nguyên bên dưới.

Mô hình ngôn ngữ là gì?

Mô hình ngôn ngữ là một mô hình máy học nhằm dự đoán và tạo ra ngôn ngữ hợp lý. Ví dụ: tính năng tự động hoàn thành là một mô hình ngôn ngữ.

Các mô hình này hoạt động bằng cách ước tính xác suất xảy ra một mã thông báo hoặc trình tự mã thông báo xảy ra trong một chuỗi mã thông báo dài hơn. Hãy xem xét câu sau:

When I hear rain on my roof, I _______ in my kitchen.

Nếu bạn cho rằng mã thông báo là một từ, thì mô hình ngôn ngữ sẽ xác định xác suất của các từ hoặc chuỗi từ khác nhau để thay thế dấu gạch dưới đó. Ví dụ: mô hình ngôn ngữ có thể xác định các xác suất sau:

cook soup 9.4%
warm up a kettle 5.2%
cower 3.6%
nap 2.5%
relax 2.2%
...

"Trình tự mã thông báo" có thể là toàn bộ câu hoặc một chuỗi các câu. Điều đó có nghĩa là mô hình ngôn ngữ có thể tính toán khả năng xảy ra của toàn bộ các câu hoặc khối văn bản khác nhau.

Việc ước tính xác suất diễn ra tiếp theo theo trình tự sẽ hữu ích cho tất cả các loại: tạo văn bản, dịch ngôn ngữ và trả lời câu hỏi, v.v.

Mô hình ngôn ngữ lớn là gì?

Việc lập mô hình ngôn ngữ của con người trên quy mô lớn là một hoạt động rất phức tạp và tốn nhiều tài nguyên. Con đường để đạt được các khả năng hiện tại của mô hình ngôn ngữ và mô hình ngôn ngữ lớn đã kéo dài vài thập kỷ.

Khi mô hình được xây dựng ngày càng lớn mạnh, tính phức tạp và hiệu quả của chúng ngày càng tăng lên. Các mô hình ngôn ngữ ban đầu có thể dự đoán xác suất của một từ; các mô hình ngôn ngữ lớn hiện đại có thể dự đoán xác suất của câu, đoạn văn hoặc thậm chí toàn bộ tài liệu.

Kích thước và khả năng của các mô hình ngôn ngữ đã bùng nổ trong vài năm qua khi bộ nhớ máy tính, kích thước tập dữ liệu và công suất xử lý tăng lên, đồng thời các kỹ thuật hiệu quả hơn để lập mô hình trình tự văn bản dài hơn.

Lớn đến mức nào?

Định nghĩa này không rõ ràng, nhưng "lớn" đã được dùng để mô tả BERT (tham số 110M) cũng như PaLM 2 (tối đa 340B tham số).

Tham số là các trọng số mà mô hình học được trong quá trình huấn luyện, dùng để dự đoán mã thông báo tiếp theo trong trình tự. "Lớn" có thể là số tham số trong mô hình hoặc đôi khi là số từ trong tập dữ liệu.

Bộ chuyển đổi

Một bước phát triển quan trọng trong việc lập mô hình ngôn ngữ là việc giới thiệu Transformers vào năm 2017, một kiến trúc được thiết kế xoay quanh ý tưởng về sự chú ý. Nhờ đó, bạn có thể xử lý các trình tự dài hơn bằng cách tập trung vào phần quan trọng nhất của dữ liệu đầu vào, giải quyết các vấn đề về bộ nhớ gặp phải trong các mô hình trước đó.

Transformers là một cấu trúc hiện đại dành cho nhiều ứng dụng mô hình ngôn ngữ, chẳng hạn như người dịch.

Nếu thông tin đầu vào là "Tôi là một con chó tốt." thì bộ chuyển đổi dựa trên Transformer sẽ biến đổi đầu vào đó thành đầu ra "Je suis un bon chien.", cũng chính là câu được dịch sang tiếng Pháp.

Transformers đầy đủ bao gồm một bộ mã hoá và một bộ giải mã. Bộ mã hoá chuyển đổi văn bản đầu vào thành đại diện trung gian và bộ giải mã chuyển đổi đại diện trung gian đó thành văn bản hữu ích.

Tự chú ý

Người vận chuyển chủ yếu dựa vào khái niệm gọi là tự chú ý. Phần tự quan tâm đến bản thân là việc tập trung vào "cái tư tâm" của từng mã thông báo trong một tập sao lục. Thay mặt mỗi mã thông báo đầu vào, hệ thống tự chú ý sẽ hỏi: "Mỗi mã thông báo đầu vào khác nhau quan trọng với tôi bằng bao nhiêu?" Để đơn giản hoá vấn đề, hãy giả sử rằng mỗi mã thông báo là một từ và ngữ cảnh đầy đủ là một câu. Hãy xem xét câu sau:

Con vật đã băng qua đường vì quá mệt.

Có 11 từ trong câu trước, do đó, mỗi người trong số 11 từ đang chú ý đến 10 từ còn lại, tự hỏi mỗi từ trong số 10 từ đó quan trọng với họ như thế nào. Ví dụ: hãy lưu ý rằng câu có chứa đại từ nhân xưng it. Đại từ nhân xưng thường không rõ ràng. Đại từ nhân xưng luôn đề cập đến một danh từ mới, nhưng trong câu ví dụ, danh từ mới đây đề cập đến: động vật hoặc đường phố.

Cơ chế tự chú ý xác định mức độ liên quan của từng từ lân cận với đại từ .

Một số trường hợp sử dụng LLM là gì?

LLM hoạt động hiệu quả cao trong tác vụ được tạo, tạo ra văn bản hợp lý nhất để phản hồi thông tin đầu vào. Chúng thậm chí còn bắt đầu thể hiện hiệu suất cao đối với các nhiệm vụ khác; ví dụ: tóm tắt, trả lời câu hỏi và phân loại văn bản. Đây được gọi là khả năng xuất hiện. LLM thậm chí có thể giải quyết một số bài toán và viết mã (mặc dù bạn nên kiểm tra bài tập của mình).

LLM rất hiệu quả trong việc bắt chước các mẫu lời nói của con người. Ngoài ra, chúng rất tuyệt vời trong việc kết hợp thông tin với phong cách và tông màu khác nhau.

Tuy nhiên, LLM có thể là thành phần của các mô hình không chỉ tạo văn bản. Các LLM gần đây được dùng để xây dựng trình phát hiện tình cảm, trình phân loại độc hại và tạo chú thích hình ảnh.

Lưu ý về LLM

Những mô hình lớn như vậy không phải lúc nào cũng có những hạn chế.

Những chiếc LLM lớn nhất có giá cao. Chúng có thể mất nhiều tháng để đào tạo và kết quả là sử dụng rất nhiều tài nguyên.

Chúng cũng thường được chuyển đổi mục đích sử dụng để phục vụ các công việc khác.

Các mô hình đào tạo có hàng nghìn tỷ tham số trở lên sẽ tạo ra nhiều thách thức về kỹ thuật. Cần có kỹ thuật lập trình và cơ sở hạ tầng đặc biệt để điều phối luồng cho các khối và ngược lại.

Có nhiều cách để giảm thiểu chi phí cho các mô hình lớn này. Có hai phương pháp: suy luận ngoại tuyếntính năng chưng cất.

Xu hướng có thể là một vấn đề trong các mô hình rất lớn và nên được xem xét trong quá trình đào tạo và triển khai.

Vì những mô hình này được đào tạo về ngôn ngữ của con người nên có thể dẫn đến nhiều vấn đề về đạo đức tiềm ẩn, bao gồm cả việc sử dụng sai ngôn ngữ và thành kiến về chủng tộc, giới tính, tôn giáo, v.v.

Rõ ràng là khi các mô hình này tiếp tục phát triển và hoạt động hiệu quả hơn, chúng tôi cần phải nỗ lực tìm hiểu và giảm thiểu các hạn chế. Tìm hiểu thêm về phương pháp tiếp cận của Google đối với trí tuệ nhân tạo có trách nhiệm.