Lời nhắc về văn bản và hình ảnh đa phương thức

Lời nhắc đa phương thức là một loại câu lệnh dành cho các mô hình ngôn ngữ lớn (LLM) kết hợp nhiều định dạng loại dữ liệu đầu vào. Theo định dạng, chúng tôi tham chiếu đến các dữ liệu đầu vào như văn bản hoặc hình ảnh. Lời nhắc đa phương thức và các mô hình ngôn ngữ lớn (LLM) hỗ trợ chúng tạo ra nhiều trường hợp sử dụng thú vị, chẳng hạn như phân loại hình ảnh, nhận dạng chữ viết tay, dịch thuật và các tình huống sáng tạo khác.

Trong tài liệu này, chúng ta sẽ tập trung vào các loại câu lệnh có thể đạt được khi nhập văn bản và hình ảnh vào mô hình Gemini và nhận phản hồi chỉ bằng văn bản bằng cách khám phá 8 ví dụ thú vị.

Lời nhắc đa phương thức là gì?

Hiện nay, Gemini có thể được nhắc bằng cách kết hợp dữ liệu đầu vào là văn bản và/hoặc hình ảnh rồi trả về phản hồi chỉ ở dạng văn bản. Văn bản có thể được dùng để cung cấp ngữ cảnh cho hình ảnh hoặc có thể được dùng để yêu cầu mô hình vận hành hoặc tạo phản hồi về hình ảnh.

Ví dụ: sau đây là lời nhắc đa phương thức:

alt_text

"Con mèo có màu gì?"

Văn bản trong câu lệnh này cung cấp ngữ cảnh cho hình ảnh bằng cách làm rõ rằng có một con mèo trong hình ảnh và chúng ta chủ yếu chỉ quan tâm đến con mèo và màu sắc của con mèo.

3 lời nhắc đa phương thức đơn giản

Sau đây là 3 ví dụ rất đơn giản về việc cung cấp hình ảnh cùng với văn bản cho một LLM và chấp nhận phản hồi chỉ bằng văn bản. Chúng ta sẽ khám phá các khái niệm về việc nhận dạng một loại thực thể trong hình ảnh, phân loại các thực thể trong hình ảnh mà không cần biết trước và cuối cùng là ví dụ về kết hợp việc nhận dạng với phép tính.

Phân loại

alt_text

"Hình ảnh này có chứa con mèo không? Hãy trả lời bằng câu trả lời là true hoặc false."

Phản hồi từ Gemini:

Đúng

Đây là một ví dụ rất đơn giản làm nổi bật khả năng của LLM trong việc nhận biết sự tồn tại của nội dung nào đó trong hình ảnh hoặc không và phản hồi cho nhà phát triển theo cách boolean. Phương pháp này có thể hữu ích cho việc phát hiện nội dung cụ thể để lọc hoặc cho các mục đích khác.

Lưu ý rằng các mô hình nhận dạng hình ảnh chuyên dụng có thể mang lại hiệu quả cao hơn cho các tác vụ rất cụ thể. Tuy nhiên, việc tạo các mô hình ML tuỳ chỉnh tốn thời gian và chuyên môn. Các giải pháp sử dụng Gemini có thể được xây dựng nhanh hơn. Do đó, điều quan trọng là phải so sánh chất lượng của phản hồi có sẵn giữa các mô hình và quyết định dựa trên sự đánh đổi này.

Sự công nhận

alt_text

"Cho tôi xem danh sách tất cả những cảnh quan trọng trong bức ảnh này."

Phản hồi từ Gemini:

  1. Một sổ tay Google
  2. Chiếc bút Google
  3. Một cái cốc

Ví dụ trên nhấn mạnh thực tế là chúng ta có thể yêu cầu mở một câu hỏi cho LLM về nội dung xuất hiện trong hình ảnh. Khi sử dụng Gemini, quá trình phân loại hình ảnh không yêu cầu các mô hình khác nhau cho các loại đối tượng khác nhau (ví dụ: sách hoặc cốc). Thay vào đó, nhờ sử dụng một mô hình duy nhất, chúng tôi đã xác định được tất cả các phần tử quan trọng trong một lượt truyền.

Đếm

alt_text

"Đếm số con mèo trong ảnh này. Chỉ cung cấp cho tôi con số cuối cùng trong câu trả lời.
Chỉ trả lại cho tôi một số"

Phản hồi từ Gemini:

3

Trong ví dụ này, chúng ta chỉ chứa yêu cầu cho một đối tượng loại cụ thể và chỉ định rằng chúng ta muốn đối tượng đó được tính trong ảnh. Hơn nữa, chúng tôi yêu cầu câu trả lời phải nằm trong một câu trả lời dạng số thuần tuý trong câu lệnh. Tuy nhiên, tuỳ thuộc vào số lượng đối tượng trong hình ảnh cần được tính, chất lượng có thể khác nhau. Vì Gemini là một mô hình đa phương thức dùng cho mục đích chung, nên độ chính xác của mô hình này ngoài những con số nhỏ có thể bị hạn chế.

5 lời nhắc đa phương thức nâng cao

Tiếp theo, chúng ta sẽ cùng tìm hiểu một số ví dụ thú vị về những cách nâng cao hơn mà có thể sử dụng câu lệnh đa phương thức với tính năng nhập văn bản và hình ảnh.

Nhận dạng, lập luận và tính toán văn bản

alt_text

"Tổng số tiền chúng ta kiếm được ngày hôm nay là bao nhiêu? Hãy giải thích lý do của bạn."

Phản hồi từ Gemini:

Tổng số tiền kiếm được hôm nay là 100 USD.

Lý do là phần ghi chú cho biết 5 lịch đã được bán với giá 20 USD mỗi lịch. 5 x 20 đô la = 100 đô la.

Câu lệnh và hình ảnh nâng cao hơn này minh hoạ một số tính năng của Gemini cùng một lúc. Đầu tiên là tính năng nhận dạng chữ viết tay, AI đã nhận dạng rằng văn bản viết bằng tiếng Anh đề cập đến số lượng lịch được bán và mức giá của mỗi lịch. Hơn nữa, với câu lệnh của chúng tôi cho biết khái niệm kiểm đếm số, AI đã nhận dạng ký hiệu của cách kiểm đếm 5 điểm (tức là 4 đường dọc và một dấu gạch ngang ngang). Cuối cùng, nhờ lời nhắc hướng dẫn AI từng bước tính toán, chúng tôi có thể xem hướng dẫn từng bước về cách AI tính doanh thu.

Bối cảnh thế giới và lý do

alt_text

"Ảnh này chụp vào thời điểm nào trong ngày, trong khung thời gian 24 giờ."

Phản hồi từ Gemini:

19:30

Ví dụ này nêu bật khả năng của mô hình trong việc nhận dạng ánh sáng của cảnh và suy ra thông tin tạm thời từ hình ảnh trong một khung thời gian nhất định.

Diễn giải và sáng tạo

alt_text

"Viết một bài thơ haiku về ảnh này."

Phản hồi từ Gemini:

Một chiếc ghế dài bên hồ,

Phong cảnh những ngọn núi phía xa,

Khoảnh khắc bình yên.

Ở đây, chúng ta thấy sức mạnh của Gemini trong việc kể chuyện và những cách sáng tạo hơn trong việc sử dụng AI tạo sinh. Khi lấy hình ảnh làm điểm xuất phát, chúng tôi có thể khiến chúng tôi ngạc nhiên về vị trí AI lấy cốt truyện hoặc những đặc điểm trong hình ảnh mà AI quyết định tích hợp cụ thể vào câu chuyện. Văn bản thuần tuý gợi ý để tạo câu chuyện thường giới hạn ở ý tưởng ban đầu của chúng tôi, nhưng hình ảnh trong thế giới thực có thể đóng vai trò là điểm khởi đầu mạnh mẽ cho quá trình tư duy của AI.

Tiến trình logic

alt_text

"Điều gì xảy ra tiếp theo? Giải thích lý do của bạn"

Phản hồi từ Gemini:

Hình tam giác có 3 cạnh, hình vuông có 4 cạnh và hình ngũ giác có 5 cạnh. Số cạnh tăng thêm 1 cho mỗi hình dạng. Do đó, hình tiếp theo phải có 6 cạnh và là hình lục giác.

Ví dụ này một lần nữa kết hợp nhiều kỹ năng của Gemini. Google Play không chỉ nhận dạng các hình dạng mà còn hiểu rằng các hình dạng đó (mặc dù được vẽ thô sơ) là các hình dạng bị ràng buộc về mặt toán học riêng biệt với các thuộc tính cụ thể (ví dụ: 3 mặt, 4 mặt, 5 mặt).

Trên hết, sự hiện diện của dấu chấm hỏi không khiến Gemini bị nhầm lẫn trong việc diễn giải tiến trình logic của các hình dạng hình học. Thay vào đó, Gemini "thấy" rằng đây là một tiến trình toán học từ 3, 4 đến 5 và do đó, hình dạng cuối cùng sẽ là hình 6 mặt và đề xuất hình lục giác một cách phù hợp.

Diễn giải và hiểu biết thế giới

alt_text

Lựa chọn nào sau đây sẽ phù hợp hơn khi viết thư? Bạn nên làm khăn quàng cổ nào hơn?

Phản hồi từ Gemini:

Giấy tốt hơn để viết lên vì nó có bề mặt nhẵn và mực không bị tràn qua. Loại vải này sẽ phù hợp hơn để làm khăn quàng cổ, vì loại vải này mềm và sẽ giữ ấm bạn.

Ở đây, chúng ta đang sử dụng Gemini theo cách rất sáng tạo. AI không chỉ hiểu hình ảnh mà còn suy ra các thuộc tính và thể chất trong thế giới thực qua những gì nhìn thấy. Lý do này dựa trên sự hiểu biết trực quan về chất liệu của các đối tượng và cách chúng tương tác với các mục đích đã nêu trong câu lệnh.

Lời kết

Đây chỉ là một vài ví dụ về cách sử dụng lời nhắc đa phương thức. Với các LLM, bạn có thể sử dụng câu lệnh đa phương thức để không chỉ hiểu văn bản và hình ảnh, mà còn để hình thành ý tưởng mới hoặc trích xuất thông tin từ đó. Bạn nên thử nghiệm với nhiều loại lời nhắc đa phương thức để xem bạn có thể tạo những gì.