Comandos multimodais de texto e imagem

Os prompts multimodais são um tipo de comandos para modelos de linguagem grande (LLMs) que combinam vários formatos de tipo de entrada. Por formatos, nos referimos a entradas como texto ou imagens. Comandos multimodais e LLMs compatíveis, você pode usar diversos casos de uso interessantes, como classificação de imagens, reconhecimento de escrita manual, tradução e outros cenários criativos.

Neste documento, vamos nos concentrar nos tipos de comandos que podem ser realizados ao inserir texto e imagem no modelo do Gemini e receber uma resposta somente de texto com oito exemplos interessantes.

O que é um comando multimodal?

Atualmente, o Gemini agora pode receber uma combinação de entrada de texto e/ou imagem e retornar uma resposta somente de texto. O texto pode ser usado para fornecer contexto para a imagem ou para solicitar que o modelo opere ou gere uma resposta sobre a imagem.

Por exemplo, o comando a seguir é multimodal:

alt_text

"Qual é a cor do gato?"

O texto do comando fornece contexto para a imagem, esclarecendo que há um gato na imagem e que estamos interessados principalmente no gato e na cor dele.

Três comandos multimodais simples

Confira a seguir três exemplos muito simples de fornecer uma imagem com texto para um LLM e aceitar uma resposta somente texto. Vamos explorar os conceitos de reconhecimento de um tipo de entidade em uma imagem, classificar entidades em uma imagem sem conhecimento predeterminado e, por fim, apresentar um exemplo de combinação de reconhecimento com cálculo.

Classificação

alt_text

"Esta imagem contém um gato? Responda com "true" ou "false".

Resposta do Gemini:

Verdadeiro

Este é um exemplo muito simples que destaca a capacidade do LLM de reconhecer a existência de algo em uma imagem e responder ao desenvolvedor de maneira booleana. Essa abordagem pode ser útil na detecção de conteúdo específico para filtragem ou outros fins.

Os modelos dedicados de reconhecimento de imagem podem ser mais eficazes em tarefas muito específicas. No entanto, criar modelos de ML personalizados exige tempo e experiência. Soluções que usam o Gemini podem ser criadas mais rapidamente. Portanto, é importante comparar a qualidade das respostas disponíveis entre diferentes modelos e decidir com base nessas compensações.

Reconhecimento

alt_text

"Forneça uma lista de todos os itens importantes dessa foto."

Resposta do Gemini:

  1. Um notebook do Google
  2. Uma caneta do Google
  3. Uma caneca

O exemplo acima destaca o fato de que podemos solicitar uma pergunta aberta ao LLM sobre o conteúdo exibido na imagem. Com o Gemini, o processo de classificação de imagens não requer modelos diferentes para tipos distintos de objetos, como livros ou canecas. Em vez disso, usando um único modelo, identificamos todos os elementos importantes em uma única transmissão.

Cálculos

alt_text

"Conte o número de gatos nesta imagem. Diga apenas o último número na resposta.
Só devolva um número"

Resposta do Gemini:

3

Neste exemplo, contém a solicitação apenas para um objeto de tipo específico e especificamos que queremos que ela seja contada na imagem. Além disso, pedimos que a resposta fosse contida em uma resposta numérica pura no comando. No entanto, dependendo do número de objetos que precisam ser contados na imagem, a qualidade pode variar. Como o Gemini é um modelo multimodal de uso geral, a precisão além de números pequenos pode ser limitada.

5 comandos multimodais avançados

Em seguida, veremos alguns exemplos interessantes de maneiras mais avançadas de usar comandos multimodais com entrada de texto e imagem.

Reconhecimento de texto, raciocínio e cálculo

alt_text

"Quanto ganhamos hoje no total? Explique seu raciocínio."

Resposta do Gemini:

O valor total gerado hoje é de US $100.

Isso porque a nota diz que cinco agendas foram vendidas a US $20 cada. 5 x US $20 = US $100.

Este comando e imagem mais avançados demonstram vários recursos do Gemini de uma vez. O primeiro é o reconhecimento de escrita manual, a IA reconheceu que o texto escrito em inglês se refere a quantas agendas foram vendidas e a que preço cada uma era vendida. Além disso, com o comando indicando o conceito de cálculo de números, a IA reconheceu a notação de cinco pontos, ou seja, quatro linhas verticais e um único tachado horizontal. Por fim, com nosso comando orientando a IA durante as etapas de cálculo, podemos receber um tutorial de como a IA calculou a receita.

Contexto e raciocínio do mundo

alt_text

"Que hora do dia é esta nesta imagem em formato de 24 horas."

Resposta do Gemini:

19:30

Neste exemplo, destacamos a capacidade do modelo de reconhecer a iluminação de uma cena e deduzir informações temporais das imagens dentro de um determinado período.

Interpretação e criatividade

alt_text

"Escreva um haicai sobre esta foto."

Resposta do Gemini:

Um banco à beira do lago,

Uma vista das montanhas além,

Um momento de paz.

Aqui vemos o poder do Gemini para contar histórias e maneiras mais criativas de usar a IA generativa. Ao apresentar uma imagem como ponto de partida, podemos nos surpreender com onde a IA leva o enredo ou quais recursos da imagem a IA decide integrar especificamente à história. A criação de prompts de texto puro costuma ser limitada à nossa ideia inicial, mas uma foto do mundo real pode servir como um ponto de partida poderoso para o processo de pensamento da IA.

Progressão lógica

alt_text

"O que vem depois? Explique seu raciocínio"

Resposta do Gemini:

O triângulo tem três lados, o quadrado tem quatro lados e o pentágono tem cinco lados. O número de lados aumenta em 1 para cada forma. Portanto, a próxima forma precisa ter seis lados, que é um hexágono.

Este exemplo combina novamente várias habilidades do Gemini. Ele não apenas reconhece as formas, mas também entende que elas, embora desenhadas ligeiramente grosseiras, têm o objetivo de serem formas distintas vinculadas matematicamente com atributos específicos (por exemplo, 3 lados, 4 lados, 5 lados).

Além disso, a presença do ponto de interrogação não confunde o Gemini na interpretação da progressão lógica das formas geométricas. Em vez disso, Gemini "vê" que essa é uma progressão matemática de 3, 4 a 5 e que, portanto, a última forma teria seis lados e propõe um hexágono adequadamente.

Interpretação e compreensão do mundo

alt_text

Qual destas opções seria melhor para escrever? Qual seria melhor para ser usada em um cachecol?

Resposta do Gemini:

O papel seria melhor para escrever nele porque é uma superfície lisa e a tinta não vaza. O tecido seria melhor para ser usado em um cachecol porque é macio e mantém você aquecido.

Aqui, estamos usando o Gemini de uma maneira muito criativa. A IA não apenas entende as imagens, mas também infere atributos e elementos físicos do mundo real a partir do que vê. O raciocínio é baseado na compreensão visual dos materiais dos objetos e em como eles interagem com as finalidades descritas no comando.

Conclusão

Esses são apenas alguns exemplos de como os comandos multimodais podem ser usados. Com os LLMs, é possível usar comandos multimodais não apenas para entender textos e imagens, mas para formar novas ideias ou extrair compreensão delas. Recomendamos que você teste diferentes tipos de comandos multimodais e veja o que pode criar.