Prompt di testo e immagini multimodali

I prompt multimodali sono un tipo di prompt per modelli linguistici di grandi dimensioni (LLM) che combinano più formati di tipi di input. Per formato ci riferiamo a input come testo o immagini. I prompt multimodali e gli LLM che li supportano consentono una varietà di casi d'uso interessanti, tra cui classificazione delle immagini, riconoscimento della scrittura a mano libera, traduzione e altri scenari creativi.

In questo documento ci concentreremo sui tipi di prompt che si possono ottenere quando si inseriscono testo e immagini nel modello Gemini e si ricevono una risposta di solo testo esplorando otto esempi interessanti.

Cos'è un prompt multimodale?

Attualmente, Gemini può essere richiesto con una combinazione di input di testo e/o immagini e restituire una risposta di solo testo. Il testo può essere utilizzato per fornire contesto per l'immagine oppure per richiedere al modello di operare o generare una risposta sull'immagine.

Ad esempio, quello che segue è un prompt multimodale:

alt_text

"Di che colore è il gatto?"

Il testo in questo prompt fornisce un contesto per l'immagine chiariscendo che nell'immagine c'è un gatto e che ci interessano principalmente solo il gatto e il suo colore.

3 semplici prompt multimodali

Di seguito sono riportati tre esempi molto semplici di fornire un'immagine insieme a testo a un LLM e accettare una risposta di solo testo. Esploreremo i concetti di riconoscimento di un tipo di entità in un'immagine, classificando le entità in un'immagine senza conoscenze predeterminate e infine un esempio di combinazione di riconoscimento e calcolo.

Classificazione

alt_text

"Questa immagine contiene un gatto? Rispondi con true o false."

Risposta da Gemini:

Vero

Questo è un esempio molto semplice che evidenzia la capacità dell'LLM di riconoscere l'esistenza di qualcosa in un'immagine o meno e di rispondere allo sviluppatore in modo booleano. Questo approccio può essere utile per rilevare contenuti specifici a scopo di filtro o per altri scopi.

Vale la pena notare che i modelli dedicati di riconoscimento delle immagini possono essere potenziali più efficaci in attività molto specifiche. Tuttavia, la creazione di modelli ML personalizzati richiede tempo e competenza. Le soluzioni che utilizzano Gemini possono essere create più rapidamente. È quindi importante confrontare la qualità delle risposte disponibili tra i diversi modelli e decidere in base a questi compromessi.

Riconoscimento

alt_text

"Dimmi un elenco di tutte le cose importanti in questa foto."

Risposta da Gemini:

  1. Un blocco note Google
  2. Una penna Google
  3. Una tazza

L'esempio sopra evidenzia il fatto che possiamo richiedere una domanda aperta all'LLM sui contenuti visualizzati nell'immagine. Con Gemini, il processo di classificazione delle immagini non richiede modelli diversi per tipi diversi di oggetti (ad es. libri o tazze). Invece, usando un solo modello, abbiamo identificato tutti gli elementi significativi in un unico passaggio.

Conteggio

alt_text

"Conta il numero di gatti in questa foto. Dimmi solo il numero finale nella risposta.
Restituiscimi solo un numero"

Risposta da Gemini:

3

In questo esempio, conteniamo la richiesta solo a un oggetto di tipo particolare e specifichiamo che vogliamo che venga conteggiata nell'immagine. Inoltre, abbiamo chiesto che la risposta sia contenuta in una risposta numerica pura nel prompt. Tuttavia, a seconda del numero di oggetti nell'immagine da conteggiare, la qualità può variare. Poiché Gemini è un modello multimodale per uso generico, la precisione oltre ai numeri piccoli può essere limitata.

5 prompt multimodali avanzati

Quindi, vedremo alcuni esempi interessanti di modi più avanzati per utilizzare prompt multimodali con input di testo e immagini.

Riconoscimento del testo, ragionamento e calcolo

alt_text

"Quanto abbiamo guadagnato oggi in totale? Spiega il tuo ragionamento."

Risposta da Gemini:

L'importo totale delle entrate realizzate oggi è pari a 100 €.

Questo perché la nota dice che sono stati venduti 5 calendari a $20 ciascuno. 5 x 20 $= 100 $.

Questo prompt e questa immagine più avanzati dimostrano contemporaneamente diverse funzionalità di Gemini. Il primo è il riconoscimento della scrittura a mano libera, e l'IA ha riconosciuto che il testo scritto in inglese si riferiva al numero di calendari venduti e al prezzo di vendita di ciascuno. Inoltre, con il nostro prompt che indica il concetto di conteggio dei numeri, l'IA ha riconosciuto la notazione per un conteggio di 5 punti (ovvero 4 linee verticali e una singola barra orizzontale). Infine, con la nostra richiesta che guida l'IA nei vari passaggi di calcolo, possiamo ottenere una procedura dettagliata su come l'IA ha calcolato le entrate.

Contesto e ragionamento mondiale

alt_text

"A che ora del giorno è in questa foto tra 24 ore."

Risposta da Gemini:

19:30

Questo esempio evidenzia la capacità del modello di riconoscere l'illuminazione di una scena e dedurre informazioni temporali dalle immagini entro un determinato periodo di tempo.

Interpretazione e creatività

alt_text

"Scrivi un haiku su questa foto."

Risposta da Gemini:

Una panchina in riva al lago,

Una vista sulle montagne oltre,

Un momento di tranquillità.

Vediamo l'efficacia di Gemini nello storytelling e nei modi più creativi di usare l'IA generativa. Fornendo un'immagine come punto di partenza, possiamo sorprenderci con i punti in cui l'IA prende la trama o con quali caratteristiche dell'immagine decide di integrare in particolare nella storia. I prompt di puro testo per la generazione di storie spesso sono limitati alla nostra idea iniziale, ma una foto del mondo reale può fungere da punto di partenza efficace per il processo di pensiero dell'IA.

Progressione logica

alt_text

"E adesso? Spiega il tuo ragionamento."

Risposta da Gemini:

Il triangolo ha 3 lati, il quadrato ha 4 lati e il pentagono ha 5 lati. Il numero di lati aumenta di 1 per ogni forma. Pertanto, la forma successiva dovrebbe avere 6 lati, che corrispondono a un esagono.

Questo esempio combina ancora una volta più abilità di Gemini. Non solo riconosce le forme, ma capisce che queste, sebbene disegnate leggermente in modo rozzo, sono da intendersi come forme distinte associate in modo matematico con attributi specifici (ad es. 3 lati, 4 lati, 5 lati).

Inoltre, la presenza del punto interrogativo non confonde Gemini nella sua interpretazione della progressione logica delle forme geometriche. Gemelli "vede" invece che si tratta di una progressione matematica da 3, 4 a 5 e che quindi l'ultima forma sarebbe a 6 lati e propone appropriatamente un esagono.

Interpretazione e comprensione del mondo

alt_text

Su quali di queste campagne sarebbe meglio scrivere? Quale sarebbe la soluzione migliore per trasformarsi in una sciarpa?

Risposta da Gemini:

La carta sarebbe più adatta per scrivere perché ha una superficie liscia e l'inchiostro non macchia. Il tessuto è più adatto per trasformarsi in una sciarpa, perché è morbido e ti terrà caldo.

Qui stiamo sfruttando Gemini in modo molto innovativo. L'IA non solo comprende le immagini, ma deduce attributi e fisicità del mondo reale da ciò che vede. Il ragionamento si basa sulla comprensione visiva dei materiali degli oggetti e su come questi interagiscono con gli scopi descritti nel prompt.

Conclusione

Questi sono solo alcuni esempi di come è possibile utilizzare i prompt multimodali. Con gli LLM, puoi utilizzare i prompt multimodali non solo per comprendere testi e immagini, ma anche per formare nuove idee o per estrarne la comprensione. Ti invitiamo a sperimentare diversi tipi di prompt multimodali e a vedere cosa puoi creare.