多模態文字和圖片提示

多模態提示是結合多種輸入類型格式的大型語言模型 (LLM) 提示類型。這裡採用的是文字或圖片等輸入內容支援多模態提示和 LLM,可支援圖片分類、手寫辨識、翻譯和其他創意情境等各種有趣的用途。

本文件主要說明在 Gemini 模型中輸入文字和圖片,並透過探索 8 個有趣的範例,接收純文字回應時可達到的提示類型。

什麼是多模態提示?

現在,Gemini 可搭配文字和/或圖片輸入內容,並傳回純文字回應。這些文字可用來提供圖片的背景資訊,也能用來要求模型執行作業,或產生與圖片相關的回應。

舉例來說,以下是多模態提示:

alt_text

「貓是什麼顏色?」

這段提示中的文字說明瞭圖片中有一隻貓,並且我們主要只對貓和貓的顏色,清楚說明圖片的背景資訊。

3 個簡單的多模態提示

以下是三個簡單的範例,說明如何向 LLM 提供圖片和文字,並接受純文字回應。並探討辨識圖片中特定實體類型的概念、在未經預先決定的情況下將圖片中的實體分類,最後是結合辨識與計算的例子。

分類

alt_text

「這張圖片含有貓嗎?並回應「是」或「否」。

Gemini 的回覆:

這個簡單的範例已簡單介紹 LLM 辨識圖片中是否有內容的能力,並以布林值回應開發人員。此方法非常適合用來偵測特定內容,以便篩選或其他用途。

值得注意的是,專屬的圖片辨識模型在執行特定任務時可能更有效率。不過,建立自訂機器學習模型需要時間和專業知識運用 Gemini 的解決方案能夠更快建構。因此,請務必比較不同模型之間可用的回應品質,然後依據這些優缺點做出取捨。

肯定

alt_text

「給我清單中列出的所有重要事物。」

Gemini 的回覆:

  1. Google 筆記本
  2. Google 筆
  3. 馬克杯

以上範例重點說明我們可以針對圖片內容的內容,向 LLM 提出開放問題。使用 Gemini 時,圖片分類程序不需要針對不同類型的物件 (例如書籍或馬克杯) 使用不同的模型。而是使用單一模型 透過單次傳遞來識別所有重要元素

計數

alt_text

"計算這張圖片中的貓數量。回覆時請只提供最終編號
只要回傳數字就好」

Gemini 的回覆:

3

在本例中,我們僅包含特定類型物件的要求,並指定要在相片中納入該物件。此外,我們也要求回應中僅包含純數字的回應。然而,視圖片中需要計算品質的物件數量而定。Gemini 是一般用途的多模態模型,精確度不侷限於小數值,因此可能有限。

5 個進階多模態提示

接下來,我們會逐步說明一些有趣的範例,這些更進階的方法可以運用文字和圖片輸入內容進行多模態提示。

文字辨識、推理與計算

alt_text

「我們今天總共賺了多少錢?請說明你的推辭原因。"

Gemini 的回覆:

你今天賺取的總金額為 $100 美元。

這是因為附註顯示 5 個日曆的銷售價格為 $20 美元。 5 x $20 美元 = $100 美元。

這個進階提示和圖片示範了 Gemini 的多項功能。首先是手寫辨識技術,AI 知道以英文撰寫的文字指的是要售出的行事曆數量和售價。此外,在我們的提示說明計算數字的概念時,AI 能夠識別 5 點記錄的標記法 (即 4 條垂直線和 1 條水平刪除線)。最後,我們提示指示 AI 如何逐步引導 AI 進而獲得 AI 計算收益的逐步解說

世界背景與理由

alt_text

「24 小時後,這張相片的拍攝時間是幾點。」

Gemini 的回覆:

19:30

這個範例突顯了模型辨識場景光線,以及從特定時間範圍內從圖像中推測時間資訊的能力。

解讀與創造力

alt_text

「撰寫關於這張相片的貼文。」

Gemini 的回覆:

湖邊的長椅

遠眺山巒起伏

捕捉片刻和平靜。

我們在這裡看到 Gemini 具備出色的敘事能力, 也能以更具創意的方式運用生成式 AI。以提供圖片做為起點,我們就能預料到 AI 要如何呈現故事情節,或者 AI 決定將圖片中的哪些特徵整合到故事中生成故事的純文字提示通常侷限於我們最初的想法,但實際的相片可做為 AI 思考過程的有效起點。

邏輯進展

alt_text

「接下來該怎麼做?說明你的推辭原因"

Gemini 的回覆:

三角形有 3 個面,正方形有 4 個邊,五邊形有 5 面。每個形狀的邊數會增加 1。因此,下一個形狀應有 6 面,也就是六邊形。

這個範例再次結合了 Gemini 的多個技能。它不僅可辨識形狀,也瞭解形狀雖然稍微繪製微小,是為了具有特定屬性的不同數學繫結形狀 (例如 3 個面、4 個面、5 個面)。

除此之外,問號在解讀幾何圖形的邏輯進度時,不會與 Gemini 的混淆。因此,Gemini 會「看到」這是從 3、4 到 5 的數學進度,因此最後一個形狀會是 6 面,然後合宜地提出六邊形的建議。

全球解釋與理解

alt_text

哪一種比較適合寫信? 哪一種做法比較適合轉換成圍巾?

Gemini 的回覆:

那張紙比較適合用於寫字,因為這樣紙上表面平滑,而且墨水不會流出。織布採用柔軟的軟質感,讓你送到圍巾的效果更好。

我們以創新的方式運用 Gemini,AI 不僅理解圖像,還會根據影像內容推測屬性和實際情況。原因是根據物件材質的視覺理解,以及物件與提示中所述目的互動的方式。

結語

以上僅列舉幾個模組提示的使用方式。透過 LLM,您可以採用多模態提示,這樣不僅能理解文字和圖片,還能激發新想法或擷取知識。建議您嘗試不同類型的多模態提示,看看可以創造什麼內容。