テキストと画像のマルチモーダル プロンプト

マルチモーダル プロンプトは、複数の入力タイプ形式を組み合わせた大規模言語モデル(LLM)向けのプロンプトの一種です。形式とは、テキストや画像などの入力を指しますマルチモーダル プロンプトとそれをサポートする LLM により、画像分類、手書き認識、翻訳、その他のクリエイティブなシナリオなど、さまざまな興味深いユースケースを実現できます。

このドキュメントでは、8 つの興味深い例を見ながら、Gemini モデルにテキストと画像を入力し、テキストのみのレスポンスを受け取るときに実現できるプロンプトの種類に焦点を当てます。

マルチモーダル プロンプトとは

現在 Gemini では、テキストと画像を組み合わせてプロンプトを表示し、テキストのみのレスポンスを返すことができます。テキストは、画像にコンテキストを提供するために使用できます。また、モデルに処理をリクエストしたり、画像に関するレスポンスを生成したりするためにも使用できます。

たとえば、マルチモーダル プロンプトは次のようになります。

alt_text

「猫は何色?」

このプロンプトのテキストは、画像に猫が写っていること、主に猫のみと猫の色に関心を持っていることを明確にすることで、画像のコンテキストを提供します。

3 つのシンプルなマルチモーダル プロンプト

以下に、LLM に画像とともにテキストを提供し、テキストのみの回答を受け入れる簡単な 3 つの例を示します。画像内のエンティティの種類を認識するコンセプト、事前に定められた知識なしで画像内のエンティティを分類するコンセプト、最後に認識と計算を組み合わせる例を確認します。

分類

alt_text

「この画像には猫が含まれていますか?正しいか誤りかを答えてください。」

Gemini からの回答:

True

これは、画像に何かが存在するかどうかを認識し、デベロッパーにブール値で応答する LLM の能力を強調する非常にシンプルな例です。このアプローチは、フィルタリングやその他の目的で特定のコンテンツを検出する場合に便利です。

専用の画像認識モデルを使用すると、非常に具体的なタスクでより効率的に処理できる可能性があることは注目に値します。ただし カスタム ML モデルの作成には 時間と専門知識が必要ですGemini を使用するソリューションは、より迅速に構築できます。したがって、異なるモデル間で利用可能なレスポンスの品質を比較し、これらのトレードオフに基づいて決定することが重要です。

認識

alt_text

「この写真に写っている重要なものをすべてリストアップしてください。」

Gemini からの回答:

  1. Google ノートブック
  2. Google のペン
  3. マグカップ

上記の例では、画像に表示されているコンテンツに関する自由回答の質問を LLM にリクエストできる事実が強調されています。Gemini を使用すると、画像分類プロセスでオブジェクトの種類(本やマグカップなど)ごとに異なるモデルを使用する必要はありません。代わりに、単一のモデルを使用して、1 つのパスで重要な要素をすべて特定しました。

カウント

alt_text

「この写真の猫の数を数えます。回答の最後の数字だけ教えて
電話番号のみ教えて」

Gemini からの回答:

3

この例では、特定のタイプのオブジェクトに対するリクエストのみを含み、それを画像でカウントするように指定しています。さらに、レスポンスをプロンプト内の純粋な数値レスポンスに含めるようにお願いしました。ただし、カウントする必要がある画像内のオブジェクトの数によっては、品質が異なる場合があります。Gemini は汎用マルチモーダル モデルであるため、数値が小さいと精度が制限される場合があります。

5 つの高度なマルチモーダル プロンプト

次に、テキスト入力と画像入力を使用したマルチモーダル プロンプトのより高度な活用方法の興味深い例をいくつか紹介します。

テキスト認識、推論、計算

alt_text

「今日、総収益はいくらだった?」根拠を説明してください。」

Gemini からの回答:

本日の総収益は 100 ドルです。

これは、5 つのカレンダーが 1 個 20 ドルで販売されていたと書いてあるからです。 5 × $20 = $100 となります。

この高度なプロンプトと画像は、Gemini のいくつかの機能を一度に示します。1 つ目は手書き認識です。AI は、英語で書かれたテキストが、カレンダーの販売数と販売価格に言及していることを認識しました。さらに、プロンプトが数値を集計する概念を示しているため、AI は 5 点集計の表記(つまり、4 本の垂直線と 1 本の水平の取り消し線)を認識しました。最後に、プロンプトに沿って AI に計算の手順を案内し、AI がどのように収益を算出したかについてのチュートリアルを受け取ることができます。

世界のコンテキストと推論

alt_text

「この写真の 24 時間表示で、何時?」

Gemini からの回答:

19:30

この例では、モデルのシーンの照明を認識し、特定の期間内の画像から時間情報を推測する機能を強調しています。

解釈と創造性

alt_text

「この写真について俳句を書いて」

Gemini からの回答:

湖のそばのベンチ

向こうの山々の眺め

安らかなひととき。

ここでは、Gemini のストーリーテリングと生成 AI のより創造的な使用方法を確認できます。画像を出発点として提供することで、AI がどこをストーリーラインに収めるかや、画像のどの機能を AI が特にストーリーに統合するかを想像できます。ストーリー生成のための純粋なテキスト プロンプトは、多くの場合、Google 独自の最初のアイデアに限定されますが、現実世界の写真は、AI の思考プロセスの強力な出発点として役立ちます。

論理的進行

alt_text

「次のステップは?その理由を説明してください」

Gemini からの回答:

三角形には 3 つの辺、正方形には 4 つの辺、五角形には 5 つの辺があります。図形ごとに面の数が 1 ずつ増えます。したがって、次のシェイプには 6 つの辺(六角形)があります。

この例も、Gemini の複数のスキルを組み合わせたものです。図形を認識するだけでなく、図形は若干粗く描画されていますが、特定の属性(3 辺、4 辺、5 辺など)を持つ、数学的にバインドされた個別の図形となることを意図しています。

さらに、疑問符の存在は、幾何学的形状の論理的な進行の解釈において Gemini を混同することはありません。代わりに、Gemini は、これが 3、4、5 を数学的に進んだものだと「認識」します。したがって、最後の形状は 6 辺であり、六角形がぴったりと提案されます。

世界の解釈と理解

alt_text

書き込みを行うのに適しているのは、次のうちどれですか。 スカーフにするには、どちらがよいでしょうか?

Gemini からの回答:

紙は表面が滑らかでインクに染み込まないため、書き込みには適しています。ファブリックは柔らかく暖かいので スカーフを作るには適しています

ここでは、非常に独創的な方法で Gemini を活用しています。AI は画像を理解するだけでなく、目にしたものから属性や現実世界の物理的性質を推測します。この推論は、オブジェクトのマテリアルの視覚的な理解と、プロンプトに記述された目的とそれらがどのように相互作用するかに基づいています。

まとめ

これらは、マルチモーダル プロンプトの使用方法のほんの一例です。LLM では、マルチモーダル プロンプトを使用して、テキストや画像を理解するだけでなく、新しいアイデアを形成したり、そこから理解を引き出したりできます。さまざまな種類のマルチモーダル プロンプトを試して、何を作成できるか確認することをおすすめします。