Мультимодальные текстовые и графические подсказки

Мультимодальные подсказки — это тип подсказок для больших языковых моделей (LLM), которые сочетают в себе несколько форматов типов ввода. Под форматами мы подразумеваем такие входные данные, как текст или изображения. Мультимодальные подсказки и поддерживающие их LLM позволяют реализовать множество интересных вариантов использования, включая классификацию изображений, распознавание рукописного текста, перевод и другие творческие сценарии.

В этом документе мы сосредоточимся на типах подсказок, которые можно получить при вводе текста и изображений в модель Gemini и получении только текстового ответа, рассмотрев 8 интересных примеров.

Что такое мультимодальная подсказка?

Сегодня Gemini теперь может получать запросы с текстом и/или изображением и возвращать только текстовый ответ. Текст можно использовать для предоставления контекста для изображения или для запроса модели на работу или генерации ответа об изображении.

Например, следующее мультимодальное приглашение:

alt_text

«Какого цвета кот?»

Текст в этом приглашении обеспечивает контекст изображения, поясняя, что на изображении есть кошка и что нас в основном интересует только кошка и ее цвет.

3 простых мультимодальных приглашения

Ниже приведены три очень простых примера предоставления изображения вместе с текстом в LLM и принятия только текстового ответа. Мы рассмотрим концепции распознавания типа объекта на изображении, классификации объектов на изображении без заранее определенных знаний и, наконец, пример сочетания распознавания с расчетом.

Классификация

alt_text

«Есть ли на этом изображении кот? Ответьте «правда» или «ложь».

Ответ от Близнецов:

Истинный

Это очень простой пример, который подчеркивает способность LLM распознавать наличие или отсутствие чего-либо в изображении и реагировать разработчику в логическом виде. Этот подход может быть полезен для обнаружения конкретного контента для фильтрации или других целей.

Стоит отметить, что специальные модели распознавания изображений потенциально могут быть более эффективными для решения очень специфических задач. Однако создание пользовательских моделей машинного обучения требует времени и опыта. Решения с использованием Gemini можно создавать быстрее. Поэтому важно сравнивать качество ответов, доступных для разных моделей, и принимать решения на основе этих компромиссов.

Признание

alt_text

«Дайте мне список всех важных вещей на этой картинке».

Ответ от Близнецов:

  1. Блокнот Google
  2. Гугл-ручка
  3. Кружка

Приведенный выше пример подчеркивает тот факт, что мы можем запросить у LLM открытый вопрос относительно содержимого, отображаемого на изображении. Используя Gemini, процесс классификации изображений не требует разных моделей для разных типов объектов (например, книг или кружек). Вместо этого, используя единую модель, мы определили все важные элементы за один проход.

Подсчет

alt_text

«Посчитайте количество кошек на этой картинке. Назовите мне в ответ только финальную цифру.
Только дайте мне номер»

Ответ от Близнецов:

3

В этом примере мы содержим запрос только к объекту определенного типа и указываем, что мы хотим, чтобы он учитывался на изображении. Кроме того, мы попросили, чтобы ответ содержал чисто числовой ответ в подсказке. Однако в зависимости от количества объектов на изображении, которые необходимо посчитать, качество может меняться. Поскольку Gemini представляет собой мультимодальную модель общего назначения, ее точность за пределами небольших чисел может быть ограничена.

5 продвинутых мультимодальных подсказок

Далее мы рассмотрим несколько интересных примеров более продвинутых способов использования мультимодальных подсказок с вводом текста и изображений.

Распознавание текста, рассуждение и расчет

alt_text

«Сколько всего денег мы заработали сегодня? Объясните свои рассуждения».

Ответ от Близнецов:

Общая сумма денег, заработанных сегодня, составляет 100 долларов.

Это потому, что в записке сказано, что 5 календарей были проданы по 20 долларов каждый. 5 х 20 долларов = 100 долларов.

Эта более продвинутая подсказка и изображение демонстрируют сразу несколько функций Gemini. Во-первых, это распознавание рукописного ввода: ИИ распознал, что текст, написанный на английском языке, относится к тому, сколько календарей было продано и по какой цене каждый из них был продан. Кроме того, благодаря нашему подсказке, указывающему на концепцию подсчета чисел, ИИ распознал обозначение подсчета в 5 пунктов (т. е. 4 вертикальные линии и одно горизонтальное перечеркивание). Наконец, благодаря нашему оперативному руководству ИИ на этапах расчета, мы можем получить пошаговое руководство о том, как ИИ рассчитал доход.

Мировой контекст и рассуждения

alt_text

«Какое время суток на этой картинке в 24-часовом формате?»

Ответ от Близнецов:

19:30

В этом примере подчеркивается способность модели распознавать освещение сцены и выводить временную информацию из изображений в течение определенного периода времени.

Интерпретация и творчество

alt_text

«Напишите хайку об этой фотографии».

Ответ от Близнецов:

Скамейка у озера,

Вид на горы за окном,

Момент покоя.

Здесь мы видим силу Близнецов в рассказывании историй и более творческих способах использования генеративного ИИ. Предоставляя изображение в качестве отправной точки, мы можем удивиться тому, как ИИ развивает сюжетную линию или какие особенности изображения ИИ решает интегрировать, в частности, в историю. Чисто текстовые подсказки для создания истории часто ограничиваются нашей собственной первоначальной идеей, но фотография реального мира может послужить мощной отправной точкой для мыслительного процесса ИИ.

Логическое развитие

alt_text

«Что будет дальше? Объясните свои рассуждения»

Ответ от Близнецов:

У треугольника 3 стороны, у квадрата 4 стороны, у пятиугольника 5 сторон. Количество сторон увеличивается на 1 для каждой фигуры. Следовательно, следующая фигура должна иметь 6 сторон, то есть шестиугольник.

Этот пример снова объединяет несколько навыков Близнецов. Он не только распознает формы, но и понимает, что фигуры, хотя и слегка грубо нарисованные, представляют собой отдельные математически связанные фигуры с определенными атрибутами (например, 3 стороны, 4 стороны, 5 сторон).

Кроме того, наличие вопросительного знака не смущает Близнецов в их интерпретации логической последовательности геометрических фигур. Вместо этого Близнецы «видят», что это математическая прогрессия от 3, 4 к 5 и что, следовательно, последняя форма будет 6-сторонней, и соответственно предлагает шестиугольник.

Интерпретация и понимание мира

alt_text

На каком из них лучше писать? Из чего лучше сделать шарф?

Ответ от Близнецов:

На бумаге лучше писать, потому что ее поверхность гладкая и чернила не просачиваются. Из этой ткани лучше сделать шарф, потому что она мягкая и согреет.

Здесь мы очень изобретательно используем Близнецов. ИИ не только понимает изображения, но и делает выводы об атрибутах и ​​физической реальности реального мира на основе того, что он видит. Рассуждение основано на визуальном понимании материалов предметов и того, как они взаимодействуют с целями, изложенными в подсказке.

Заключение

Это всего лишь несколько примеров того, как можно использовать мультимодальные подсказки. С помощью LLM вы можете использовать мультимодальные подсказки, чтобы не только понимать текст и изображения, но и формировать новые идеи или извлекать из них понимание. Мы рекомендуем вам поэкспериментировать с различными типами мультимодальных подсказок и посмотреть, что вы можете создать.