Multimodalne prompty tekstowe i graficzne

Prompty wielomodalne to typ promptów przeznaczonych dla dużych modeli językowych (LLM), które łączą różne formaty danych wejściowych. W formatach używamy danych wejściowych, np. tekstu lub obrazów. Wielomodalne prompty i LLM, które je obsługują, umożliwiają różne ciekawe przypadki użycia, w tym klasyfikację obrazów, rozpoznawanie pisma odręcznego, tłumaczenie i inne scenariusze twórcze.

W tym dokumencie skupimy się na typach promptów, które można uzyskać podczas wpisywania tekstu i obrazu w modelu Gemini oraz otrzymywania odpowiedzi tekstowej. Przedstawimy 8 ciekawych przykładów.

Czym jest prompt multimodalny?

Obecnie Gemini może zawierać zarówno wpisanie tekstu, jak i obrazu, a także zwraca odpowiedź tekstową. Tekst ten może posłużyć do określenia kontekstu obrazu lub do wysłania żądania, aby model działał, albo wygenerowania odpowiedzi dotyczącej obrazu.

Oto przykładowy prompt wielomodalny:

alt_text

„Jakiego koloru jest kot?”

Tekst w tym promptie określa kontekst obrazu, wyjaśniając, że na zdjęciu widać kota i że interesuje nas tylko kot oraz kolor kota.

3 proste multimodalne prompty

Oto 3 bardzo proste przykłady przesłania do LLM obrazu wraz z tekstem i akceptowania odpowiedzi tylko tekstowej. Zajmiemy się koncepcjami rozpoznawania rodzaju jednostek na obrazie, klasyfikowania elementów na obrazie bez z góry ustalonej wiedzy, a na koniec przykładem łączenia rozpoznawania z obliczeniami.

Klasyfikacja

alt_text

„Czy na tym obrazie widać kota? Odpowiedz „prawda” lub „fałsz”.

Odpowiedź Gemini:

Prawda

To bardzo prosty przykład, który pokazuje zdolność LLM do rozpoznawania istnienia czegoś w obrazie lub nie, i odpowiadania deweloperowi w sposób logiczny. Ta metoda może być przydatna do wykrywania określonych treści na potrzeby filtrowania i innych celów.

Warto zauważyć, że specjalne modele rozpoznawania obrazów mogą być potencjalnie skuteczniejsze w bardzo konkretnych zadaniach. Tworzenie niestandardowych modeli ML wymaga jednak czasu i wiedzy. Rozwiązania korzystające z Gemini można tworzyć szybciej. Dlatego ważne jest porównanie jakości odpowiedzi dostępnych w przypadku różnych modeli i podjęcie decyzji na ich podstawie.

Uznanie

alt_text

„Podaj mi listę wszystkich ważnych elementów na tym zdjęciu”.

Odpowiedź Gemini:

  1. Notatnik Google
  2. Długopis Google
  3. Kubek

Powyższy przykład ilustruje fakt, że możemy poprosić do LLM o otwarte pytanie na temat treści widocznej na obrazie. Dzięki Gemini proces klasyfikacji obrazów nie wymaga różnych modeli dla różnych typów obiektów (np. książek czy kubków). Zamiast tego w 1 modelu zidentyfikowaliśmy wszystkie istotne elementy w jednym przebiegu.

Liczenie

alt_text

„Policz liczbę kotów na zdjęciu. Podaj mi tylko ostatnią liczbę w odpowiedzi.
Proszę o podanie tylko numeru”

Odpowiedź Gemini:

3

W tym przykładzie znajdujemy żądanie tylko określonego typu obiektu i wskazujemy, że ma ono być zliczane na obrazie. Ponadto poprosiliśmy, aby odpowiedź była zawarta w prompcie czysto liczbowo. Jednak w zależności od liczby obiektów na obrazie, które mają zostać policzone, jakość może się różnić. Gemini to multimodalny model ogólnego przeznaczenia, więc jego dokładność wykraczająca poza małe wartości może być ograniczona.

5 zaawansowanych promptów multimodalnych

W następnej kolejności omówimy kilka interesujących sposobów wykorzystania multimodalnych promptów z tekstem i obrazem.

Rozpoznawanie tekstu, uzasadnienie i obliczenia

alt_text

„Ile łącznie zarobiliśmy dzisiaj? Wyjaśnij swoje rozumowanie”.

Odpowiedź Gemini:

Łączna suma zarobionych dziś pieniędzy wynosi 100 USD.

Wynika to z faktu, że 5 kalendarzy zostało sprzedanych po 20 USD. 5 x 20 zł = 100 zł.

Ten bardziej zaawansowany prompt i obraz przedstawia jednocześnie kilka funkcji Gemini. Po pierwsze, AI zauważyła, że tekst napisany w języku angielskim odnosi się do liczby sprzedanych kalendarzy i ceny każdego z nich. Dodatkowo, ponieważ komunikat wskazał na koncepcję zliczania liczb, AI rozpoznawała zapis 5-punktowy (czyli 4 linie pionowe i 1 przekreślenie poziome). Dzięki podpowiedziom, które wskazują AI przez kolejne etapy obliczeń, możemy zobaczyć, jak AI oblicza przychody.

Kontekst i rozumowanie na świecie

alt_text

„O której godzinie jest to zdjęcie za 24 godziny?”

Odpowiedź Gemini:

19:30

Ten przykład pokazuje zdolność modelu do rozpoznawania oświetlenia w scenie i określania informacji o czasie na podstawie zdjęć w określonym przedziale czasu.

Interpretacja i kreatywność

alt_text

„Napisz haiku o tym zdjęciu”.

Odpowiedź Gemini:

Ławka nad jeziorem.

Widok na góry,

Chwila spokoju.

Widać tu potencjał Gemini, a także bardziej kreatywne sposoby korzystania z generatywnej AI. Dostarczając obrazu jako punktu wyjścia, możemy zaskoczyć nas, gdzie sztuczna inteligencja przenosi fabułę lub jakie funkcje z obrazu postanawia zastosować w szczególności w historii. Czysty tekst, który zachęca do generowania historii, jest często ograniczony do naszych wstępnych pomysłów, ale rzeczywiste zdjęcie może być ważnym punktem wyjścia dla procesu myślowego AI.

Postęp logiczny

alt_text

„Co dalej? Wyjaśnij swoje rozumowanie”

Odpowiedź Gemini:

Trójkąt ma 3 boki, kwadrat ma 4 boki, a pięciokąt – 5 boków. Liczba boków zwiększa się o 1 dla każdego kształtu. Zatem następny kształt powinien mieć 6 boków, co jest sześciokątem.

W tym przykładzie po raz kolejny łączy w sobie wiele umiejętności Gemini. Nie tylko rozpoznaje kształty, ale także rozumie, że kształty, choć nieco ordynarne, mają być odrębnymi, powiązanymi matematycznie kształtami o określonych atrybutach (np. 3 strony, 4 boki, 5 boków).

Co więcej, obecność znaku zapytania nie powoduje dezorientacji Gemini w interpretacji logicznego postępu kształtów geometrycznych. Gemini „widzi” natomiast, że jest to matematyczne przejście od 3, 4 do 5, więc ostatni kształt będzie sześciostronny i spójnie proponuje sześciokąt.

Interpretacja świata

alt_text

Do których z tych materiałów lepiej pisać? Z czego lepiej zrobić szalik?

Odpowiedź Gemini:

Papier lepiej nadaje się do pisania, bo jest gładką powierzchnią, a przez to nie będzie przebijać tuszu. Na szaliku lepiej sprawdzi się tkanina, która jest miękka, i zatrzyma ciepło.

Wprowadzamy tu rozwiązanie Gemini w bardzo pomysłowy sposób. Sztuczna inteligencja nie tylko rozumie obrazy, ale także określa ich cechy i fizykę na podstawie tego, co widzi. Rozumowanie opiera się na wizualnym zrozumieniu materiałów obiektów i sposobie ich interakcji z celami określonymi w prompcie.

Podsumowanie

To tylko kilka przykładów sposobów wykorzystania promptów multimodalnych. Dzięki LLM możesz korzystać z multimodalnych promptów nie tylko do rozumienia tekstu i obrazów, ale też do tworzenia nowych pomysłów i wyciągania z nich wniosków. Zachęcamy do eksperymentowania z różnymi typami multimodalnych promptów i sprawdzaniu, co uda Ci się utworzyć.