Prompty wielomodalne to typ promptów przeznaczonych dla dużych modeli językowych (LLM), które łączą różne formaty danych wejściowych. W formatach używamy danych wejściowych, np. tekstu lub obrazów. Wielomodalne prompty i LLM, które je obsługują, umożliwiają różne ciekawe przypadki użycia, w tym klasyfikację obrazów, rozpoznawanie pisma odręcznego, tłumaczenie i inne scenariusze twórcze.
W tym dokumencie skupimy się na typach promptów, które można uzyskać podczas wpisywania tekstu i obrazu w modelu Gemini oraz otrzymywania odpowiedzi tekstowej. Przedstawimy 8 ciekawych przykładów.
Czym jest prompt multimodalny?
Obecnie Gemini może zawierać zarówno wpisanie tekstu, jak i obrazu, a także zwraca odpowiedź tekstową. Tekst ten może posłużyć do określenia kontekstu obrazu lub do wysłania żądania, aby model działał, albo wygenerowania odpowiedzi dotyczącej obrazu.
Oto przykładowy prompt wielomodalny:
„Jakiego koloru jest kot?”
Tekst w tym promptie określa kontekst obrazu, wyjaśniając, że na zdjęciu widać kota i że interesuje nas tylko kot oraz kolor kota.
3 proste multimodalne prompty
Oto 3 bardzo proste przykłady przesłania do LLM obrazu wraz z tekstem i akceptowania odpowiedzi tylko tekstowej. Zajmiemy się koncepcjami rozpoznawania rodzaju jednostek na obrazie, klasyfikowania elementów na obrazie bez z góry ustalonej wiedzy, a na koniec przykładem łączenia rozpoznawania z obliczeniami.
Klasyfikacja
„Czy na tym obrazie widać kota? Odpowiedz „prawda” lub „fałsz”.
Odpowiedź Gemini:
Prawda
To bardzo prosty przykład, który pokazuje zdolność LLM do rozpoznawania istnienia czegoś w obrazie lub nie, i odpowiadania deweloperowi w sposób logiczny. Ta metoda może być przydatna do wykrywania określonych treści na potrzeby filtrowania i innych celów.
Warto zauważyć, że specjalne modele rozpoznawania obrazów mogą być potencjalnie skuteczniejsze w bardzo konkretnych zadaniach. Tworzenie niestandardowych modeli ML wymaga jednak czasu i wiedzy. Rozwiązania korzystające z Gemini można tworzyć szybciej. Dlatego ważne jest porównanie jakości odpowiedzi dostępnych w przypadku różnych modeli i podjęcie decyzji na ich podstawie.
Uznanie
„Podaj mi listę wszystkich ważnych elementów na tym zdjęciu”.
Odpowiedź Gemini:
- Notatnik Google
- Długopis Google
- Kubek
Powyższy przykład ilustruje fakt, że możemy poprosić do LLM o otwarte pytanie na temat treści widocznej na obrazie. Dzięki Gemini proces klasyfikacji obrazów nie wymaga różnych modeli dla różnych typów obiektów (np. książek czy kubków). Zamiast tego w 1 modelu zidentyfikowaliśmy wszystkie istotne elementy w jednym przebiegu.
Liczenie
„Policz liczbę kotów na zdjęciu. Podaj mi tylko
ostatnią liczbę w odpowiedzi.
Proszę o podanie tylko numeru”
Odpowiedź Gemini:
3
W tym przykładzie znajdujemy żądanie tylko określonego typu obiektu i wskazujemy, że ma ono być zliczane na obrazie. Ponadto poprosiliśmy, aby odpowiedź była zawarta w prompcie czysto liczbowo. Jednak w zależności od liczby obiektów na obrazie, które mają zostać policzone, jakość może się różnić. Gemini to multimodalny model ogólnego przeznaczenia, więc jego dokładność wykraczająca poza małe wartości może być ograniczona.
5 zaawansowanych promptów multimodalnych
W następnej kolejności omówimy kilka interesujących sposobów wykorzystania multimodalnych promptów z tekstem i obrazem.
Rozpoznawanie tekstu, uzasadnienie i obliczenia
„Ile łącznie zarobiliśmy dzisiaj? Wyjaśnij swoje rozumowanie”.
Odpowiedź Gemini:
Łączna suma zarobionych dziś pieniędzy wynosi 100 USD.
Wynika to z faktu, że 5 kalendarzy zostało sprzedanych po 20 USD. 5 x 20 zł = 100 zł.
Ten bardziej zaawansowany prompt i obraz przedstawia jednocześnie kilka funkcji Gemini. Po pierwsze, AI zauważyła, że tekst napisany w języku angielskim odnosi się do liczby sprzedanych kalendarzy i ceny każdego z nich. Dodatkowo, ponieważ komunikat wskazał na koncepcję zliczania liczb, AI rozpoznawała zapis 5-punktowy (czyli 4 linie pionowe i 1 przekreślenie poziome). Dzięki podpowiedziom, które wskazują AI przez kolejne etapy obliczeń, możemy zobaczyć, jak AI oblicza przychody.
Kontekst i rozumowanie na świecie
„O której godzinie jest to zdjęcie za 24 godziny?”
Odpowiedź Gemini:
19:30
Ten przykład pokazuje zdolność modelu do rozpoznawania oświetlenia w scenie i określania informacji o czasie na podstawie zdjęć w określonym przedziale czasu.
Interpretacja i kreatywność
„Napisz haiku o tym zdjęciu”.
Odpowiedź Gemini:
Ławka nad jeziorem.
Widok na góry,
Chwila spokoju.
Widać tu potencjał Gemini, a także bardziej kreatywne sposoby korzystania z generatywnej AI. Dostarczając obrazu jako punktu wyjścia, możemy zaskoczyć nas, gdzie sztuczna inteligencja przenosi fabułę lub jakie funkcje z obrazu postanawia zastosować w szczególności w historii. Czysty tekst, który zachęca do generowania historii, jest często ograniczony do naszych wstępnych pomysłów, ale rzeczywiste zdjęcie może być ważnym punktem wyjścia dla procesu myślowego AI.
Postęp logiczny
„Co dalej? Wyjaśnij swoje rozumowanie”
Odpowiedź Gemini:
Trójkąt ma 3 boki, kwadrat ma 4 boki, a pięciokąt – 5 boków. Liczba boków zwiększa się o 1 dla każdego kształtu. Zatem następny kształt powinien mieć 6 boków, co jest sześciokątem.
W tym przykładzie po raz kolejny łączy w sobie wiele umiejętności Gemini. Nie tylko rozpoznaje kształty, ale także rozumie, że kształty, choć nieco ordynarne, mają być odrębnymi, powiązanymi matematycznie kształtami o określonych atrybutach (np. 3 strony, 4 boki, 5 boków).
Co więcej, obecność znaku zapytania nie powoduje dezorientacji Gemini w interpretacji logicznego postępu kształtów geometrycznych. Gemini „widzi” natomiast, że jest to matematyczne przejście od 3, 4 do 5, więc ostatni kształt będzie sześciostronny i spójnie proponuje sześciokąt.
Interpretacja świata
Do których z tych materiałów lepiej pisać? Z czego lepiej zrobić szalik?
Odpowiedź Gemini:
Papier lepiej nadaje się do pisania, bo jest gładką powierzchnią, a przez to nie będzie przebijać tuszu. Na szaliku lepiej sprawdzi się tkanina, która jest miękka, i zatrzyma ciepło.
Wprowadzamy tu rozwiązanie Gemini w bardzo pomysłowy sposób. Sztuczna inteligencja nie tylko rozumie obrazy, ale także określa ich cechy i fizykę na podstawie tego, co widzi. Rozumowanie opiera się na wizualnym zrozumieniu materiałów obiektów i sposobie ich interakcji z celami określonymi w prompcie.
Podsumowanie
To tylko kilka przykładów sposobów wykorzystania promptów multimodalnych. Dzięki LLM możesz korzystać z multimodalnych promptów nie tylko do rozumienia tekstu i obrazów, ale też do tworzenia nowych pomysłów i wyciągania z nich wniosków. Zachęcamy do eksperymentowania z różnymi typami multimodalnych promptów i sprawdzaniu, co uda Ci się utworzyć.