Prompting teks dan gambar multimodal

Dialog multimodal adalah jenis perintah untuk model bahasa besar (LLM) yang menggabungkan beberapa format jenis input. Dengan format, kita merujuk pada input seperti teks atau gambar. Perintah multimodal dan LLM yang mendukungnya memungkinkan berbagai kasus penggunaan yang menarik, termasuk klasifikasi gambar, pengenalan tulis tangan, terjemahan, dan skenario materi iklan lainnya.

Dalam dokumen ini, kita akan berfokus pada jenis perintah yang dapat dicapai saat memasukkan teks dan gambar ke dalam model Gemini dan menerima respons hanya teks dengan mempelajari 8 contoh menarik.

Apa yang dimaksud dengan perintah multimodal?

Saat ini, Gemini kini dapat diaktifkan dengan campuran input teks dan/atau gambar serta menampilkan respons hanya teks. Teks dapat digunakan untuk memberikan konteks bagi gambar, atau dapat digunakan untuk meminta model beroperasi atau menghasilkan respons tentang gambar.

Misalnya, berikut ini adalah prompt multimodal:

alt_text

"Apa warna kucingnya?"

Teks dalam perintah ini memberikan konteks untuk gambar dengan mengklarifikasi bahwa ada kucing dalam gambar dan kita terutama tertarik dengan kucing dan warna kucingnya.

3 prompt multimodal sederhana

Berikut ini adalah tiga contoh sangat sederhana tentang penyediaan gambar bersama teks ke LLM dan menerima respons hanya teks. Kita akan mempelajari konsep mengenali jenis entity dalam gambar, mengklasifikasikan entity dalam gambar tanpa pengetahuan yang telah ditentukan, dan terakhir contoh menggabungkan pengenalan dengan kalkulasi.

Klasifikasi

alt_text

"Apakah gambar ini menampilkan kucing? Respons dengan benar atau salah."

Tanggapan dari Gemini:

Benar

Ini adalah contoh sangat sederhana yang menyoroti kemampuan LLM untuk mengenali keberadaan sesuatu dalam gambar atau tidak, dan merespons developer dengan cara boolean. Pendekatan ini dapat berguna untuk mendeteksi konten tertentu untuk pemfilteran atau tujuan lainnya.

Perlu diperhatikan bahwa model pengenalan citra khusus dapat berpotensi lebih efektif pada tugas-tugas yang sangat spesifik. Namun, membuat model ML kustom memerlukan waktu dan keahlian. Solusi menggunakan Gemini dapat dibangun dengan lebih cepat. Oleh karena itu, penting untuk membandingkan kualitas respons yang tersedia antara berbagai model dan memutuskan berdasarkan kompromi ini.

Apresiasi

alt_text

"Beri saya daftar semua hal penting dalam gambar ini."

Tanggapan dari Gemini:

  1. Notebook Google
  2. Pena Google
  3. Mug

Contoh di atas menyoroti fakta bahwa kita dapat meminta pertanyaan terbuka kepada LLM terkait konten yang muncul dalam gambar. Dengan menggunakan Gemini, proses klasifikasi gambar tidak memerlukan model yang berbeda untuk jenis objek yang berbeda (yaitu buku atau mug). Alih-alih, dengan menggunakan satu model, kita telah mengidentifikasi semua elemen signifikan dalam satu penerusan.

Perhitungan

alt_text

"Hitung jumlah kucing dalam gambar ini. Berikan saya angka terakhir dalam respons tersebut.
Hanya beri saya nomor lagi"

Tanggapan dari Gemini:

3

Dalam contoh ini, kita berisi permintaan hanya ke objek jenis tertentu dan menentukan bahwa kita ingin objek tersebut dihitung dalam gambar. Selain itu, kita telah meminta agar respons ditempatkan pada respons numerik murni dalam prompt. Namun, bergantung pada jumlah objek dalam gambar yang perlu dihitung, kualitasnya dapat bervariasi. Karena Gemini adalah model multimodal tujuan umum, presisinya yang melebihi angka kecil mungkin terbatas.

5 prompt multimodal lanjutan

Selanjutnya, kita akan membahas beberapa contoh menarik tentang cara yang lebih canggih dalam menggunakan prompting multimodal dengan input teks dan gambar.

Pengenalan, Penalaran & Perhitungan Teks

alt_text

"Berapa total penghasilan yang kita peroleh hari ini? Jelaskan alasannya."

Tanggapan dari Gemini:

Jumlah total uang yang dihasilkan hari ini adalah $100.

Ini karena catatan itu mengatakan bahwa 5 kalender dijual masing-masing seharga $20. 5 x $20 = $100.

Perintah dan gambar yang lebih canggih ini menunjukkan beberapa fitur Gemini sekaligus. Pertama adalah pengenalan tulis tangan, AI telah mengenali bahwa teks yang ditulis dalam bahasa Inggris mengacu pada jumlah kalender yang terjual dan harga masing-masing kalender. Selain itu, dengan perintah kami yang menunjukkan konsep penghitungan angka, AI telah mengenali notasi untuk penghitungan 5 poin (yaitu 4 garis vertikal dan satu coretan horizontal). Terakhir, dengan panduan kami yang memandu AI melalui langkah-langkah penghitungan, kami dapat menerima panduan tentang cara AI menghitung pendapatan.

Konteks & Penalaran Dunia

alt_text

"Jam berapa pada gambar ini dalam waktu 24 jam".

Tanggapan dari Gemini:

19:30

Contoh ini menyoroti kemampuan model untuk mengenali pencahayaan adegan dan menyimpulkan informasi sementara dari gambar dalam jangka waktu tertentu.

Interpretasi & Kreativitas

alt_text

"Tulis haiku tentang foto ini".

Tanggapan dari Gemini:

Bangku di tepi danau,

Pemandangan pegunungan di luarnya,

Momen damai.

Di sini kita melihat kekuatan Gemini untuk bercerita dan lebih banyak cara kreatif dalam menggunakan AI generatif. Dengan menyediakan gambar sebagai titik awal, kita dapat mengejutkan kita sendiri di mana AI mengambil jalan cerita atau fitur apa dari gambar yang memutuskan AI untuk berintegrasi secara khusus dengan cerita. Perintah teks murni untuk pembuatan cerita sering kali terbatas pada ide awal kita sendiri, tetapi foto di dunia nyata dapat berfungsi sebagai titik awal yang efektif untuk proses berpikir AI.

Kemajuan Logis

alt_text

"Apa langkah Anda berikutnya? Jelaskan alasannya"

Tanggapan dari Gemini:

Segitiga memiliki 3 sisi, persegi memiliki 4 sisi, dan segi lima memiliki 5 sisi. Jumlah sisi bertambah 1 untuk setiap bentuk. Oleh karena itu, bentuk berikutnya harus memiliki 6 sisi yang merupakan segi enam.

Contoh ini sekali lagi menggabungkan beberapa keterampilan Gemini. Tidak hanya mengenali bentuk, tetapi juga memahami bahwa bentuk, meskipun sedikit digambar secara kasar, dimaksudkan sebagai bentuk yang terikat secara matematis dengan atribut tertentu (misalnya 3 sisi, 4 sisi, 5 sisi).

Selain itu, adanya tanda tanya tidak membingungkan Gemini dalam interpretasi perkembangan logis bentuk geometris. Sebaliknya, Gemini "melihat" bahwa ini adalah perkembangan matematika dari 3, 4 ke 5, dan oleh karena itu bentuk terakhir adalah 6 sisi dan sesuai mengusulkan segi enam.

Interpretasi & Pemahaman Dunia

alt_text

Manakah dari berikut ini yang lebih baik untuk ditulis? Mana yang lebih baik untuk dibuat menjadi syal?

Tanggapan dari Gemini:

Kertas akan lebih baik untuk ditulis karena permukaannya halus dan tinta tidak akan bocor. Kain ini akan lebih baik untuk dibuat menjadi syal karena lembut dan membuat Anda tetap hangat.

Di sini, kita memanfaatkan Gemini dengan cara yang sangat inventif. AI tidak hanya memahami gambar, tetapi juga menyimpulkan atribut dan fisikitas dunia nyata dari apa yang dilihatnya. Alasannya didasarkan pada pemahaman visual materi objek dan cara materi tersebut berinteraksi dengan tujuan yang diuraikan dalam perintah.

Kesimpulan

Ini hanya beberapa contoh cara penggunaan prompt multimodal. Dengan LLM, Anda dapat menggunakan perintah multimodal untuk tidak hanya memahami teks dan gambar, tetapi juga membentuk ide baru atau mengekstrak pemahaman yang diperoleh darinya. Sebaiknya Anda bereksperimen dengan berbagai jenis perintah multimodal dan melihat apa yang dapat Anda buat.