Çok modlu metin ve resim istemi

Çok modlu istemler, birden fazla giriş türü biçimini birleştiren büyük dil modelleri (LLM) için bir istem türüdür. Biçimler, metin veya resim gibi girişleri ifade eder. Bunları destekleyen çok modlu istemler ve LLM'ler; görüntü sınıflandırma, el yazısı tanıma, çeviri ve diğer yaratıcı senaryolar gibi çeşitli ilgi çekici kullanım alanlarına olanak sağlar.

Bu belgede, Gemini modeline metin ve resim girerek ve salt metin yanıtı alırken gerçekleştirilebilecek istem türlerine 8 ilginç örneği keşfederek odaklanacağız.

Çok modlu istem nedir?

Artık Gemini, metin ve/veya resim girişinin bir karışımıyla sorulabilir ve yalnızca metin yanıtı döndürebilir. Metin, resim için bağlam sağlamak amacıyla veya modelin çalışmasını istemek ya da resim hakkında bir yanıt oluşturmak için kullanılabilir.

Örneğin, aşağıdaki çok modlu bir istem gösterilmektedir:

alt_text

"Kedi hangi renktir?"

Bu istemdeki metin, resimde bir kedi olduğunu ve asıl olarak yalnızca kedi ile ilgilendiğimizi ve kedinin rengiyle ilgilendiğimizi açıklayarak resimle ilgili bağlam sağlar.

3 basit çok modlu istem

Aşağıda, LLM'ye metinle birlikte bir resim sağlama ve salt metin yanıtı kabul etme ile ilgili çok basit üç örnek verilmiştir. Bir görüntüdeki varlık türünü tanıma, bir resimdeki varlıkları önceden belirlenmiş bilgi olmadan sınıflandırma ve son olarak tanımayı hesaplamayla birleştirme örneğini inceleyeceğiz.

Sınıflandırma

alt_text

"Bu resimde kedi var mı? Yanıtınızı doğru veya yanlış olarak belirtin."

Gemini'ın yanıtı:

Doğru

Bu, LLM'nin bir resimdeki bir şeyin varlığını tanıma ve geliştiriciye boole tarzında yanıt verme yeteneğini vurgulayan çok basit bir örnektir. Bu yaklaşım, filtreleme veya diğer amaçlarla belirli içeriklerin tespit edilmesinde faydalı olabilir.

Özel görüntü tanıma modellerinin çok spesifik görevlerde potansiyel olarak daha etkili olabileceğini belirtmekte fayda var. Ancak, özel makine öğrenimi modelleri oluşturmak zaman ve uzmanlık gerektirir. Gemini'dan yararlanan çözümler daha hızlı oluşturulabilir. Bu nedenle, farklı modeller arasında mevcut yanıtların kalitesini karşılaştırmak ve bu ödünleşimlere göre karar vermek önemlidir.

Tanınırlık

alt_text

"Bu resimdeki tüm önemli şeylerin listesini ver."

Gemini'ın yanıtı:

  1. Bir Google not defteri
  2. Google kalemi
  3. Kupa

Yukarıdaki örnekte, resimde görünen içerikle ilgili olarak LLM'ye açık bir soru sorabileceğimiz gerçeği vurgulanmaktadır. Resim sınıflandırma işlemi, Gemini'da farklı nesne türleri (ör. kitap veya kupa) için farklı modeller gerektirmez. Bunun yerine, tek bir model kullanarak tüm önemli öğeleri tek bir geçişte tanımladık.

Sayma

alt_text

"Bu resimdeki kedi sayısını sayın. Yanıtta bana yalnızca son numarayı verin.
Bana yalnızca bir numara ver"

Gemini'ın yanıtı:

3

Bu örnekte, yalnızca belirli bir nesne türüne yapılan isteği içerir ve resimde sayılmasını istediğimizi belirtiriz. Ayrıca, yanıtın istemdeki sadece sayısal bir yanıta yer almasını istedik. Ancak resimdeki sayılması gereken nesnelerin sayısına bağlı olarak kalite farklılık gösterebilir. Gemini genel amaçlı bir çok modlu model olduğundan, küçük sayıların dışındaki hassasiyeti sınırlı olabilir.

5 gelişmiş çok modlu istem

Bir sonraki videoda, metin ve resim girdili çok modlu istemlerin kullanılabilmesinin daha gelişmiş yollarıyla ilgili bazı ilginç örnekleri inceleyeceğiz.

Metin Tanıma, Akıl yürütme ve Hesaplama

alt_text

"Bugün toplam ne kadar para kazandık? Nedeninizi açıklayın."

Gemini'ın yanıtı:

Bugün kazanılan toplam para 100 ABD dolarıdır.

Notta, 5 takvimin her birinin 20 ABD dolarına satıldığı belirtiliyor. 5 x 20 ABD doları = 100 ABD doları.

Bu daha gelişmiş istem ve resimde, Gemini'ın birkaç özelliği aynı anda gösterilmektedir. Bunlardan ilki el yazısı tanıma. Yapay zeka, İngilizce yazılmış metinde kaç tane takvimin satıldığını ve her birinin hangi fiyattan satıldığını belirledi. Dahası, sayıları hesaplama kavramını belirten istemimiz sayesinde yapay zeka, 5 noktalı hesaplama (yani, 4 dikey çizgi ve tek bir yatay üst çizgi) gösterimini tanıdı. Son olarak, istemimiz yapay zekaya hesaplama adımlarında rehberlik ederek yapay zekanın geliri nasıl hesapladığına dair bir adım adım açıklamalı kılavuz oluşturabiliyoruz.

Dünyayla İlgili Bağlam ve Akıl yürütme

alt_text

"24 saatlik zaman diliminde bu resimde günün hangi saati?"

Gemini'ın yanıtı:

19:30

Bu örnek, modelin belirli bir zaman dilimi içinde sahnenin ışıklandırmasını tanıma ve görüntülerden zamansal bilgileri çıkarma becerisini vurgular.

Yorum ve Yaratıcılık

alt_text

"Bu fotoğraf hakkında bir haiku yazın."

Gemini'ın yanıtı:

Göl kenarında bir bank,

Arkasındaki dağların manzarası,

Bir dakika huzur.

Burada, hikaye anlatma konusunda Gemini'ın gücünü ve üretken yapay zekayı kullanmanın daha yaratıcı yollarını görüyoruz. Başlangıç noktası olarak bir görüntü sağlayarak yapay zekanın hikayeyi nereye yönlendirdiğini veya görüntüdeki hangi özellikleri özellikle hikayeye entegre etmeye karar verdiği konusunda kendimizi şaşırtabiliriz. Hikaye oluşturmak için somut bir metin genellikle bizim ilk fikrimizle sınırlıdır ancak gerçek bir dünya fotoğrafı, yapay zekanın düşünme süreci için güçlü bir başlangıç noktası olarak kullanılabilir.

Mantıksal İlerleme

alt_text

"Sırada ne var? Nedeninizi açıklayın"

Gemini'ın yanıtı:

Üçgenin 3 kenarı, karenin 4 kenarı ve beşgenin 5 kenarı vardır. Her şeklin kenar sayısı 1 artar. Bu nedenle, bir sonraki şeklin 6 kenarı, yani altıgen olmalıdır.

Bu örnekte de Gemini'ın birden fazla özelliği bir araya getiriliyor. Bu özellik hem şekilleri tanır hem de şekillerin, biraz kaba bir şekilde çizilse de belirli özellikleri (ör. 3 kenar, 4 kenar, 5 kenar) olan, matematiksel olarak sınırlanmış farklı şekiller olarak tasarlandığını anlar.

Her şeyden önemlisi, soru işaretinin varlığı, geometrik şekillerin mantıksal ilerlemesini yorumlamada Gemini'ın kafasını karıştırmaz. Bunun yerine Gemini, bunun 3, 4'ten 5'e kadar matematiksel bir ilerleme olduğunu, dolayısıyla son şeklin 6 kenarlı olacağını ve uygun bir şekilde bir altıgen önereceğini "görür".

Dünyayı Yorumlama ve Anlama

alt_text

Aşağıdakilerden hangisinin üzerine yazması daha iyi olur? Atkı yapmak için hangisi daha iyi olur?

Gemini'ın yanıtı:

Yüzey pürüzsüz olduğundan ve mürekkebin akmayacağından, kağıt üzerine yazı yazmak daha iyi olur. İp örmek için kumaş daha uygun, çünkü yumuşak ve sizi sıcak tutacak.

Burada Gemini'dan çok yaratıcı bir şekilde yararlanıyoruz. Yapay zeka yalnızca görüntüleri anlamakla kalmaz, aynı zamanda gördüklerine bakarak öznitelikleri ve gerçek dünyadaki fizikselliği çıkarır. Bu akıl yürütme, nesnelerin malzemelerinin görsel olarak anlaşılmasına ve istemde belirtilen amaçlarla nasıl etkileşimde bulunduklarına dayanır.

Sonuç

Bunlar, çok modlu istemlerin kullanılabileceği durumlara ilişkin sadece birkaç örnektir. LLM'lerle, çok modlu istemleri yalnızca metin ve görüntüleri anlamak için değil, yeni fikirler oluşturmak veya bunlardan anlaşılır bilgiler hazırlamak için de kullanabilirsiniz. Farklı türlerde çok modlu istemleri denemenizi ve neler oluşturabileceğinizi görmenizi öneririz.