طلب صور ونصوص متعددة الوسائط

الطلبات المتعدّدة الوسائط هي نوع من الطلبات للنماذج اللغوية الكبيرة (LLM) التي تضمّ تنسيقات متعددة من أنواع الإدخال. نشير إلى مدخلات مثل النصوص أو الصور. إنّ الطلبات المتعددة الوسائط والنماذج اللغوية الكبيرة التي تدعمها تتيح مجموعة من حالات الاستخدام المثيرة للاهتمام، بما في ذلك تصنيف الصور والتعرّف على الكتابة بخط اليد والترجمة وغيرها من السيناريوهات الإبداعية.

في هذا المستند، سنركّز على أنواع الطلبات التي يمكن تحقيقها عند إدخال نص وصورة في نموذج Gemini وتلقّي استجابة نصية فقط، وذلك من خلال استكشاف 8 أمثلة مثيرة للاهتمام.

ما هو الطلب المتعدّد الوسائط؟

اليوم، يمكن الآن مطالبة Gemini بمزيج من إدخال النص و/أو الصورة وإرجاع استجابة نصية فقط. يمكن استخدام النص لتوفير سياق للصورة أو يمكن استخدامه لطلب تشغيل النموذج أو إنشاء استجابة بشأن الصورة.

على سبيل المثال، في ما يلي طلب متعدد الوسائط:

alt_text

"ما لون القط؟"

يوفّر النص في هذا الطلب سياقًا للصورة من خلال توضيح أنّ الصورة تظهر قطة وأنّنا مهتم بشكل أساسي بالقطة فقط وبلون القطة.

3 مطالبات بسيطة متعددة الوسائط

في ما يلي ثلاثة أمثلة بسيطة للغاية على تقديم صورة مع نص إلى نموذج لغوي كبير (LLM) وقبول ردّ نصي فقط. وسوف نستكشف مفاهيم التعرف على نوع من الكيانات في الصورة، وتصنيف الكيانات في صورة دون معرفة محددة مسبقًا، وأخيرًا مثال للجمع بين التعرف على الحساب والحساب.

التصنيف

alt_text

"هل تحتوي هذه الصورة على قطة؟ ويمكنك الردّ إما بصواب أو خطأ."

رد من Gemini:

صحيح

هذا مثال بسيط جدًا يسلّط الضوء على قدرة النموذج اللغوي الكبير على التعرّف على توفّر عنصر في صورة أو لا، والاستجابة للمطوّر بطريقة منطقية. ويمكن أن يكون هذا المنهج مفيدًا لاكتشاف محتوى معين لغرض التصفية أو لأغراض أخرى.

وتجدر الإشارة إلى أنّ نماذج التعرّف على الصور المخصّصة يمكن أن تكون أكثر فعالية في مهام محدّدة للغاية. مع ذلك، إنّ إنشاء نماذج تعلُّم الآلة المخصّصة يستغرق وقتًا وخبرة. يمكن إنشاء الحلول التي تستخدم Gemini بشكل أسرع. لذلك، من المهم مقارنة جودة الردود المتاحة بين النماذج المختلفة واتخاذ القرار بناءً على هذه المقايضات.

التقدير

alt_text

"أريد قائمة بكل النقاط المهمّة في هذه الصورة".

رد من Gemini:

  1. مفكرة Google
  2. قلم من Google
  3. كوب

يوضّح المثال أعلاه أنّه يمكننا طلب سؤال مفتوح على النموذج اللغوي الكبير بشأن المحتوى الذي يظهر في الصورة. باستخدام Gemini، لا تتطلب عملية تصنيف الصور نماذج مختلفة لأنواع مختلفة من الكائنات (مثل الكتب أو الأكواب). بدلاً من ذلك، باستخدام نموذج واحد، حددنا جميع العناصر المهمة في ممر واحد.

العدّ

alt_text

"احسب عدد القطط التي تظهر في هذه الصورة. أعطني الرقم الأخير فقط في الرد.
أريد إرجاع رقم فقط"

رد من Gemini:

3

في هذا المثال، يحتوي الطلب على كائن من نوع معين فقط ونحدد أننا نريد أن نحتسبه في الصورة. علاوة على ذلك، طلبنا أن يتم تضمين الرد على رد رقمي خالص في المطالبة. ومع ذلك، قد تختلف الجودة بناءً على عدد العناصر في الصورة التي يجب احتسابها. نظرًا لأن Gemini هو نموذج متعدد الوسائط للأغراض العامة، قد تكون الدقة التي تتجاوز الأرقام الصغيرة محدودة.

5 طلبات متقدّمة متعدّدة الوسائط

سنتعرف بعد ذلك على بعض الأمثلة الشيقة حول طرق أكثر تقدمًا يمكن من خلالها استخدام المطالبة متعددة الوسائط مع إدخال النص والصورة.

التعرُّف على النص والتفكير فيه والحساب

alt_text

"كم يبلغ مجموع الأرباح التي حقّقناها اليوم؟ اشرح أسبابك".

رد من Gemini:

وإجمالي المبلغ الذي تم تحقيقه اليوم هو 100 دولار أمريكي.

وذلك لأن الملاحظة تشير إلى أنه تم بيع 5 تقاويم مقابل 20 دولارًا لكل منها. 5 × 20 دولار أمريكي = 100 دولار أمريكي.

توضح هذه المطالبة والصورة الأكثر تقدمًا العديد من ميزات برج الجوزاء مرة واحدة. السبب الأول هو التعرّف على الكتابة بخط اليد، وقد أدرك الذكاء الاصطناعي أنّ النص المكتوب باللغة الإنجليزية يشير إلى عدد التقاويم التي تم بيعها وسعر كل ساعة تُباع. بالإضافة إلى ذلك، عندما يشير طلبنا إلى مفهوم حساب الأرقام، تعرّف الذكاء الاصطناعي على طريقة ترميز النقاط الخمس (أي 4 خطوط عمودية وخط أفقي واحد يتوسطه خط). وأخيرًا، من خلال طلبنا الذي يوجِّه الذكاء الاصطناعي خلال خطوات الاحتساب، يمكننا الاطّلاع على جولة تفصيلية حول طريقة احتساب الذكاء الاصطناعي للأرباح.

السياق والمنطق العالمي

alt_text

"يظهر التوقيت في هذه الصورة بعد 24 ساعة".

رد من Gemini:

19:30

يوضح هذا المثال قدرة النموذج على التعرف على إضاءة المشهد واستنتاج المعلومات المؤقتة من الصور ضمن إطار زمني معين.

التفسير والإبداع

alt_text

"اكتب قصيدة هايكو عن هذه الصورة".

رد من Gemini:

مقعد بجانب البحيرة،

منظر للجبال وراء،

لحظة سلام

نرى هنا إمكانات Gemini في سرد القصص، والمزيد من الطرق الإبداعية لاستخدام الذكاء الاصطناعي التوليدي. من خلال توفير صورة كنقطة بداية، يمكننا مفاجأةنا بالمكان الذي يأخذه الذكاء الاصطناعي في القصة أو الميزات من الصورة التي يقرر الذكاء الاصطناعي دمجها بشكل خاص مع القصة. غالبًا ما يقتصر النص الخالص لإنشاء القصص على فكرتنا الأولية فقط، ولكن يمكن أن تكون صورة العالم الحقيقي نقطة انطلاق قوية لعملية التفكير في الذكاء الاصطناعي.

التقدم المنطقي

alt_text

"ماذا سيأتي بعد ذلك؟ اشرح أسبابك"

رد من Gemini:

للمثلث 3 جوانب، والمربع له 4 جوانب، والخماسي له 5 جوانب. يزداد عدد الجوانب بمقدار 1 لكل شكل. لذلك، يجب أن يحتوي الشكل التالي على 6 جوانب، وهو شكل سداسي.

يجمع هذا المثال مرة أخرى بين مهارات متعددة في Gemini. فهو لا يتعرف على الأشكال فحسب، ولكنه يدرك أيضًا أن الأشكال مرسومة بشكل غير مهذب إلى حد ما، إلا أنها تهدف إلى أن تكون أشكالاً مميزة مرتبطة رياضيًا بسمات محددة (على سبيل المثال، 3 جوانب و4 جوانب و5 جوانب).

علاوة على ذلك، فإن وجود علامة الاستفهام لا يربك برج الجوزاء في تفسيره للتقدم المنطقي للأشكال الهندسية. بدلاً من ذلك "يرى" Gemini أن هذا تقدمًا رياضيًا من 3 و4 إلى 5 وأن الشكل الأخير سيكون 6 جوانب ويقترح شكلاً سداسيًا بالشكل المناسب.

التفسير والفهم العالمي

alt_text

أيّ مما يلي أفضل للكتابة؟ أيهما أفضل لصنع وشاح؟

رد من Gemini:

من الأفضل الكتابة على الورقة لأنها سطح ناعم ولن يتدفق الحبر من خلالها. سيكون القماش أفضل لصنع وشاح لأنه ناعم وسيبقيك دافئًا.

نحن هنا نستفيد من Gemini بطريقة مبتكرة للغاية. لا يتعرَّف الذكاء الاصطناعي على الصور فحسب، بل يستنتج أيضًا السمات والجسدية الواقعية. يستند المنطق إلى الفهم المرئي لمواد الكائنات وكيفية تفاعلها مع الأغراض الموضحة في المطالبة.

الخاتمة

هذه ليست سوى أمثلة قليلة على طرق استخدام الطلبات المتعدّدة الوسائط. تتيح لك النماذج اللغوية الكبيرة استخدام الطلبات المتعدّدة الوسائط لفهم النصوص والصور فحسب، بل يمكنك أيضًا استلهام أفكار جديدة منها أو استخلاص المعلومات منها. نحن نشجعك على تجربة أنواع مختلفة من الطلبات متعددة الوسائط ومعرفة ما يمكنك إنشاؤه.