متن و تصویر چندوجهی

اعلان‌های چندوجهی نوعی اعلان برای مدل‌های زبان بزرگ (LLM) هستند که فرمت‌های نوع ورودی چندگانه را ترکیب می‌کنند. با فرمت ها به ورودی هایی مانند متن یا تصویر اشاره می کنیم. اعلان‌های چندوجهی و LLMهایی که از آنها پشتیبانی می‌کنند، موارد استفاده جالب مختلفی از جمله طبقه‌بندی تصویر، تشخیص دست خط، ترجمه و دیگر سناریوهای خلاقانه را امکان‌پذیر می‌کنند.

در این سند، ما بر روی انواع اعلان‌هایی تمرکز می‌کنیم که می‌توان هنگام وارد کردن متن و تصویر در مدل Gemini و دریافت پاسخ فقط متنی با بررسی 8 مثال جالب به دست آورد.

اعلان چندوجهی چیست؟

امروزه، Gemini اکنون می تواند با ترکیبی از ورودی متن و/یا تصویر درخواست شود و یک پاسخ فقط متنی برگرداند. از متن می توان برای ارائه زمینه تصویر استفاده کرد یا می توان از آن برای درخواست از مدل برای عملکرد یا ایجاد پاسخ در مورد تصویر استفاده کرد.

به عنوان مثال، زیر یک اعلان چند وجهی است:

alt_text

"گربه چه رنگی است؟"

متن این اعلان با روشن‌کردن این که یک گربه در تصویر وجود دارد و ما عمدتاً فقط به گربه و رنگ گربه علاقه داریم، زمینه تصویر را فراهم می‌کند.

3 فرمان چندوجهی ساده

در زیر سه مثال بسیار ساده از ارائه یک تصویر همراه با متن به یک LLM و پذیرش پاسخ فقط متنی آورده شده است. ما مفاهیم شناخت یک نوع موجود در یک تصویر، طبقه بندی موجودیت ها در یک تصویر بدون دانش از پیش تعیین شده و در نهایت نمونه ای از ترکیب تشخیص با محاسبه را بررسی خواهیم کرد.

طبقه بندی

alt_text

"آیا این تصویر حاوی گربه است؟ با درست یا نادرست پاسخ دهید."

پاسخ از جمینی:

درست است

این یک مثال بسیار ساده است که توانایی LLM را در تشخیص وجود یا عدم وجود چیزی در یک تصویر و پاسخ دادن به توسعه‌دهنده به شیوه‌ای بولی برجسته می‌کند. این رویکرد می تواند برای تشخیص محتوای خاص برای فیلتر کردن یا اهداف دیگر مفید باشد.

شایان ذکر است که مدل‌های تشخیص تصویر اختصاصی می‌توانند به طور بالقوه در کارهای بسیار خاص مؤثرتر باشند. با این حال، ایجاد مدل‌های ML سفارشی به زمان و تخصص نیاز دارد. راه حل های با استفاده از Gemini را می توان با سرعت بیشتری ایجاد کرد. بنابراین، مقایسه کیفیت پاسخ‌های موجود بین مدل‌های مختلف و تصمیم‌گیری بر اساس این مبادلات مهم است.

شناخت

alt_text

"لیستی از همه چیزهای مهم در این تصویر به من بدهید."

پاسخ از جمینی:

  1. یک نوت بوک گوگل
  2. یک قلم گوگل
  3. یک لیوان

مثال بالا این واقعیت را برجسته می کند که ما می توانیم یک سوال باز از LLM در مورد محتوای ظاهر شده در تصویر درخواست کنیم. با استفاده از Gemini، فرآیند طبقه‌بندی تصاویر به مدل‌های مختلف برای انواع مختلف اشیا (یعنی کتاب یا لیوان) نیاز ندارد. در عوض، با استفاده از یک مدل واحد، همه عناصر مهم را در یک پاس واحد شناسایی کرده‌ایم.

شمارش

alt_text

"تعداد گربه ها را در این تصویر بشمارید. فقط عدد نهایی را در پاسخ به من بدهید.
فقط یک شماره به من پس بده"

پاسخ از جمینی:

3

در این مثال ما فقط درخواست یک شی نوع خاص را داریم و مشخص می کنیم که می خواهیم آن را در تصویر شمارش کنیم. علاوه بر این، ما درخواست کرده ایم که پاسخ به یک پاسخ عددی خالص در اعلان باشد. با این حال، بسته به تعداد اشیاء در تصویر که باید شمارش شوند، کیفیت ممکن است متفاوت باشد. از آنجایی که Gemini یک مدل چندوجهی با هدف عمومی است، دقت آن فراتر از اعداد کوچک ممکن است محدود باشد.

5 پیام چندوجهی پیشرفته

در ادامه نمونه‌های جالبی از روش‌های پیشرفته‌تر را بررسی می‌کنیم که می‌توان از اعلان‌های چندوجهی با ورودی متن و تصویر استفاده کرد.

تشخیص متن، استدلال و محاسبه

alt_text

"مجموع چقدر امروز درآمد داشتیم؟ دلیل خود را توضیح دهید."

پاسخ از جمینی:

کل پولی که امروز به دست آمده 100 دلار است.

این به این دلیل است که یادداشت می گوید که 5 تقویم هر کدام به قیمت 20 دلار فروخته شده است. 5 × 20 دلار = 100 دلار.

این اعلان و تصویر پیشرفته تر، چندین ویژگی Gemini را به طور همزمان نشان می دهد. اول، تشخیص دست خط است، هوش مصنوعی تشخیص داده است که متن نوشته شده به زبان انگلیسی به چند تقویم فروخته شده و هر کدام به چه قیمتی اشاره دارد. علاوه بر این، با اشاره به مفهوم اعداد جمع‌آوری شده، هوش مصنوعی نشانه‌گذاری 5 امتیاز (یعنی 4 خط عمودی و یک خط خطی افقی) را تشخیص داده است. در نهایت، با راهنمایی سریع هوش مصنوعی از طریق مراحل محاسبه، می‌توانیم اطلاعاتی از نحوه محاسبه درآمد توسط هوش مصنوعی دریافت کنیم.

زمینه و استدلال جهانی

alt_text

"چه ساعتی از روز در این عکس در 24 ساعت است."

پاسخ از جمینی:

19:30

این مثال توانایی مدل را در تشخیص نور صحنه و استنتاج اطلاعات زمانی از تصاویر در یک بازه زمانی مشخص برجسته می کند.

تفسیر و خلاقیت

alt_text

"درباره این عکس یک هایکو بنویس."

پاسخ از جمینی:

یک نیمکت کنار دریاچه،

نمایی از کوه های فراتر،

یک لحظه آرامش

در اینجا ما قدرت Gemini را برای داستان سرایی و روش های خلاقانه تر استفاده از هوش مصنوعی مولد می بینیم. با ارائه یک تصویر به عنوان نقطه شروع، می‌توانیم خودمان را شگفت‌زده کنیم که هوش مصنوعی خط داستانی را در کجا قرار می‌دهد یا چه ویژگی‌هایی از تصویر را که هوش مصنوعی تصمیم می‌گیرد به طور خاص با داستان ادغام کند. تحریک متن خالص برای تولید داستان اغلب به ایده اولیه خودمان محدود می شود، اما یک عکس دنیای واقعی می تواند به عنوان نقطه شروع قدرتمندی برای فرآیند تفکر هوش مصنوعی باشد.

پیشرفت منطقی

alt_text

"بعدش چی میشه؟ استدلالت رو توضیح بده"

پاسخ از جمینی:

مثلث دارای 3 ضلع، مربع دارای 4 ضلع و پنج ضلعی دارای 5 ضلع است. تعداد اضلاع برای هر شکل 1 عدد افزایش می یابد. بنابراین شکل بعدی باید 6 ضلع داشته باشد که یک شش ضلعی است.

این مثال دوباره مهارت های متعدد Gemini را با هم ترکیب می کند. نه تنها اشکال را تشخیص می‌دهد، بلکه می‌داند که شکل‌ها، در حالی که کمی خام کشیده شده‌اند، در نظر گرفته شده‌اند که شکل‌های ریاضی متمایز با ویژگی‌های خاص (مانند 3 ضلع، 4 ضلع، 5 ضلع) باشند.

علاوه بر این، وجود علامت سوال Gemini را در تفسیرش از پیشرفت منطقی اشکال هندسی گیج نمی کند. در عوض جوزا "می بیند" که این یک پیشرفت ریاضی از 3، 4 به 5 است و بنابراین آخرین شکل 6 ضلعی خواهد بود و به درستی یک شش ضلعی را پیشنهاد می کند.

تفسیر و درک جهان

alt_text

کدام یک از اینها برای نوشتن بهتر است؟ کدام یک برای شال گردن بهتر است؟

پاسخ از جمینی:

کاغذ برای نوشتن بهتر است زیرا سطح صافی دارد و جوهر از آن خارج نمی شود. پارچه برای روسری بهتر است زیرا نرم است و شما را گرم نگه می دارد.

در اینجا ما از Gemini به روشی بسیار مبتکرانه استفاده می کنیم. هوش مصنوعی نه تنها تصاویر را درک می کند، بلکه ویژگی ها و فیزیکی بودن دنیای واقعی را از آنچه می بیند استنتاج می کند. استدلال مبتنی بر درک بصری مواد اشیاء و نحوه تعامل آنها با اهداف ذکر شده در اعلان است.

نتیجه گیری

اینها تنها چند نمونه از روش هایی است که می توان از اعلان های چندوجهی استفاده کرد. با LLM، می‌توانید از دستورات چندوجهی نه تنها برای درک متن و تصاویر، بلکه برای شکل‌دهی ایده‌های جدید یا استخراج درک از آنها استفاده کنید. ما شما را تشویق می‌کنیم که انواع مختلف اعلان‌های چندوجهی را آزمایش کنید و ببینید چه چیزی می‌توانید ایجاد کنید.