اعلانهای چندوجهی نوعی اعلان برای مدلهای زبان بزرگ (LLM) هستند که فرمتهای نوع ورودی چندگانه را ترکیب میکنند. با فرمت ها به ورودی هایی مانند متن یا تصویر اشاره می کنیم. اعلانهای چندوجهی و LLMهایی که از آنها پشتیبانی میکنند، موارد استفاده جالب مختلفی از جمله طبقهبندی تصویر، تشخیص دست خط، ترجمه و دیگر سناریوهای خلاقانه را امکانپذیر میکنند.
در این سند، ما بر روی انواع اعلانهایی تمرکز میکنیم که میتوان هنگام وارد کردن متن و تصویر در مدل Gemini و دریافت پاسخ فقط متنی با بررسی 8 مثال جالب به دست آورد.
اعلان چندوجهی چیست؟
امروزه، Gemini اکنون می تواند با ترکیبی از ورودی متن و/یا تصویر درخواست شود و یک پاسخ فقط متنی برگرداند. از متن می توان برای ارائه زمینه تصویر استفاده کرد یا می توان از آن برای درخواست از مدل برای عملکرد یا ایجاد پاسخ در مورد تصویر استفاده کرد.
به عنوان مثال، زیر یک اعلان چند وجهی است:
"گربه چه رنگی است؟"
متن این اعلان با روشنکردن این که یک گربه در تصویر وجود دارد و ما عمدتاً فقط به گربه و رنگ گربه علاقه داریم، زمینه تصویر را فراهم میکند.
3 فرمان چندوجهی ساده
در زیر سه مثال بسیار ساده از ارائه یک تصویر همراه با متن به یک LLM و پذیرش پاسخ فقط متنی آورده شده است. ما مفاهیم شناخت یک نوع موجود در یک تصویر، طبقه بندی موجودیت ها در یک تصویر بدون دانش از پیش تعیین شده و در نهایت نمونه ای از ترکیب تشخیص با محاسبه را بررسی خواهیم کرد.
طبقه بندی
"آیا این تصویر حاوی گربه است؟ با درست یا نادرست پاسخ دهید."
پاسخ از جمینی:
درست است
این یک مثال بسیار ساده است که توانایی LLM را در تشخیص وجود یا عدم وجود چیزی در یک تصویر و پاسخ دادن به توسعهدهنده به شیوهای بولی برجسته میکند. این رویکرد می تواند برای تشخیص محتوای خاص برای فیلتر کردن یا اهداف دیگر مفید باشد.
شایان ذکر است که مدلهای تشخیص تصویر اختصاصی میتوانند به طور بالقوه در کارهای بسیار خاص مؤثرتر باشند. با این حال، ایجاد مدلهای ML سفارشی به زمان و تخصص نیاز دارد. راه حل های با استفاده از Gemini را می توان با سرعت بیشتری ایجاد کرد. بنابراین، مقایسه کیفیت پاسخهای موجود بین مدلهای مختلف و تصمیمگیری بر اساس این مبادلات مهم است.
شناخت
"لیستی از همه چیزهای مهم در این تصویر به من بدهید."
پاسخ از جمینی:
- یک نوت بوک گوگل
- یک قلم گوگل
- یک لیوان
مثال بالا این واقعیت را برجسته می کند که ما می توانیم یک سوال باز از LLM در مورد محتوای ظاهر شده در تصویر درخواست کنیم. با استفاده از Gemini، فرآیند طبقهبندی تصاویر به مدلهای مختلف برای انواع مختلف اشیا (یعنی کتاب یا لیوان) نیاز ندارد. در عوض، با استفاده از یک مدل واحد، همه عناصر مهم را در یک پاس واحد شناسایی کردهایم.
شمارش
"تعداد گربه ها را در این تصویر بشمارید. فقط عدد نهایی را در پاسخ به من بدهید.
فقط یک شماره به من پس بده"
پاسخ از جمینی:
3
در این مثال ما فقط درخواست یک شی نوع خاص را داریم و مشخص می کنیم که می خواهیم آن را در تصویر شمارش کنیم. علاوه بر این، ما درخواست کرده ایم که پاسخ به یک پاسخ عددی خالص در اعلان باشد. با این حال، بسته به تعداد اشیاء در تصویر که باید شمارش شوند، کیفیت ممکن است متفاوت باشد. از آنجایی که Gemini یک مدل چندوجهی با هدف عمومی است، دقت آن فراتر از اعداد کوچک ممکن است محدود باشد.
5 پیام چندوجهی پیشرفته
در ادامه نمونههای جالبی از روشهای پیشرفتهتر را بررسی میکنیم که میتوان از اعلانهای چندوجهی با ورودی متن و تصویر استفاده کرد.
تشخیص متن، استدلال و محاسبه
"مجموع چقدر امروز درآمد داشتیم؟ دلیل خود را توضیح دهید."
پاسخ از جمینی:
کل پولی که امروز به دست آمده 100 دلار است.
این به این دلیل است که یادداشت می گوید که 5 تقویم هر کدام به قیمت 20 دلار فروخته شده است. 5 × 20 دلار = 100 دلار.
این اعلان و تصویر پیشرفته تر، چندین ویژگی Gemini را به طور همزمان نشان می دهد. اول، تشخیص دست خط است، هوش مصنوعی تشخیص داده است که متن نوشته شده به زبان انگلیسی به چند تقویم فروخته شده و هر کدام به چه قیمتی اشاره دارد. علاوه بر این، با اشاره به مفهوم اعداد جمعآوری شده، هوش مصنوعی نشانهگذاری 5 امتیاز (یعنی 4 خط عمودی و یک خط خطی افقی) را تشخیص داده است. در نهایت، با راهنمایی سریع هوش مصنوعی از طریق مراحل محاسبه، میتوانیم اطلاعاتی از نحوه محاسبه درآمد توسط هوش مصنوعی دریافت کنیم.
زمینه و استدلال جهانی
"چه ساعتی از روز در این عکس در 24 ساعت است."
پاسخ از جمینی:
19:30
این مثال توانایی مدل را در تشخیص نور صحنه و استنتاج اطلاعات زمانی از تصاویر در یک بازه زمانی مشخص برجسته می کند.
تفسیر و خلاقیت
"درباره این عکس یک هایکو بنویس."
پاسخ از جمینی:
یک نیمکت کنار دریاچه،
نمایی از کوه های فراتر،
یک لحظه آرامش
در اینجا ما قدرت Gemini را برای داستان سرایی و روش های خلاقانه تر استفاده از هوش مصنوعی مولد می بینیم. با ارائه یک تصویر به عنوان نقطه شروع، میتوانیم خودمان را شگفتزده کنیم که هوش مصنوعی خط داستانی را در کجا قرار میدهد یا چه ویژگیهایی از تصویر را که هوش مصنوعی تصمیم میگیرد به طور خاص با داستان ادغام کند. تحریک متن خالص برای تولید داستان اغلب به ایده اولیه خودمان محدود می شود، اما یک عکس دنیای واقعی می تواند به عنوان نقطه شروع قدرتمندی برای فرآیند تفکر هوش مصنوعی باشد.
پیشرفت منطقی
"بعدش چی میشه؟ استدلالت رو توضیح بده"
پاسخ از جمینی:
مثلث دارای 3 ضلع، مربع دارای 4 ضلع و پنج ضلعی دارای 5 ضلع است. تعداد اضلاع برای هر شکل 1 عدد افزایش می یابد. بنابراین شکل بعدی باید 6 ضلع داشته باشد که یک شش ضلعی است.
این مثال دوباره مهارت های متعدد Gemini را با هم ترکیب می کند. نه تنها اشکال را تشخیص میدهد، بلکه میداند که شکلها، در حالی که کمی خام کشیده شدهاند، در نظر گرفته شدهاند که شکلهای ریاضی متمایز با ویژگیهای خاص (مانند 3 ضلع، 4 ضلع، 5 ضلع) باشند.
علاوه بر این، وجود علامت سوال Gemini را در تفسیرش از پیشرفت منطقی اشکال هندسی گیج نمی کند. در عوض جوزا "می بیند" که این یک پیشرفت ریاضی از 3، 4 به 5 است و بنابراین آخرین شکل 6 ضلعی خواهد بود و به درستی یک شش ضلعی را پیشنهاد می کند.
تفسیر و درک جهان
کدام یک از اینها برای نوشتن بهتر است؟ کدام یک برای شال گردن بهتر است؟
پاسخ از جمینی:
کاغذ برای نوشتن بهتر است زیرا سطح صافی دارد و جوهر از آن خارج نمی شود. پارچه برای روسری بهتر است زیرا نرم است و شما را گرم نگه می دارد.
در اینجا ما از Gemini به روشی بسیار مبتکرانه استفاده می کنیم. هوش مصنوعی نه تنها تصاویر را درک می کند، بلکه ویژگی ها و فیزیکی بودن دنیای واقعی را از آنچه می بیند استنتاج می کند. استدلال مبتنی بر درک بصری مواد اشیاء و نحوه تعامل آنها با اهداف ذکر شده در اعلان است.
نتیجه گیری
اینها تنها چند نمونه از روش هایی است که می توان از اعلان های چندوجهی استفاده کرد. با LLM، میتوانید از دستورات چندوجهی نه تنها برای درک متن و تصاویر، بلکه برای شکلدهی ایدههای جدید یا استخراج درک از آنها استفاده کنید. ما شما را تشویق میکنیم که انواع مختلف اعلانهای چندوجهی را آزمایش کنید و ببینید چه چیزی میتوانید ایجاد کنید.