মাল্টিমডাল টেক্সট এবং ইমেজ প্রম্পটিং

মাল্টিমোডাল প্রম্পট হল বড় ল্যাঙ্গুয়েজ মডেলের (LLM) জন্য এক ধরনের প্রম্পট যা একাধিক ইনপুট টাইপ ফর্ম্যাটকে একত্রিত করে। বিন্যাস দ্বারা আমরা পাঠ্য বা চিত্রের মতো ইনপুটগুলিকে উল্লেখ করি। মাল্টিমোডাল প্রম্পট এবং এলএলএম যা তাদের সমর্থন করে ছবি শ্রেণীবিভাগ, হস্তাক্ষর স্বীকৃতি, অনুবাদ এবং অন্যান্য সৃজনশীল পরিস্থিতি সহ বিভিন্ন আকর্ষণীয় ব্যবহারের ক্ষেত্রে সক্ষম করে।

এই নথিতে, আমরা জেমিনি মডেলে টেক্সট এবং ইমেজ ইনপুট করার সময় এবং 8টি আকর্ষণীয় উদাহরণ অন্বেষণ করে শুধুমাত্র পাঠ্য-প্রতিক্রিয়া পাওয়ার সময় যে ধরনের প্রম্পটগুলি অর্জন করা যেতে পারে তার উপর ফোকাস করব।

একটি multimodal প্রম্পট কি?

আজ, মিথুনকে এখন টেক্সট এবং/অথবা ইমেজ ইনপুটের মিশ্রণের সাথে প্রম্পট করা যেতে পারে এবং শুধুমাত্র টেক্সট-এর প্রতিক্রিয়া প্রদান করা যেতে পারে। পাঠ্যটি চিত্রটির জন্য প্রসঙ্গ সরবরাহ করতে ব্যবহার করা যেতে পারে বা এটি মডেলটিকে পরিচালনা বা চিত্র সম্পর্কে একটি প্রতিক্রিয়া তৈরি করার অনুরোধ করতে ব্যবহার করা যেতে পারে।

উদাহরণস্বরূপ, নিম্নলিখিত একটি মাল্টিমোডাল প্রম্পট:

alt_text

"বিড়ালের রং কি?"

এই প্রম্পটের পাঠ্যটি চিত্রটির জন্য প্রসঙ্গ সরবরাহ করে যে চিত্রটিতে একটি বিড়াল রয়েছে এবং আমরা মূলত কেবল বিড়াল এবং বিড়ালের রঙে আগ্রহী।

3টি সাধারণ মাল্টিমোডাল প্রম্পট

একটি এলএলএম-এ পাঠ্য সহ একটি চিত্র প্রদান এবং শুধুমাত্র পাঠ্য-প্রতিক্রিয়া গ্রহণ করার তিনটি খুব সহজ উদাহরণ। আমরা একটি চিত্রের একটি ধরণের সত্তাকে স্বীকৃতি দেওয়ার ধারণাগুলি অন্বেষণ করব, পূর্বনির্ধারিত জ্ঞান ছাড়াই একটি চিত্রের সত্তাকে শ্রেণীবদ্ধ করা এবং অবশেষে হিসাবের সাথে স্বীকৃতিকে একত্রিত করার একটি উদাহরণ।

শ্রেণীবিভাগ

alt_text

"এই ছবিতে কি একটি বিড়াল আছে? সত্য বা মিথ্যা দিয়ে উত্তর দিন।"

মিথুন থেকে প্রতিক্রিয়া:

সত্য

এটি একটি খুব সাধারণ উদাহরণ যা LLM-এর একটি চিত্রে কিছুর অস্তিত্ব চিনতে বা না করার ক্ষমতা এবং বিকাশকারীকে বুলিয়ান পদ্ধতিতে প্রতিক্রিয়া জানাতে হাইলাইট করে। ফিল্টারিং বা অন্যান্য উদ্দেশ্যে নির্দিষ্ট বিষয়বস্তু সনাক্তকরণের জন্য এই পদ্ধতিটি কার্যকর হতে পারে।

এটি লক্ষণীয় যে ডেডিকেটেড ইমেজ স্বীকৃতি মডেলগুলি খুব নির্দিষ্ট কাজে সম্ভাব্যভাবে আরও কার্যকর হতে পারে। যাইহোক, কাস্টম এমএল মডেল তৈরি করতে সময় এবং দক্ষতা লাগে। মিথুন ব্যবহার করে সমাধানগুলি আরও দ্রুত তৈরি করা যেতে পারে। তাই বিভিন্ন মডেলের মধ্যে উপলব্ধ প্রতিক্রিয়ার গুণমানের তুলনা করা এবং এই ট্রেড অফের উপর ভিত্তি করে সিদ্ধান্ত নেওয়া গুরুত্বপূর্ণ।

স্বীকৃতি

alt_text

"আমাকে এই ছবির সমস্ত গুরুত্বপূর্ণ জিনিসগুলির একটি তালিকা দিন।"

মিথুন থেকে প্রতিক্রিয়া:

  1. একটি গুগল নোটবুক
  2. একটি গুগল কলম
  3. একটি মগ

উপরের উদাহরণটি এই সত্যটি তুলে ধরে যে আমরা ছবিতে উপস্থিত বিষয়বস্তু সম্পর্কে LLM-কে একটি খোলা প্রশ্নের অনুরোধ করতে পারি। মিথুন ব্যবহার করে, ইমেজ শ্রেণীবিভাগ প্রক্রিয়ায় বিভিন্ন ধরনের বস্তুর (যেমন বই বা মগ) জন্য ভিন্ন মডেলের প্রয়োজন হয় না। পরিবর্তে, একটি একক মডেল ব্যবহার করে, আমরা একটি একক পাসে সমস্ত উল্লেখযোগ্য উপাদান চিহ্নিত করেছি৷

গণনা

alt_text

"এই ছবিতে বিড়ালের সংখ্যা গণনা করুন। উত্তরে আমাকে শুধুমাত্র চূড়ান্ত সংখ্যা দিন।
শুধু আমাকে একটা নম্বর ফেরত দাও"

মিথুন থেকে প্রতিক্রিয়া:

3

এই উদাহরণে আমরা শুধুমাত্র একটি নির্দিষ্ট টাইপ অবজেক্টের অনুরোধ ধারণ করি এবং উল্লেখ করি যে আমরা এটি ছবিতে গণনা করতে চাই। তদ্ব্যতীত, আমরা অনুরোধ করেছি যে প্রতিক্রিয়াটি প্রম্পটে একটি বিশুদ্ধ সংখ্যাসূচক প্রতিক্রিয়াতে থাকবে। যাইহোক, ইমেজে বস্তুর সংখ্যার উপর নির্ভর করে যে গুণমান পরিবর্তিত হতে পারে। মিথুন একটি সাধারণ উদ্দেশ্য মাল্টিমোডাল মডেল হওয়ায় ছোট সংখ্যার বাইরে এর নির্ভুলতা সীমিত হতে পারে।

5টি উন্নত মাল্টিমোডাল প্রম্পট

এর পরে আমরা আরও উন্নত উপায়ের কিছু আকর্ষণীয় উদাহরণের মধ্য দিয়ে যাব যা পাঠ্য এবং চিত্র ইনপুট সহ মাল্টিমোডাল প্রম্পটিং ব্যবহার করা যেতে পারে।

টেক্সট রিকগনিশন, রিজনিং এবং ক্যালকুলেশন

alt_text

"আজকে আমরা মোট কত টাকা উপার্জন করেছি? আপনার যুক্তি ব্যাখ্যা করুন।"

মিথুন থেকে প্রতিক্রিয়া:

আজকের মোট অর্থের পরিমাণ হল $100৷

কারণ নোটে বলা হয়েছে যে 5টি ক্যালেন্ডার প্রতিটি $20 এ বিক্রি হয়েছে৷ 5 x $20 = $100।

এই আরও উন্নত প্রম্পট এবং চিত্রটি একবারে মিথুনের বেশ কয়েকটি বৈশিষ্ট্য প্রদর্শন করে। প্রথমে হস্তাক্ষর স্বীকৃতি, এআই স্বীকৃতি দিয়েছে যে ইংরেজিতে লেখা পাঠ্যটি কতগুলি ক্যালেন্ডার বিক্রি হয়েছিল এবং প্রতিটি কী দামে বিক্রি হয়েছিল তা উল্লেখ করে। তদ্ব্যতীত, আমাদের প্রম্পটটি সংখ্যার সংকলনের ধারণাকে নির্দেশ করে, AI একটি 5 পয়েন্ট ট্যালি (অর্থাৎ 4টি উল্লম্ব রেখা এবং একটি একক অনুভূমিক স্ট্রাইকথ্রু) জন্য স্বরলিপিকে স্বীকৃতি দিয়েছে। পরিশেষে, গণনার ধাপগুলির মাধ্যমে AI-কে আমাদের প্রম্পট গাইড করার মাধ্যমে আমরা কীভাবে AI রাজস্ব গণনা করেছে তার একটি ওয়াকথ্রু পেতে সক্ষম হয়েছি।

বিশ্ব প্রসঙ্গ এবং যুক্তি

alt_text

"24 ঘন্টা সময়ের মধ্যে এই ছবিতে দিনের কোন সময় আছে।"

মিথুন থেকে প্রতিক্রিয়া:

19:30

এই উদাহরণটি একটি দৃশ্যের আলো চিনতে এবং একটি নির্দিষ্ট সময়সীমার মধ্যে চিত্র থেকে সাময়িক তথ্য অনুমান করার মডেলের ক্ষমতা হাইলাইট করে।

ব্যাখ্যা এবং সৃজনশীলতা

alt_text

"এই ছবিটি সম্পর্কে একটি হাইকু লিখুন।"

মিথুন থেকে প্রতিক্রিয়া:

লেকের ধারে একটি বেঞ্চ,

ওপারে পাহাড়ের দৃশ্য,

শান্তির একটি মুহূর্ত।

এখানে আমরা গল্প বলার জন্য মিথুনের শক্তি এবং জেনারেটিভ AI ব্যবহার করার আরও সৃজনশীল উপায় দেখতে পাচ্ছি। সূচনা বিন্দু হিসাবে একটি চিত্র প্রদান করে আমরা নিজেদেরকে অবাক করে দিতে পারি যে AI গল্পের লাইনটি কোথায় নেয় বা চিত্রের কোন বৈশিষ্ট্যগুলি AI গল্পের সাথে বিশেষভাবে একীভূত করার সিদ্ধান্ত নেয়। গল্প তৈরির জন্য বিশুদ্ধ পাঠ্য প্রম্পটিং প্রায়শই আমাদের নিজস্ব প্রাথমিক ধারণার মধ্যে সীমাবদ্ধ থাকে তবে একটি বাস্তব বিশ্বের ছবি AI এর চিন্তা প্রক্রিয়ার জন্য একটি শক্তিশালী সূচনা পয়েন্ট হিসাবে কাজ করতে পারে।

যৌক্তিক অগ্রগতি

alt_text

"এরপর কি আসে? আপনার যুক্তি ব্যাখ্যা করুন"

মিথুন থেকে প্রতিক্রিয়া:

ত্রিভুজটির 3টি বাহু রয়েছে, বর্গক্ষেত্রটির 4টি বাহু রয়েছে এবং পঞ্চভুজটির 5টি বাহু রয়েছে। প্রতিটি আকৃতির জন্য বাহুর সংখ্যা 1 দ্বারা বৃদ্ধি পায়। অতএব, পরবর্তী আকৃতির 6টি দিক থাকা উচিত, যা একটি ষড়ভুজ।

এই উদাহরণটি আবারও মিথুনের একাধিক দক্ষতাকে একত্রিত করে। এটি কেবল আকারগুলিকে চিনতে পারে না তবে এটি বুঝতে পারে যে আকারগুলি, যদিও সামান্য অশোধিতভাবে আঁকা হয়েছে, নির্দিষ্ট বৈশিষ্ট্যগুলির সাথে স্বতন্ত্র গাণিতিকভাবে আবদ্ধ আকারের উদ্দেশ্যে করা হয়েছে (যেমন 3 দিক, 4 দিক, 5 দিক)।

এর উপরে, প্রশ্ন চিহ্নের উপস্থিতি মিথুনকে জ্যামিতিক আকারের যৌক্তিক অগ্রগতির ব্যাখ্যায় বিভ্রান্ত করে না। পরিবর্তে জেমিনি "দেখেছে" যে এটি 3, 4 থেকে 5 পর্যন্ত একটি গাণিতিক অগ্রগতি এবং তাই শেষ আকৃতিটি 6-পার্শ্বযুক্ত এবং উপযুক্তভাবে একটি ষড়ভুজ প্রস্তাব করে৷

ওয়ার্ল্ড ইন্টারপ্রিটেশন অ্যান্ড আন্ডারস্ট্যান্ডিং

alt_text

এগুলোর মধ্যে কোনটি লেখার জন্য ভালো হবে? একটি স্কার্ফ তৈরি করার জন্য কোনটি ভাল হবে?

মিথুন থেকে প্রতিক্রিয়া:

কাগজটি লেখার জন্য ভাল হবে কারণ এটি একটি মসৃণ পৃষ্ঠ এবং কালি দিয়ে রক্তপাত হবে না। স্কার্ফ তৈরির জন্য ফ্যাব্রিকটি ভাল হবে কারণ এটি নরম এবং আপনাকে উষ্ণ রাখবে।

এখানে আমরা খুব উদ্ভাবনী উপায়ে মিথুনকে ব্যবহার করছি। এআই কেবল চিত্রগুলিই বোঝে না তবে এটি যা দেখে তা থেকে এটি বৈশিষ্ট্য এবং বাস্তব-বিশ্বের শারীরিকতা অনুমান করে। যুক্তিটি বস্তুর উপাদানগুলির চাক্ষুষ বোঝার উপর ভিত্তি করে এবং তারা কীভাবে প্রম্পটে বর্ণিত উদ্দেশ্যগুলির সাথে ইন্টারঅ্যাক্ট করে।

উপসংহার

মাল্টিমোডাল প্রম্পটগুলি যেভাবে ব্যবহার করা যেতে পারে তার কয়েকটি উদাহরণ এইগুলি। এলএলএম-এর সাহায্যে আপনি শুধুমাত্র টেক্সট এবং ছবি বোঝার জন্য নয় বরং নতুন ধারণা তৈরি করতে বা তাদের থেকে বোঝাপড়ার জন্য মাল্টিমোডাল প্রম্পট ব্যবহার করতে পারেন। আমরা আপনাকে বিভিন্ন ধরণের মাল্টিমোডাল প্রম্পট নিয়ে পরীক্ষা করতে এবং আপনি কী তৈরি করতে পারেন তা দেখতে উত্সাহিত করি।