LLMs: একটি বড় ভাষা মডেল কি?

একটি নতুন প্রযুক্তি, বৃহৎ ভাষার মডেল ( এলএলএম ) একটি টোকেন বা টোকেনের অনুক্রমের পূর্বাভাস দেয়, কখনও কখনও পূর্বাভাসিত টোকেনের মূল্যের অনেক অনুচ্ছেদ। মনে রাখবেন যে একটি টোকেন একটি শব্দ, একটি সাবওয়ার্ড (একটি শব্দের একটি উপসেট), বা এমনকি একটি একক অক্ষরও হতে পারে। এলএলএমগুলি এন-গ্রাম ভাষার মডেল বা পুনরাবৃত্ত নিউরাল নেটওয়ার্কগুলির তুলনায় অনেক ভাল ভবিষ্যদ্বাণী করে কারণ:

  • LLM-তে পুনরাবৃত্ত মডেলের তুলনায় অনেক বেশি প্যারামিটার থাকে।
  • এলএলএম অনেক বেশি প্রসঙ্গ সংগ্রহ করে।

এই বিভাগটি এলএলএম তৈরির জন্য সবচেয়ে সফল এবং বহুল ব্যবহৃত আর্কিটেকচারের পরিচয় দেয়: ট্রান্সফরমার।

একটি ট্রান্সফরমার কি?

ট্রান্সফরমার হল অত্যাধুনিক আর্কিটেকচার যা বিভিন্ন ধরনের ভাষার মডেল অ্যাপ্লিকেশনের জন্য, যেমন অনুবাদ:

চিত্র 1. ইনপুট হল: আমি একজন ভালো কুকুর। একটি ট্রান্সফরমার-ভিত্তিক অনুবাদক সেই ইনপুটটিকে আউটপুটে রূপান্তরিত করে: Je suis un bon chien, যেটি একই বাক্য ফরাসি ভাষায় অনুবাদ করা হয়।
চিত্র 1. একটি ট্রান্সফরমার-ভিত্তিক অ্যাপ্লিকেশন যা ইংরেজি থেকে ফ্রেঞ্চে অনুবাদ করে।

সম্পূর্ণ ট্রান্সফরমারগুলি একটি এনকোডার এবং একটি ডিকোডার নিয়ে গঠিত:

  • একটি এনকোডার ইনপুট পাঠ্যকে একটি মধ্যবর্তী উপস্থাপনায় রূপান্তর করে। একটি এনকোডার একটি বিশাল নিউরাল নেট
  • একটি ডিকোডার সেই মধ্যবর্তী উপস্থাপনাকে দরকারী পাঠ্যে রূপান্তর করে। একটি ডিকোডারও একটি বিশাল নিউরাল নেট।

উদাহরণস্বরূপ, একজন অনুবাদকের মধ্যে:

  • এনকোডার ইনপুট টেক্সট (উদাহরণস্বরূপ, একটি ইংরেজি বাক্য) প্রক্রিয়া করে কিছু মধ্যবর্তী উপস্থাপনায়।
  • ডিকোডার সেই মধ্যবর্তী উপস্থাপনাকে আউটপুট টেক্সটে রূপান্তর করে (উদাহরণস্বরূপ, সমতুল্য ফরাসি বাক্য)।
চিত্র 2. ট্রান্সফরমার-ভিত্তিক অনুবাদক একটি এনকোডার দিয়ে শুরু হয়, যা একটি ইংরেজি বাক্যের মধ্যবর্তী উপস্থাপনা তৈরি করে। একটি ডিকোডার সেই মধ্যবর্তী উপস্থাপনাকে একটি ফরাসি আউটপুট বাক্যে রূপান্তর করে।
চিত্র 2. একটি সম্পূর্ণ ট্রান্সফরমারে একটি এনকোডার এবং একটি ডিকোডার উভয়ই থাকে।

স্ব-মনোযোগ কি?

প্রসঙ্গ উন্নত করতে, ট্রান্সফরমাররা স্ব-মনোযোগ নামক একটি ধারণার উপর অনেক বেশি নির্ভর করে। কার্যকরীভাবে, ইনপুটের প্রতিটি টোকেনের পক্ষে, স্ব-মনোযোগ নিম্নলিখিত প্রশ্ন জিজ্ঞাসা করে:

"ইনপুটের একে অপরের টোকেন এই টোকেনের ব্যাখ্যাকে কতটা প্রভাবিত করে?"

"আত্ম-মনোযোগ" এর "স্ব" ইনপুট ক্রম বোঝায়। কিছু মনোযোগ মেকানিজম ইনপুট টোকেনের সাথে আউটপুট সিকোয়েন্সের টোকেনের সাথে ট্রান্সলেশন বা অন্য কোন সিকোয়েন্সের টোকেনের সাথে সম্পর্ককে ওজন করে। কিন্তু স্ব -মনোযোগ শুধুমাত্র ইনপুট অনুক্রমে টোকেনগুলির মধ্যে সম্পর্কের গুরুত্বকে ওজন করে।

বিষয়গুলিকে সহজ করার জন্য, ধরে নিন যে প্রতিটি টোকেন একটি শব্দ এবং সম্পূর্ণ প্রসঙ্গ শুধুমাত্র একটি বাক্য। নিম্নলিখিত বাক্য বিবেচনা করুন:

The animal didn't cross the street because it was too tired.

পূর্ববর্তী বাক্যটিতে এগারোটি শব্দ রয়েছে। এগারোটি শব্দের প্রতিটি অন্য দশটির দিকে মনোযোগ দিচ্ছে, ভাবছে যে এই দশটি শব্দের প্রতিটি নিজের কাছে কতটা গুরুত্বপূর্ণ। উদাহরণস্বরূপ, লক্ষ্য করুন যে বাক্যটিতে সর্বনামটি রয়েছে। সর্বনাম প্রায়ই অস্পষ্ট হয়। সর্বনাম এটি সাধারণত একটি সাম্প্রতিক বিশেষ্য বা বিশেষ্য বাক্যাংশ বোঝায়, কিন্তু উদাহরণ বাক্যে, কোন সাম্প্রতিক বিশেষ্যটি উল্লেখ করে —প্রাণী বা রাস্তা?

স্ব-মনোযোগ প্রক্রিয়া সর্বনামের সাথে প্রতিটি কাছাকাছি শব্দের প্রাসঙ্গিকতা নির্ধারণ করে। চিত্র 3 ফলাফলগুলি দেখায়—রেখা যত নীল হবে, সেই শব্দটি সর্বনামের জন্য তত বেশি গুরুত্বপূর্ণ অর্থাৎ, সর্বনামের কাছে রাস্তার চেয়ে পশু বেশি গুরুত্বপূর্ণ।

চিত্র 3. বাক্যটির এগারোটি শব্দের প্রতিটির প্রাসঙ্গিকতা: 'প্রাণীটি রাস্তা অতিক্রম করেনি কারণ এটি খুব ক্লান্ত ছিল' সর্বনাম 'এটি'। 'প্রাণী' শব্দটি 'এটি' সর্বনামের সাথে সবচেয়ে বেশি প্রাসঙ্গিক।
চিত্র 3. সর্বনাম এটির জন্য স্ব-মনোযোগ। ট্রান্সফরমার থেকে: ভাষা বোঝার জন্য একটি নভেল নিউরাল নেটওয়ার্ক আর্কিটেকচার

বিপরীতভাবে, ধরুন বাক্যটির চূড়ান্ত শব্দটি নিম্নরূপ পরিবর্তিত হয়েছে:

The animal didn't cross the street because it was too wide.

এই সংশোধিত বাক্যে, আত্ম-মনোযোগ আশা করি সর্বনামের সাথে পশুর চেয়ে রাস্তাটিকে আরও প্রাসঙ্গিক হিসাবে রেট করবে।

কিছু স্ব-মনোযোগ প্রক্রিয়া দ্বিমুখী হয়, যার অর্থ তারা টোকেনগুলির জন্য প্রাসঙ্গিক স্কোর গণনা করে যে শব্দে যোগ দেওয়া হচ্ছে তার পূর্ববর্তী এবং অনুসরণ করা । উদাহরণস্বরূপ, চিত্র 3-এ লক্ষ্য করুন যে এর উভয় পাশের শব্দগুলি পরীক্ষা করা হয়েছে। সুতরাং, একটি দ্বিমুখী স্ব-মনোযোগ প্রক্রিয়া শব্দের উভয় দিকের শব্দ থেকে প্রসঙ্গ সংগ্রহ করতে পারে। বিপরীতে, একটি একমুখী স্ব-মনোযোগ প্রক্রিয়া শুধুমাত্র শব্দের একপাশে শব্দ থেকে প্রসঙ্গ সংগ্রহ করতে পারে। দ্বিমুখী স্ব-মনোযোগ বিশেষভাবে পুরো সিকোয়েন্সের উপস্থাপনা তৈরির জন্য উপযোগী, যখন টোকেন-বাই-টোকেন সিকোয়েন্স তৈরি করে এমন অ্যাপ্লিকেশনগুলির জন্য একমুখী স্ব-মনোযোগ প্রয়োজন। এই কারণে, এনকোডারগুলি দ্বিমুখী স্ব-মনোযোগ ব্যবহার করে, যখন ডিকোডারগুলি একমুখী ব্যবহার করে।

মাল্টি-হেড স্ব-মনোযোগ কি?

প্রতিটি স্ব-মনোযোগ স্তর সাধারণত একাধিক স্ব-মনোযোগ মাথার সমন্বয়ে গঠিত। একটি স্তরের আউটপুট হল বিভিন্ন হেডের আউটপুটের একটি গাণিতিক অপারেশন (উদাহরণস্বরূপ, ওজনযুক্ত গড় বা ডট পণ্য)।

যেহেতু প্রতিটি স্ব-মনোযোগ স্তর এলোমেলো মানগুলিতে শুরু করা হয়, তাই বিভিন্ন হেড প্রতিটি শব্দ এবং কাছাকাছি শব্দগুলির মধ্যে বিভিন্ন সম্পর্ক শিখতে পারে। উদাহরণস্বরূপ, পূর্ববর্তী বিভাগে বর্ণিত স্ব-মনোযোগ স্তরটি কোন বিশেষ্যটি উল্লেখ করেছে তা নির্ধারণের উপর দৃষ্টি নিবদ্ধ করে। যাইহোক, অন্যান্য স্ব-মনোযোগ স্তরগুলি প্রতিটি শব্দের সাথে প্রতিটি শব্দের ব্যাকরণগত প্রাসঙ্গিকতা শিখতে পারে বা অন্যান্য মিথস্ক্রিয়া শিখতে পারে।

ট্রান্সফরমার এত বড় কেন?

ট্রান্সফরমারে শত শত বিলিয়ন বা এমনকি ট্রিলিয়ন প্যারামিটার থাকে। এই কোর্সটি সাধারণত বড় সংখ্যক প্যারামিটারের তুলনায় কম সংখ্যক প্যারামিটার সহ বিল্ডিং মডেলের সুপারিশ করেছে। সর্বোপরি, একটি ছোট সংখ্যক প্যারামিটার সহ একটি মডেল বড় সংখ্যক প্যারামিটার সহ একটি মডেলের তুলনায় ভবিষ্যদ্বাণী করতে কম সংস্থান ব্যবহার করে। যাইহোক, গবেষণা দেখায় যে বেশি পরামিতি সহ ট্রান্সফরমারগুলি ধারাবাহিকভাবে কম প্যারামিটারের সাথে ট্রান্সফরমারকে ছাড়িয়ে যায়।

কিন্তু কিভাবে একটি LLM পাঠ্য তৈরি করে ?

আপনি দেখেছেন যে কীভাবে গবেষকরা LLM-কে একটি অনুপস্থিত শব্দ বা দুটি ভবিষ্যদ্বাণী করতে প্রশিক্ষণ দেন এবং আপনি হয়ত মুগ্ধ হবেন না। সর্বোপরি, একটি বা দুটি শব্দের ভবিষ্যদ্বাণী করা মূলত স্বয়ংসম্পূর্ণ বৈশিষ্ট্য যা বিভিন্ন পাঠ্য, ইমেল এবং অথরিং সফ্টওয়্যারের মধ্যে নির্মিত। আপনি হয়ত ভাবছেন কিভাবে LLM গুলি সালিশ সম্পর্কে বাক্য বা অনুচ্ছেদ বা হাইকুস তৈরি করতে পারে।

প্রকৃতপক্ষে, এলএলএমগুলি মূলত স্বয়ংসম্পূর্ণ প্রক্রিয়া যা স্বয়ংক্রিয়ভাবে হাজার হাজার টোকেনের পূর্বাভাস (সম্পূর্ণ) করতে পারে। উদাহরণস্বরূপ, একটি মুখোশযুক্ত বাক্য অনুসরণ করে একটি বাক্য বিবেচনা করুন:

My dog, Max, knows how to perform many traditional dog tricks.
___ (masked sentence)

একটি LLM মুখোশযুক্ত বাক্যের জন্য সম্ভাব্যতা তৈরি করতে পারে, যার মধ্যে রয়েছে:

সম্ভাবনা শব্দ(গুলি)
3.1% উদাহরণস্বরূপ, তিনি বসতে পারেন, থাকতে পারেন এবং রোল ওভার করতে পারেন।
2.9% উদাহরণস্বরূপ, তিনি কীভাবে বসতে, থাকতে এবং রোল ওভার করতে জানেন।

একটি যথেষ্ট বড় LLM অনুচ্ছেদ এবং সমগ্র রচনাগুলির জন্য সম্ভাব্যতা তৈরি করতে পারে। আপনি একটি LLM-এর কাছে ব্যবহারকারীর প্রশ্নগুলিকে একটি কাল্পনিক মুখোশ অনুসরণ করে "প্রদত্ত" বাক্য হিসাবে ভাবতে পারেন। যেমন:

User's question: What is the easiest trick to teach a dog?
LLM's response:  ___

এলএলএম বিভিন্ন সম্ভাব্য প্রতিক্রিয়ার জন্য সম্ভাবনা তৈরি করে।

আরেকটি উদাহরণ হিসেবে, প্রচুর সংখ্যক গাণিতিক "শব্দ সমস্যা" এর উপর প্রশিক্ষিত একজন এলএলএম পরিশীলিত গাণিতিক যুক্তি করার চেহারা দিতে পারে। যাইহোক, সেই এলএলএমগুলি মূলত শুধুমাত্র একটি শব্দ সমস্যা প্রম্পট স্বয়ংসম্পূর্ণ করছে।

এলএলএম এর সুবিধা

এলএলএমগুলি বিভিন্ন ধরণের লক্ষ্য দর্শকদের জন্য স্পষ্ট, সহজে বোঝা যায় এমন পাঠ্য তৈরি করতে পারে। এলএলএমরা তাদের স্পষ্টভাবে প্রশিক্ষণপ্রাপ্ত কাজের বিষয়ে ভবিষ্যদ্বাণী করতে পারে। কিছু গবেষক দাবি করেন যে এলএলএমও ইনপুটের জন্য ভবিষ্যদ্বাণী করতে পারে যে তারা স্পষ্টভাবে প্রশিক্ষিত ছিল না , তবে অন্যান্য গবেষকরা এই দাবিকে অস্বীকার করেছেন।

এলএলএম নিয়ে সমস্যা

একটি এলএলএম প্রশিক্ষণের জন্য অনেক সমস্যা রয়েছে, যার মধ্যে রয়েছে:

  • একটি বিশাল প্রশিক্ষণ সেট সংগ্রহ.
  • একাধিক মাস এবং বিপুল গণনামূলক সংস্থান এবং বিদ্যুৎ ব্যবহার করছে।
  • সমান্তরাল চ্যালেঞ্জ সমাধান.

ভবিষ্যদ্বাণী অনুমান করার জন্য এলএলএম ব্যবহার করলে নিম্নলিখিত সমস্যার সৃষ্টি হয়:

  • এলএলএম হ্যালুসিনেট করে , যার অর্থ তাদের ভবিষ্যদ্বাণীতে প্রায়ই ভুল থাকে।
  • এলএলএমগুলি প্রচুর পরিমাণে গণনামূলক সংস্থান এবং বিদ্যুৎ ব্যবহার করে। বৃহত্তর ডেটাসেটে এলএলএম প্রশিক্ষণ সাধারণত অনুমানের জন্য প্রয়োজনীয় সংস্থানগুলির পরিমাণ হ্রাস করে, যদিও বৃহত্তর প্রশিক্ষণ সেটগুলিতে আরও প্রশিক্ষণ সংস্থান ব্যয় হয়।
  • সমস্ত এমএল মডেলের মতো, এলএলএমগুলি সমস্ত ধরণের পক্ষপাত প্রদর্শন করতে পারে।

অনুশীলন: আপনার বোঝার পরীক্ষা করুন

ধরুন একটি ট্রান্সফরমারকে এক বিলিয়ন নথিতে প্রশিক্ষণ দেওয়া হয়েছে, যার মধ্যে হাজার হাজার নথি রয়েছে যেখানে হাতি শব্দের অন্তত একটি উদাহরণ রয়েছে। নিম্নলিখিত বিবৃতিগুলির মধ্যে কোনটি সম্ভবত সত্য?
বাবলা গাছ , একটি হাতির খাদ্যের একটি গুরুত্বপূর্ণ অংশ, ধীরে ধীরে হাতি শব্দটি দিয়ে একটি উচ্চ আত্ম-মনোযোগ স্কোর অর্জন করবে৷
হ্যাঁ এবং এটি ট্রান্সফরমারকে একটি হাতির খাদ্য সম্পর্কে প্রশ্নের উত্তর দিতে সক্ষম করবে।
ট্রান্সফরমার হাতি শব্দটিকে বিভিন্ন বাগধারার সাথে যুক্ত করবে যাতে হাতি শব্দটি রয়েছে।
হ্যাঁ, সিস্টেমটি হাতি শব্দ এবং হাতি শব্দের অন্যান্য শব্দের মধ্যে উচ্চ স্ব-মনোযোগ স্কোর সংযুক্ত করতে শুরু করবে।
ট্রান্সফরমারটি ধীরে ধীরে প্রশিক্ষণের তথ্যে হাতি শব্দের কোনো ব্যঙ্গাত্মক বা বিদ্রূপাত্মক ব্যবহার উপেক্ষা করতে শিখবে।
পর্যাপ্ত বিস্তৃত প্রশিক্ষণ সেটে প্রশিক্ষিত যথেষ্ট বড় ট্রান্সফরমাররা কটাক্ষ, হাস্যরস এবং বিড়ম্বনার স্বীকৃতি দিতে বেশ পারদর্শী হয়ে ওঠে। সুতরাং, ব্যঙ্গ এবং বিদ্রুপ উপেক্ষা করার পরিবর্তে, ট্রান্সফরমার এটি থেকে শিক্ষা নেয়।
,

একটি নতুন প্রযুক্তি, বৃহৎ ভাষার মডেল ( এলএলএম ) একটি টোকেন বা টোকেনের অনুক্রমের পূর্বাভাস দেয়, কখনও কখনও পূর্বাভাসিত টোকেনের মূল্যের অনেক অনুচ্ছেদ। মনে রাখবেন যে একটি টোকেন একটি শব্দ, একটি সাবওয়ার্ড (একটি শব্দের একটি উপসেট), বা এমনকি একটি একক অক্ষরও হতে পারে। এলএলএমগুলি এন-গ্রাম ভাষার মডেল বা পুনরাবৃত্ত নিউরাল নেটওয়ার্কগুলির তুলনায় অনেক ভাল ভবিষ্যদ্বাণী করে কারণ:

  • LLM-তে পুনরাবৃত্ত মডেলের তুলনায় অনেক বেশি প্যারামিটার থাকে।
  • এলএলএম অনেক বেশি প্রসঙ্গ সংগ্রহ করে।

এই বিভাগটি এলএলএম তৈরির জন্য সবচেয়ে সফল এবং বহুল ব্যবহৃত আর্কিটেকচারের পরিচয় দেয়: ট্রান্সফরমার।

একটি ট্রান্সফরমার কি?

ট্রান্সফরমার হল অত্যাধুনিক আর্কিটেকচার যা বিভিন্ন ধরনের ভাষার মডেল অ্যাপ্লিকেশনের জন্য, যেমন অনুবাদ:

চিত্র 1. ইনপুট হল: আমি একজন ভালো কুকুর। একটি ট্রান্সফরমার-ভিত্তিক অনুবাদক সেই ইনপুটটিকে আউটপুটে রূপান্তরিত করে: Je suis un bon chien, যেটি একই বাক্য ফরাসি ভাষায় অনুবাদ করা হয়।
চিত্র 1. একটি ট্রান্সফরমার-ভিত্তিক অ্যাপ্লিকেশন যা ইংরেজি থেকে ফ্রেঞ্চে অনুবাদ করে।

সম্পূর্ণ ট্রান্সফরমারগুলি একটি এনকোডার এবং একটি ডিকোডার নিয়ে গঠিত:

  • একটি এনকোডার ইনপুট পাঠ্যকে একটি মধ্যবর্তী উপস্থাপনায় রূপান্তর করে। একটি এনকোডার একটি বিশাল নিউরাল নেট
  • একটি ডিকোডার সেই মধ্যবর্তী উপস্থাপনাকে দরকারী পাঠ্যে রূপান্তর করে। একটি ডিকোডারও একটি বিশাল নিউরাল নেট।

উদাহরণস্বরূপ, একজন অনুবাদকের মধ্যে:

  • এনকোডার ইনপুট টেক্সট (উদাহরণস্বরূপ, একটি ইংরেজি বাক্য) প্রক্রিয়া করে কিছু মধ্যবর্তী উপস্থাপনায়।
  • ডিকোডার সেই মধ্যবর্তী উপস্থাপনাকে আউটপুট টেক্সটে রূপান্তর করে (উদাহরণস্বরূপ, সমতুল্য ফরাসি বাক্য)।
চিত্র 2. ট্রান্সফরমার-ভিত্তিক অনুবাদক একটি এনকোডার দিয়ে শুরু হয়, যা একটি ইংরেজি বাক্যের মধ্যবর্তী উপস্থাপনা তৈরি করে। একটি ডিকোডার সেই মধ্যবর্তী উপস্থাপনাকে একটি ফরাসি আউটপুট বাক্যে রূপান্তর করে।
চিত্র 2. একটি সম্পূর্ণ ট্রান্সফরমারে একটি এনকোডার এবং একটি ডিকোডার উভয়ই থাকে।

স্ব-মনোযোগ কি?

প্রসঙ্গ উন্নত করতে, ট্রান্সফরমাররা স্ব-মনোযোগ নামক একটি ধারণার উপর অনেক বেশি নির্ভর করে। কার্যকরীভাবে, ইনপুটের প্রতিটি টোকেনের পক্ষে, স্ব-মনোযোগ নিম্নলিখিত প্রশ্ন জিজ্ঞাসা করে:

"ইনপুটের একে অপরের টোকেন এই টোকেনের ব্যাখ্যাকে কতটা প্রভাবিত করে?"

"আত্ম-মনোযোগ" এর "স্ব" ইনপুট ক্রম বোঝায়। কিছু মনোযোগ মেকানিজম ইনপুট টোকেনের সাথে আউটপুট সিকোয়েন্সের টোকেনের সাথে ট্রান্সলেশন বা অন্য কোন সিকোয়েন্সের টোকেনের সাথে সম্পর্ককে ওজন করে। কিন্তু স্ব -মনোযোগ শুধুমাত্র ইনপুট অনুক্রমে টোকেনগুলির মধ্যে সম্পর্কের গুরুত্বকে ওজন করে।

বিষয়গুলিকে সহজ করার জন্য, ধরে নিন যে প্রতিটি টোকেন একটি শব্দ এবং সম্পূর্ণ প্রসঙ্গ শুধুমাত্র একটি বাক্য। নিম্নলিখিত বাক্য বিবেচনা করুন:

The animal didn't cross the street because it was too tired.

পূর্ববর্তী বাক্যটিতে এগারোটি শব্দ রয়েছে। এগারোটি শব্দের প্রতিটি অন্য দশটির দিকে মনোযোগ দিচ্ছে, ভাবছে যে এই দশটি শব্দের প্রতিটি নিজের কাছে কতটা গুরুত্বপূর্ণ। উদাহরণস্বরূপ, লক্ষ্য করুন যে বাক্যটিতে সর্বনামটি রয়েছে। সর্বনাম প্রায়ই অস্পষ্ট হয়। সর্বনাম এটি সাধারণত একটি সাম্প্রতিক বিশেষ্য বা বিশেষ্য বাক্যাংশ বোঝায়, কিন্তু উদাহরণ বাক্যে, কোন সাম্প্রতিক বিশেষ্যটি উল্লেখ করে —প্রাণী বা রাস্তা?

স্ব-মনোযোগ প্রক্রিয়া সর্বনামের সাথে প্রতিটি কাছাকাছি শব্দের প্রাসঙ্গিকতা নির্ধারণ করে। চিত্র 3 ফলাফলগুলি দেখায়—রেখা যত নীল হবে, সেই শব্দটি সর্বনামের জন্য তত বেশি গুরুত্বপূর্ণ অর্থাৎ, সর্বনামের কাছে রাস্তার চেয়ে পশু বেশি গুরুত্বপূর্ণ।

চিত্র 3. বাক্যটির এগারোটি শব্দের প্রতিটির প্রাসঙ্গিকতা: 'প্রাণীটি রাস্তা অতিক্রম করেনি কারণ এটি খুব ক্লান্ত ছিল' সর্বনাম 'এটি'। 'প্রাণী' শব্দটি 'এটি' সর্বনামের সাথে সবচেয়ে বেশি প্রাসঙ্গিক।
চিত্র 3. সর্বনাম এটির জন্য স্ব-মনোযোগ। ট্রান্সফরমার থেকে: ভাষা বোঝার জন্য একটি নভেল নিউরাল নেটওয়ার্ক আর্কিটেকচার

বিপরীতভাবে, ধরুন বাক্যটির চূড়ান্ত শব্দটি নিম্নরূপ পরিবর্তিত হয়েছে:

The animal didn't cross the street because it was too wide.

এই সংশোধিত বাক্যে, আত্ম-মনোযোগ আশা করি সর্বনামের সাথে পশুর চেয়ে রাস্তাটিকে আরও প্রাসঙ্গিক হিসাবে রেট করবে।

কিছু স্ব-মনোযোগ প্রক্রিয়া দ্বিমুখী হয়, যার অর্থ তারা টোকেনগুলির জন্য প্রাসঙ্গিক স্কোর গণনা করে যে শব্দে যোগ দেওয়া হচ্ছে তার পূর্ববর্তী এবং অনুসরণ করা । উদাহরণস্বরূপ, চিত্র 3-এ লক্ষ্য করুন যে এর উভয় পাশের শব্দগুলি পরীক্ষা করা হয়েছে। সুতরাং, একটি দ্বিমুখী স্ব-মনোযোগ প্রক্রিয়া শব্দের উভয় দিকের শব্দ থেকে প্রসঙ্গ সংগ্রহ করতে পারে। বিপরীতে, একটি একমুখী স্ব-মনোযোগ প্রক্রিয়া শুধুমাত্র শব্দের একপাশে শব্দ থেকে প্রসঙ্গ সংগ্রহ করতে পারে। দ্বিমুখী স্ব-মনোযোগ বিশেষভাবে পুরো সিকোয়েন্সের উপস্থাপনা তৈরির জন্য উপযোগী, যখন টোকেন-বাই-টোকেন সিকোয়েন্স তৈরি করে এমন অ্যাপ্লিকেশনগুলির জন্য একমুখী স্ব-মনোযোগ প্রয়োজন। এই কারণে, এনকোডারগুলি দ্বিমুখী স্ব-মনোযোগ ব্যবহার করে, যখন ডিকোডারগুলি একমুখী ব্যবহার করে।

মাল্টি-হেড স্ব-মনোযোগ কি?

প্রতিটি স্ব-মনোযোগ স্তর সাধারণত একাধিক স্ব-মনোযোগ মাথার সমন্বয়ে গঠিত। একটি স্তরের আউটপুট হল বিভিন্ন হেডের আউটপুটের একটি গাণিতিক অপারেশন (উদাহরণস্বরূপ, ওজনযুক্ত গড় বা ডট পণ্য)।

যেহেতু প্রতিটি স্ব-মনোযোগ স্তর এলোমেলো মানগুলিতে শুরু করা হয়, তাই বিভিন্ন হেড প্রতিটি শব্দ এবং কাছাকাছি শব্দগুলির মধ্যে বিভিন্ন সম্পর্ক শিখতে পারে। উদাহরণস্বরূপ, পূর্ববর্তী বিভাগে বর্ণিত স্ব-মনোযোগ স্তরটি কোন বিশেষ্যটি উল্লেখ করেছে তা নির্ধারণের উপর দৃষ্টি নিবদ্ধ করে। যাইহোক, অন্যান্য স্ব-মনোযোগ স্তরগুলি প্রতিটি শব্দের সাথে প্রতিটি শব্দের ব্যাকরণগত প্রাসঙ্গিকতা শিখতে পারে বা অন্যান্য মিথস্ক্রিয়া শিখতে পারে।

ট্রান্সফরমার এত বড় কেন?

ট্রান্সফরমারে শত শত বিলিয়ন বা এমনকি ট্রিলিয়ন প্যারামিটার থাকে। এই কোর্সটি সাধারণত বড় সংখ্যক প্যারামিটারের তুলনায় কম সংখ্যক প্যারামিটার সহ বিল্ডিং মডেলের সুপারিশ করেছে। সর্বোপরি, একটি ছোট সংখ্যক প্যারামিটার সহ একটি মডেল বড় সংখ্যক প্যারামিটার সহ একটি মডেলের তুলনায় ভবিষ্যদ্বাণী করতে কম সংস্থান ব্যবহার করে। যাইহোক, গবেষণা দেখায় যে বেশি পরামিতি সহ ট্রান্সফরমারগুলি ধারাবাহিকভাবে কম প্যারামিটারের সাথে ট্রান্সফরমারকে ছাড়িয়ে যায়।

কিন্তু কিভাবে একটি LLM পাঠ্য তৈরি করে ?

আপনি দেখেছেন যে কীভাবে গবেষকরা LLM-কে একটি অনুপস্থিত শব্দ বা দুটি ভবিষ্যদ্বাণী করতে প্রশিক্ষণ দেন এবং আপনি হয়ত মুগ্ধ হবেন না। সর্বোপরি, একটি বা দুটি শব্দের ভবিষ্যদ্বাণী করা মূলত স্বয়ংসম্পূর্ণ বৈশিষ্ট্য যা বিভিন্ন পাঠ্য, ইমেল এবং অথরিং সফ্টওয়্যারের মধ্যে নির্মিত। আপনি হয়ত ভাবছেন কিভাবে LLM গুলি সালিশ সম্পর্কে বাক্য বা অনুচ্ছেদ বা হাইকুস তৈরি করতে পারে।

প্রকৃতপক্ষে, এলএলএমগুলি মূলত স্বয়ংসম্পূর্ণ প্রক্রিয়া যা স্বয়ংক্রিয়ভাবে হাজার হাজার টোকেনের পূর্বাভাস (সম্পূর্ণ) করতে পারে। উদাহরণস্বরূপ, একটি মুখোশযুক্ত বাক্য অনুসরণ করে একটি বাক্য বিবেচনা করুন:

My dog, Max, knows how to perform many traditional dog tricks.
___ (masked sentence)

একটি LLM মুখোশযুক্ত বাক্যের জন্য সম্ভাব্যতা তৈরি করতে পারে, যার মধ্যে রয়েছে:

সম্ভাবনা শব্দ(গুলি)
3.1% উদাহরণস্বরূপ, তিনি বসতে পারেন, থাকতে পারেন এবং রোল ওভার করতে পারেন।
2.9% উদাহরণস্বরূপ, তিনি কীভাবে বসতে, থাকতে এবং রোল ওভার করতে জানেন।

একটি যথেষ্ট বড় LLM অনুচ্ছেদ এবং সমগ্র রচনাগুলির জন্য সম্ভাব্যতা তৈরি করতে পারে। আপনি একটি LLM-এর কাছে ব্যবহারকারীর প্রশ্নগুলিকে একটি কাল্পনিক মুখোশ অনুসরণ করে "প্রদত্ত" বাক্য হিসাবে ভাবতে পারেন। যেমন:

User's question: What is the easiest trick to teach a dog?
LLM's response:  ___

এলএলএম বিভিন্ন সম্ভাব্য প্রতিক্রিয়ার জন্য সম্ভাবনা তৈরি করে।

আরেকটি উদাহরণ হিসেবে, প্রচুর সংখ্যক গাণিতিক "শব্দ সমস্যা" এর উপর প্রশিক্ষিত একজন এলএলএম পরিশীলিত গাণিতিক যুক্তি করার চেহারা দিতে পারে। যাইহোক, সেই এলএলএমগুলি মূলত শুধুমাত্র একটি শব্দ সমস্যা প্রম্পট স্বয়ংসম্পূর্ণ করছে।

এলএলএম এর সুবিধা

এলএলএমগুলি বিভিন্ন ধরণের লক্ষ্য দর্শকদের জন্য স্পষ্ট, সহজে বোঝা যায় এমন পাঠ্য তৈরি করতে পারে। এলএলএমরা তাদের স্পষ্টভাবে প্রশিক্ষণপ্রাপ্ত কাজের বিষয়ে ভবিষ্যদ্বাণী করতে পারে। কিছু গবেষক দাবি করেন যে এলএলএমও ইনপুটের জন্য ভবিষ্যদ্বাণী করতে পারে যে তারা স্পষ্টভাবে প্রশিক্ষিত ছিল না , তবে অন্যান্য গবেষকরা এই দাবিকে অস্বীকার করেছেন।

এলএলএম নিয়ে সমস্যা

একটি এলএলএম প্রশিক্ষণের জন্য অনেক সমস্যা রয়েছে, যার মধ্যে রয়েছে:

  • একটি বিশাল প্রশিক্ষণ সেট সংগ্রহ.
  • একাধিক মাস এবং বিপুল গণনামূলক সংস্থান এবং বিদ্যুৎ ব্যবহার করছে।
  • সমান্তরাল চ্যালেঞ্জ সমাধান.

ভবিষ্যদ্বাণী অনুমান করার জন্য এলএলএম ব্যবহার করলে নিম্নলিখিত সমস্যার সৃষ্টি হয়:

  • এলএলএম হ্যালুসিনেট করে , যার অর্থ তাদের ভবিষ্যদ্বাণীতে প্রায়ই ভুল থাকে।
  • এলএলএমগুলি প্রচুর পরিমাণে গণনামূলক সংস্থান এবং বিদ্যুৎ ব্যবহার করে। বৃহত্তর ডেটাসেটে এলএলএম প্রশিক্ষণ সাধারণত অনুমানের জন্য প্রয়োজনীয় সংস্থানগুলির পরিমাণ হ্রাস করে, যদিও বৃহত্তর প্রশিক্ষণ সেটগুলিতে আরও প্রশিক্ষণ সংস্থান ব্যয় হয়।
  • সমস্ত এমএল মডেলের মতো, এলএলএমগুলি সমস্ত ধরণের পক্ষপাত প্রদর্শন করতে পারে।

অনুশীলন: আপনার বোঝার পরীক্ষা করুন

ধরুন একটি ট্রান্সফরমারকে এক বিলিয়ন নথিতে প্রশিক্ষণ দেওয়া হয়েছে, যার মধ্যে হাজার হাজার নথি রয়েছে যেখানে হাতি শব্দের অন্তত একটি উদাহরণ রয়েছে। নিম্নলিখিত বিবৃতিগুলির মধ্যে কোনটি সম্ভবত সত্য?
বাবলা গাছ , একটি হাতির খাদ্যের একটি গুরুত্বপূর্ণ অংশ, ধীরে ধীরে হাতি শব্দটি দিয়ে একটি উচ্চ আত্ম-মনোযোগ স্কোর অর্জন করবে৷
হ্যাঁ এবং এটি ট্রান্সফরমারকে একটি হাতির খাদ্য সম্পর্কে প্রশ্নের উত্তর দিতে সক্ষম করবে।
ট্রান্সফরমার হাতি শব্দটিকে বিভিন্ন বাগধারার সাথে যুক্ত করবে যাতে হাতি শব্দটি রয়েছে।
হ্যাঁ, সিস্টেমটি হাতি শব্দ এবং হাতি শব্দের অন্যান্য শব্দের মধ্যে উচ্চ স্ব-মনোযোগ স্কোর সংযুক্ত করতে শুরু করবে।
ট্রান্সফরমারটি ধীরে ধীরে প্রশিক্ষণের তথ্যে হাতি শব্দের কোনো ব্যঙ্গাত্মক বা বিদ্রূপাত্মক ব্যবহার উপেক্ষা করতে শিখবে।
পর্যাপ্ত বিস্তৃত প্রশিক্ষণ সেটে প্রশিক্ষিত যথেষ্ট বড় ট্রান্সফরমাররা কটাক্ষ, হাস্যরস এবং বিড়ম্বনার স্বীকৃতি দিতে বেশ পারদর্শী হয়ে ওঠে। সুতরাং, ব্যঙ্গ এবং বিদ্রুপ উপেক্ষা করার পরিবর্তে, ট্রান্সফরমার এটি থেকে শিক্ষা নেয়।