এই পৃষ্ঠাটি Cloud Translation API অনুবাদ করেছে।

LLMs: একটি বড় ভাষা মডেল কি?

একটি নতুন প্রযুক্তি, বৃহৎ ভাষার মডেল ( এলএলএম ) একটি টোকেন বা টোকেনের অনুক্রমের পূর্বাভাস দেয়, কখনও কখনও পূর্বাভাসিত টোকেনের মূল্যের অনেক অনুচ্ছেদ। মনে রাখবেন যে একটি টোকেন একটি শব্দ, একটি সাবওয়ার্ড (একটি শব্দের একটি উপসেট), বা এমনকি একটি একক অক্ষরও হতে পারে। এলএলএমগুলি এন-গ্রাম ভাষার মডেল বা পুনরাবৃত্ত নিউরাল নেটওয়ার্কগুলির তুলনায় অনেক ভাল ভবিষ্যদ্বাণী করে কারণ:

LLM-তে পুনরাবৃত্ত মডেলের তুলনায় অনেক বেশি প্যারামিটার থাকে।
এলএলএম অনেক বেশি প্রসঙ্গ সংগ্রহ করে।

এই বিভাগটি এলএলএম তৈরির জন্য সবচেয়ে সফল এবং বহুল ব্যবহৃত আর্কিটেকচারের পরিচয় দেয়: ট্রান্সফরমার।

একটি ট্রান্সফরমার কি?

ট্রান্সফরমার হল অত্যাধুনিক আর্কিটেকচার যা বিভিন্ন ধরনের ভাষার মডেল অ্যাপ্লিকেশনের জন্য, যেমন অনুবাদ:

চিত্র 1. ইনপুট হল: আমি একজন ভালো কুকুর। একটি ট্রান্সফরমার-ভিত্তিক অনুবাদক সেই ইনপুটটিকে আউটপুটে রূপান্তরিত করে: Je suis un bon chien, যেটি একই বাক্য ফরাসি ভাষায় অনুবাদ করা হয়। — **চিত্র 1.** একটি ট্রান্সফরমার-ভিত্তিক অ্যাপ্লিকেশন যা ইংরেজি থেকে ফ্রেঞ্চে অনুবাদ করে।

সম্পূর্ণ ট্রান্সফরমারগুলি একটি এনকোডার এবং একটি ডিকোডার নিয়ে গঠিত:

একটি এনকোডার ইনপুট পাঠ্যকে একটি মধ্যবর্তী উপস্থাপনায় রূপান্তর করে। একটি এনকোডার একটি বিশাল নিউরাল নেট ।
একটি ডিকোডার সেই মধ্যবর্তী উপস্থাপনাকে দরকারী পাঠ্যে রূপান্তর করে। একটি ডিকোডারও একটি বিশাল নিউরাল নেট।

উদাহরণস্বরূপ, একজন অনুবাদকের মধ্যে:

এনকোডার ইনপুট টেক্সট (উদাহরণস্বরূপ, একটি ইংরেজি বাক্য) প্রক্রিয়া করে কিছু মধ্যবর্তী উপস্থাপনায়।
ডিকোডার সেই মধ্যবর্তী উপস্থাপনাকে আউটপুট টেক্সটে রূপান্তর করে (উদাহরণস্বরূপ, সমতুল্য ফরাসি বাক্য)।

চিত্র 2. ট্রান্সফরমার-ভিত্তিক অনুবাদক একটি এনকোডার দিয়ে শুরু হয়, যা একটি ইংরেজি বাক্যের মধ্যবর্তী উপস্থাপনা তৈরি করে। একটি ডিকোডার সেই মধ্যবর্তী উপস্থাপনাকে একটি ফরাসি আউটপুট বাক্যে রূপান্তর করে। — **চিত্র 2.** একটি সম্পূর্ণ ট্রান্সফরমারে একটি এনকোডার এবং একটি ডিকোডার উভয়ই থাকে।

আংশিক ট্রান্সফরমার সম্পর্কে আরও জানতে আইকনে ক্লিক করুন।

এই মডিউলটি সম্পূর্ণ ট্রান্সফরমারগুলিতে ফোকাস করে, যেটিতে একটি এনকোডার এবং একটি ডিকোডার উভয়ই রয়েছে; যাইহোক, শুধুমাত্র এনকোডার এবং শুধুমাত্র ডিকোডার আর্কিটেকচারও বিদ্যমান:

এনকোডার-শুধু আর্কিটেকচার একটি মধ্যবর্তী উপস্থাপনা (প্রায়শই, একটি এমবেডিং স্তর ) মধ্যে ইনপুট পাঠ্যকে ম্যাপ করে। শুধুমাত্র এনকোডার আর্কিটেকচারের ক্ষেত্রে ব্যবহার করুন:
- ইনপুট সিকোয়েন্সে যেকোনো টোকেনের পূর্বাভাস দেওয়া (যা ভাষা মডেলের প্রচলিত ভূমিকা)।
- একটি অত্যাধুনিক এম্বেডিং তৈরি করা, যা অন্য সিস্টেমের জন্য ইনপুট হিসাবে কাজ করতে পারে, যেমন একটি শ্রেণীবদ্ধকারী।
শুধুমাত্র ডিকোডার আর্কিটেকচারগুলি ইতিমধ্যে তৈরি করা পাঠ্য থেকে নতুন টোকেন তৈরি করে। ডিকোডার-শুধু মডেলগুলি সাধারণত সিকোয়েন্স তৈরিতে পারদর্শী হয়; আধুনিক ডিকোডার-শুধু মডেলগুলি ডায়ালগ ইতিহাস এবং অন্যান্য প্রম্পটগুলির ধারাবাহিকতা তৈরি করতে তাদের জেনারেশন পাওয়ার ব্যবহার করতে পারে।

স্ব-মনোযোগ কি?

প্রসঙ্গ উন্নত করতে, ট্রান্সফরমাররা স্ব-মনোযোগ নামক একটি ধারণার উপর অনেক বেশি নির্ভর করে। কার্যকরীভাবে, ইনপুটের প্রতিটি টোকেনের পক্ষে, স্ব-মনোযোগ নিম্নলিখিত প্রশ্ন জিজ্ঞাসা করে:

"ইনপুটের একে অপরের টোকেন এই টোকেনের ব্যাখ্যাকে কতটা প্রভাবিত করে?"

"আত্ম-মনোযোগ" এর "স্ব" ইনপুট ক্রম বোঝায়। কিছু মনোযোগ মেকানিজম ইনপুট টোকেনের সাথে আউটপুট সিকোয়েন্সের টোকেনের সাথে ট্রান্সলেশন বা অন্য কোন সিকোয়েন্সের টোকেনের সাথে সম্পর্ককে ওজন করে। কিন্তু স্ব -মনোযোগ শুধুমাত্র ইনপুট অনুক্রমে টোকেনগুলির মধ্যে সম্পর্কের গুরুত্বকে ওজন করে।

বিষয়গুলিকে সহজ করার জন্য, ধরে নিন যে প্রতিটি টোকেন একটি শব্দ এবং সম্পূর্ণ প্রসঙ্গ শুধুমাত্র একটি বাক্য। নিম্নলিখিত বাক্য বিবেচনা করুন:

The animal didn't cross the street because it was too tired.

পূর্ববর্তী বাক্যটিতে এগারোটি শব্দ রয়েছে। এগারোটি শব্দের প্রতিটি অন্য দশটির দিকে মনোযোগ দিচ্ছে, ভাবছে যে এই দশটি শব্দের প্রতিটি নিজের কাছে কতটা গুরুত্বপূর্ণ। উদাহরণস্বরূপ, লক্ষ্য করুন যে বাক্যটিতে সর্বনামটি রয়েছে। সর্বনাম প্রায়ই অস্পষ্ট হয়। সর্বনাম এটি সাধারণত একটি সাম্প্রতিক বিশেষ্য বা বিশেষ্য বাক্যাংশ বোঝায়, কিন্তু উদাহরণ বাক্যে, কোন সাম্প্রতিক বিশেষ্যটি উল্লেখ করে —প্রাণী বা রাস্তা?

স্ব-মনোযোগ প্রক্রিয়া সর্বনামের সাথে প্রতিটি কাছাকাছি শব্দের প্রাসঙ্গিকতা নির্ধারণ করে। চিত্র 3 ফলাফলগুলি দেখায়—রেখা যত নীল হবে, সেই শব্দটি সর্বনামের জন্য তত বেশি গুরুত্বপূর্ণ । অর্থাৎ, সর্বনামের কাছে রাস্তার চেয়ে পশু বেশি গুরুত্বপূর্ণ।

চিত্র 3. বাক্যটির এগারোটি শব্দের প্রতিটির প্রাসঙ্গিকতা: 'প্রাণীটি রাস্তা অতিক্রম করেনি কারণ এটি খুব ক্লান্ত ছিল' সর্বনাম 'এটি'। 'প্রাণী' শব্দটি 'এটি' সর্বনামের সাথে সবচেয়ে বেশি প্রাসঙ্গিক। — **চিত্র 3.** সর্বনাম *এটির* জন্য স্ব-মনোযোগ। ট্রান্সফরমার থেকে: ভাষা বোঝার জন্য একটি নভেল নিউরাল নেটওয়ার্ক আর্কিটেকচার ।

বিপরীতভাবে, ধরুন বাক্যটির চূড়ান্ত শব্দটি নিম্নরূপ পরিবর্তিত হয়েছে:

The animal didn't cross the street because it was too wide.

এই সংশোধিত বাক্যে, আত্ম-মনোযোগ আশা করি সর্বনামের সাথে পশুর চেয়ে রাস্তাটিকে আরও প্রাসঙ্গিক হিসাবে রেট করবে।

কিছু স্ব-মনোযোগ প্রক্রিয়া দ্বিমুখী হয়, যার অর্থ তারা টোকেনগুলির জন্য প্রাসঙ্গিক স্কোর গণনা করে যে শব্দে যোগ দেওয়া হচ্ছে তার পূর্ববর্তী এবং অনুসরণ করা । উদাহরণস্বরূপ, চিত্র 3-এ লক্ষ্য করুন যে এর উভয় পাশের শব্দগুলি পরীক্ষা করা হয়েছে। সুতরাং, একটি দ্বিমুখী স্ব-মনোযোগ প্রক্রিয়া শব্দের উভয় দিকের শব্দ থেকে প্রসঙ্গ সংগ্রহ করতে পারে। বিপরীতে, একটি একমুখী স্ব-মনোযোগ প্রক্রিয়া শুধুমাত্র শব্দের একপাশে শব্দ থেকে প্রসঙ্গ সংগ্রহ করতে পারে। দ্বিমুখী স্ব-মনোযোগ বিশেষভাবে পুরো সিকোয়েন্সের উপস্থাপনা তৈরির জন্য উপযোগী, যখন টোকেন-বাই-টোকেন সিকোয়েন্স তৈরি করে এমন অ্যাপ্লিকেশনগুলির জন্য একমুখী স্ব-মনোযোগ প্রয়োজন। এই কারণে, এনকোডারগুলি দ্বিমুখী স্ব-মনোযোগ ব্যবহার করে, যখন ডিকোডারগুলি একমুখী ব্যবহার করে।

মাল্টি-হেড স্ব-মনোযোগ কি?

প্রতিটি স্ব-মনোযোগ স্তর সাধারণত একাধিক স্ব-মনোযোগ মাথার সমন্বয়ে গঠিত। একটি স্তরের আউটপুট হল বিভিন্ন হেডের আউটপুটের একটি গাণিতিক অপারেশন (উদাহরণস্বরূপ, ওজনযুক্ত গড় বা ডট পণ্য)।

যেহেতু প্রতিটি স্ব-মনোযোগ স্তর এলোমেলো মানগুলিতে শুরু করা হয়, তাই বিভিন্ন হেড প্রতিটি শব্দ এবং কাছাকাছি শব্দগুলির মধ্যে বিভিন্ন সম্পর্ক শিখতে পারে। উদাহরণস্বরূপ, পূর্ববর্তী বিভাগে বর্ণিত স্ব-মনোযোগ স্তরটি কোন বিশেষ্যটি উল্লেখ করেছে তা নির্ধারণের উপর দৃষ্টি নিবদ্ধ করে। যাইহোক, অন্যান্য স্ব-মনোযোগ স্তরগুলি প্রতিটি শব্দের সাথে প্রতিটি শব্দের ব্যাকরণগত প্রাসঙ্গিকতা শিখতে পারে বা অন্যান্য মিথস্ক্রিয়া শিখতে পারে।

LLM-এর জন্য Big O সম্পর্কে জানতে আইকনে ক্লিক করুন।

আত্ম-মনোযোগ প্রেক্ষাপটের প্রতিটি শব্দকে প্রেক্ষাপটে অন্য সমস্ত শব্দের প্রাসঙ্গিকতা শিখতে বাধ্য করে। সুতরাং, এটি একটি O(N ² ) সমস্যা ঘোষণা করতে প্রলুব্ধ হয়, যেখানে:

N হল প্রেক্ষাপটে টোকেনের সংখ্যা।

যেন পূর্ববর্তী বিগ ও যথেষ্ট বিরক্তিকর ছিল না, ট্রান্সফরমারে একাধিক স্ব-মনোযোগ স্তর এবং স্ব-মনোযোগ স্তর প্রতি একাধিক স্ব-মনোযোগ মাথা থাকে, তাই বিগ ও আসলে:

O(N² · S · D)

কোথায়:

S হল স্ব-মনোযোগ স্তরের সংখ্যা।
D হল প্রতি স্তরের মাথার সংখ্যা।

এলএলএম কীভাবে প্রশিক্ষিত হয় সে সম্পর্কে আরও জানতে আইকনে ক্লিক করুন।

আপনি সম্ভবত স্ক্র্যাচ থেকে এলএলএম প্রশিক্ষণ দেবেন না। একটি শিল্প-শক্তির এলএলএম প্রশিক্ষণের জন্য প্রচুর পরিমাণে এমএল দক্ষতা, গণনামূলক সংস্থান এবং সময় প্রয়োজন। যাই হোক না কেন, আপনি আরও জানতে আইকনে ক্লিক করেছেন, তাই আমরা আপনাকে একটি ব্যাখ্যা দিতে বাধ্য।

একটি এলএলএম তৈরির প্রাথমিক উপাদান হল প্রশিক্ষণ ডেটার একটি অসাধারণ পরিমাণ (টেক্সট), যা সাধারণত কিছুটা ফিল্টার করা হয়। প্রশিক্ষণের প্রথম পর্যায়টি সাধারণত সেই প্রশিক্ষণের ডেটার উপর তত্ত্বাবধানহীন শিক্ষার কিছু রূপ। বিশেষত, মডেলটি মুখোশযুক্ত ভবিষ্যদ্বাণীগুলির উপর প্রশিক্ষণ দেয়, যার অর্থ প্রশিক্ষণের ডেটাতে নির্দিষ্ট টোকেনগুলি ইচ্ছাকৃতভাবে লুকানো হয়৷ মডেল অনুপস্থিত টোকেন ভবিষ্যদ্বাণী করার চেষ্টা করে ট্রেন. উদাহরণস্বরূপ, অনুমান করুন নিম্নলিখিত বাক্যটি প্রশিক্ষণ ডেটার অংশ:

The residents of the sleepy town weren't prepared for what came next.

র্যান্ডম টোকেনগুলি সরানো হয়, উদাহরণস্বরূপ:

The ___ of the sleepy town weren't prepared for ___ came next.

একটি LLM শুধুমাত্র একটি নিউরাল নেট, তাই ক্ষতি (মডেলটি সঠিকভাবে বিবেচনা করা মাস্কড টোকেনের সংখ্যা) ব্যাকপ্রোপগেশন পরামিতি মানগুলিকে আপডেট করে এমন ডিগ্রী নির্দেশ করে।

অনুপস্থিত ডেটার পূর্বাভাস দেওয়ার জন্য প্রশিক্ষিত একটি ট্রান্সফরমার-ভিত্তিক মডেল ধীরে ধীরে অনুপস্থিত টোকেন সম্পর্কে সূত্র পেতে ডেটাতে প্যাটার্ন এবং উচ্চ-ক্রম কাঠামো সনাক্ত করতে শেখে। নিম্নলিখিত উদাহরণ মাস্কড উদাহরণ বিবেচনা করুন:

Oranges are traditionally ___ by hand. Once clipped from a tree, __ don't ripen.

প্রচুর সংখ্যক মুখোশযুক্ত উদাহরণের উপর বিস্তৃত প্রশিক্ষণ একজন LLM কে শিখতে সক্ষম করে যে প্রথম টোকেনের জন্য "ফসল করা" বা "বাছাই করা" উচ্চ সম্ভাবনার মিল এবং দ্বিতীয় টোকেনের জন্য "কমলা" বা "তারা" ভাল পছন্দ।

নির্দেশনা টিউনিং নামে একটি ঐচ্ছিক আরও প্রশিক্ষণের ধাপ নির্দেশাবলী অনুসরণ করার জন্য একজন এলএলএম-এর ক্ষমতাকে উন্নত করতে পারে।

ট্রান্সফরমার এত বড় কেন?

ট্রান্সফরমারে শত শত বিলিয়ন বা এমনকি ট্রিলিয়ন প্যারামিটার থাকে। এই কোর্সটি সাধারণত বড় সংখ্যক প্যারামিটারের তুলনায় কম সংখ্যক প্যারামিটার সহ বিল্ডিং মডেলের সুপারিশ করেছে। সর্বোপরি, একটি ছোট সংখ্যক প্যারামিটার সহ একটি মডেল বড় সংখ্যক প্যারামিটার সহ একটি মডেলের তুলনায় ভবিষ্যদ্বাণী করতে কম সংস্থান ব্যবহার করে। যাইহোক, গবেষণা দেখায় যে বেশি পরামিতি সহ ট্রান্সফরমারগুলি ধারাবাহিকভাবে কম প্যারামিটারের সাথে ট্রান্সফরমারকে ছাড়িয়ে যায়।

কিন্তু কিভাবে একটি LLM পাঠ্য তৈরি করে ?

আপনি দেখেছেন যে কীভাবে গবেষকরা LLM-কে একটি অনুপস্থিত শব্দ বা দুটি ভবিষ্যদ্বাণী করতে প্রশিক্ষণ দেন এবং আপনি হয়ত মুগ্ধ হবেন না। সর্বোপরি, একটি বা দুটি শব্দের ভবিষ্যদ্বাণী করা মূলত স্বয়ংসম্পূর্ণ বৈশিষ্ট্য যা বিভিন্ন পাঠ্য, ইমেল এবং অথরিং সফ্টওয়্যারের মধ্যে নির্মিত। আপনি হয়ত ভাবছেন কিভাবে LLM গুলি সালিশ সম্পর্কে বাক্য বা অনুচ্ছেদ বা হাইকুস তৈরি করতে পারে।

প্রকৃতপক্ষে, এলএলএমগুলি মূলত স্বয়ংসম্পূর্ণ প্রক্রিয়া যা স্বয়ংক্রিয়ভাবে হাজার হাজার টোকেনের পূর্বাভাস (সম্পূর্ণ) করতে পারে। উদাহরণস্বরূপ, একটি মুখোশযুক্ত বাক্য অনুসরণ করে একটি বাক্য বিবেচনা করুন:

My dog, Max, knows how to perform many traditional dog tricks.
___ (masked sentence)

একটি LLM মুখোশযুক্ত বাক্যের জন্য সম্ভাব্যতা তৈরি করতে পারে, যার মধ্যে রয়েছে:

সম্ভাবনা	শব্দ(গুলি)
3.1%	উদাহরণস্বরূপ, তিনি বসতে পারেন, থাকতে পারেন এবং রোল ওভার করতে পারেন।
2.9%	উদাহরণস্বরূপ, তিনি কীভাবে বসতে, থাকতে এবং রোল ওভার করতে জানেন।

একটি যথেষ্ট বড় LLM অনুচ্ছেদ এবং সমগ্র রচনাগুলির জন্য সম্ভাব্যতা তৈরি করতে পারে। আপনি একটি LLM-এর কাছে ব্যবহারকারীর প্রশ্নগুলিকে একটি কাল্পনিক মুখোশ অনুসরণ করে "প্রদত্ত" বাক্য হিসাবে ভাবতে পারেন। যেমন:

User's question: What is the easiest trick to teach a dog?
LLM's response:  ___

এলএলএম বিভিন্ন সম্ভাব্য প্রতিক্রিয়ার জন্য সম্ভাবনা তৈরি করে।

আরেকটি উদাহরণ হিসেবে, প্রচুর সংখ্যক গাণিতিক "শব্দ সমস্যা" এর উপর প্রশিক্ষিত একজন এলএলএম পরিশীলিত গাণিতিক যুক্তি করার চেহারা দিতে পারে। যাইহোক, সেই এলএলএমগুলি মূলত শুধুমাত্র একটি শব্দ সমস্যা প্রম্পট স্বয়ংসম্পূর্ণ করছে।

এলএলএম এর সুবিধা

এলএলএমগুলি বিভিন্ন ধরণের লক্ষ্য দর্শকদের জন্য স্পষ্ট, সহজে বোঝা যায় এমন পাঠ্য তৈরি করতে পারে। এলএলএমরা তাদের স্পষ্টভাবে প্রশিক্ষণপ্রাপ্ত কাজের বিষয়ে ভবিষ্যদ্বাণী করতে পারে। কিছু গবেষক দাবি করেন যে এলএলএমও ইনপুটের জন্য ভবিষ্যদ্বাণী করতে পারে যে তারা স্পষ্টভাবে প্রশিক্ষিত ছিল না , তবে অন্যান্য গবেষকরা এই দাবিকে অস্বীকার করেছেন।

এলএলএম নিয়ে সমস্যা

একটি এলএলএম প্রশিক্ষণের জন্য অনেক সমস্যা রয়েছে, যার মধ্যে রয়েছে:

একটি বিশাল প্রশিক্ষণ সেট সংগ্রহ.
একাধিক মাস এবং বিপুল গণনামূলক সংস্থান এবং বিদ্যুৎ ব্যবহার করছে।
সমান্তরাল চ্যালেঞ্জ সমাধান.

ভবিষ্যদ্বাণী অনুমান করার জন্য এলএলএম ব্যবহার করলে নিম্নলিখিত সমস্যার সৃষ্টি হয়:

এলএলএম হ্যালুসিনেট করে , যার অর্থ তাদের ভবিষ্যদ্বাণীতে প্রায়ই ভুল থাকে।
এলএলএমগুলি প্রচুর পরিমাণে গণনামূলক সংস্থান এবং বিদ্যুৎ ব্যবহার করে। বৃহত্তর ডেটাসেটে এলএলএম প্রশিক্ষণ সাধারণত অনুমানের জন্য প্রয়োজনীয় সংস্থানগুলির পরিমাণ হ্রাস করে, যদিও বৃহত্তর প্রশিক্ষণ সেটগুলিতে আরও প্রশিক্ষণ সংস্থান ব্যয় হয়।
সমস্ত এমএল মডেলের মতো, এলএলএমগুলি সমস্ত ধরণের পক্ষপাত প্রদর্শন করতে পারে।

অনুশীলন: আপনার বোঝার পরীক্ষা করুন

ধরুন একটি ট্রান্সফরমারকে এক বিলিয়ন নথিতে প্রশিক্ষণ দেওয়া হয়েছে, যার মধ্যে হাজার হাজার নথি রয়েছে যেখানে হাতি শব্দের অন্তত একটি উদাহরণ রয়েছে। নিম্নলিখিত বিবৃতিগুলির মধ্যে কোনটি সম্ভবত সত্য?

বাবলা গাছ , একটি হাতির খাদ্যের একটি গুরুত্বপূর্ণ অংশ, ধীরে ধীরে হাতি শব্দটি দিয়ে একটি উচ্চ আত্ম-মনোযোগ স্কোর অর্জন করবে৷

হ্যাঁ এবং এটি ট্রান্সফরমারকে একটি হাতির খাদ্য সম্পর্কে প্রশ্নের উত্তর দিতে সক্ষম করবে।

ট্রান্সফরমার হাতি শব্দটিকে বিভিন্ন বাগধারার সাথে যুক্ত করবে যাতে হাতি শব্দটি রয়েছে।

হ্যাঁ, সিস্টেমটি হাতি শব্দ এবং হাতি শব্দের অন্যান্য শব্দের মধ্যে উচ্চ স্ব-মনোযোগ স্কোর সংযুক্ত করতে শুরু করবে।

ট্রান্সফরমারটি ধীরে ধীরে প্রশিক্ষণের তথ্যে হাতি শব্দের কোনো ব্যঙ্গাত্মক বা বিদ্রূপাত্মক ব্যবহার উপেক্ষা করতে শিখবে।

পর্যাপ্ত বিস্তৃত প্রশিক্ষণ সেটে প্রশিক্ষিত যথেষ্ট বড় ট্রান্সফরমাররা কটাক্ষ, হাস্যরস এবং বিড়ম্বনার স্বীকৃতি দিতে বেশ পারদর্শী হয়ে ওঠে। সুতরাং, ব্যঙ্গ এবং বিদ্রুপ উপেক্ষা করার পরিবর্তে, ট্রান্সফরমার এটি থেকে শিক্ষা নেয়।

LLM-তে পুনরাবৃত্ত মডেলের তুলনায় অনেক বেশি প্যারামিটার থাকে।
এলএলএম অনেক বেশি প্রসঙ্গ সংগ্রহ করে।