এই পৃষ্ঠাটি Cloud Translation API অনুবাদ করেছে।

বড় ভাষার মডেল

শেখার উদ্দেশ্য

কয়েকটি ভিন্ন ধরনের ভাষার মডেল এবং তাদের উপাদান সংজ্ঞায়িত করুন।
কিভাবে বড় ভাষা মডেল তৈরি করা হয় এবং প্রসঙ্গ এবং পরামিতিগুলির গুরুত্ব বর্ণনা করুন।
বৃহৎ ভাষার মডেলগুলি কীভাবে স্ব-মনোযোগের সুবিধা নেয় তা চিহ্নিত করুন।
বড় ভাষা মডেলের সাথে তিনটি মূল সমস্যা প্রকাশ করুন।
ব্যাখ্যা করুন কিভাবে ফাইন-টিউনিং এবং ডিস্টিলেশন একটি মডেলের ভবিষ্যদ্বাণী এবং দক্ষতা উন্নত করতে পারে।

একটি ভাষা মডেল কি?

একটি ভাষা মডেল একটি টোকেন বা টোকেনগুলির ক্রম টোকেনগুলির একটি দীর্ঘ অনুক্রমের মধ্যে ঘটানোর সম্ভাবনা অনুমান করে৷ একটি টোকেন একটি শব্দ, একটি উপশব্দ (একটি শব্দের একটি উপসেট), বা এমনকি একটি একক অক্ষর হতে পারে।

টোকেন সম্পর্কে আরও জানতে আইকনে ক্লিক করুন।

বেশিরভাগ আধুনিক ভাষার মডেলগুলি সাবওয়ার্ড দ্বারা টোকেনাইজ করে, অর্থাত্ শব্দার্থিক অর্থ ধারণকারী পাঠ্যের অংশ দ্বারা। অংশগুলি একক অক্ষর যেমন বিরাম চিহ্ন বা possessive s থেকে পুরো শব্দ পর্যন্ত দৈর্ঘ্যে পরিবর্তিত হতে পারে। উপসর্গ এবং প্রত্যয়গুলি পৃথক সাবওয়ার্ড হিসাবে উপস্থাপিত হতে পারে। উদাহরণস্বরূপ, unwatched শব্দটি নিম্নলিখিত তিনটি সাবওয়ার্ড দ্বারা উপস্থাপন করা যেতে পারে:

আন (উপসর্গ)
ঘড়ি (মূল)
ed (প্রত্যয়)

বিড়াল শব্দটি নিম্নলিখিত দুটি উপশব্দ দ্বারা প্রতিনিধিত্ব করা যেতে পারে:

বিড়াল (মূল)
s (প্রত্যয়)

একটি আরও জটিল শব্দ যেমন "antidisestablishmentariism" ছয়টি উপশব্দ হিসাবে উপস্থাপন করা যেতে পারে:

বিরোধী
dis
প্রতিষ্ঠা
ment
আরিয়ান
ism

টোকেনাইজেশন ভাষা নির্দিষ্ট, তাই প্রতি টোকেন অক্ষরের সংখ্যা বিভিন্ন ভাষা জুড়ে আলাদা। ইংরেজির জন্য, একটি টোকেন ~4 অক্ষর বা একটি শব্দের প্রায় 3/4 এর সাথে মিলে যায়, তাই 400 টোকেন ~= 300 ইংরেজি শব্দ।

টোকেন হল পারমাণবিক একক বা ভাষার মডেলিংয়ের ক্ষুদ্রতম একক।

টোকেন এখন সফলভাবে কম্পিউটার ভিশন এবং অডিও জেনারেশনেও প্রয়োগ করা হচ্ছে।

নিম্নলিখিত বাক্য এবং টোকেন(গুলি) বিবেচনা করুন যা এটি সম্পূর্ণ করতে পারে:

When I hear rain on my roof, I _______ in my kitchen.

একটি ভাষা মডেল বিভিন্ন টোকেন বা টোকেনগুলির ক্রমগুলির সম্ভাব্যতা নির্ধারণ করে সেই ফাঁকাটি সম্পূর্ণ করতে। উদাহরণস্বরূপ, নিম্নলিখিত সম্ভাব্যতা সারণীটি কিছু সম্ভাব্য টোকেন এবং তাদের সম্ভাব্যতা চিহ্নিত করে:

সম্ভাবনা	টোকেন(গুলি)
9.4%	স্যুপ রান্না করা
5.2%	একটি কেটলি গরম করুন
3.6%	cower
2.5%	ঘুম
2.2%	শিথিল করা

কিছু পরিস্থিতিতে, টোকেনগুলির ক্রম একটি সম্পূর্ণ বাক্য, অনুচ্ছেদ বা এমনকি একটি সম্পূর্ণ প্রবন্ধও হতে পারে।

একটি অ্যাপ্লিকেশন ভবিষ্যদ্বাণী করতে সম্ভাব্যতা সারণী ব্যবহার করতে পারে। ভবিষ্যদ্বাণীটি সর্বোচ্চ সম্ভাব্যতা হতে পারে (উদাহরণস্বরূপ, "কুক স্যুপ") বা একটি নির্দিষ্ট থ্রেশহোল্ডের চেয়ে বেশি সম্ভাবনা থাকা টোকেনগুলি থেকে একটি এলোমেলো নির্বাচন।

টেক্সট সিকোয়েন্সে শূন্যস্থানে কী পূরণ হবে তার সম্ভাব্যতা অনুমান করা আরও জটিল কাজগুলিতে প্রসারিত করা যেতে পারে, যার মধ্যে রয়েছে:

টেক্সট তৈরি করা হচ্ছে।
এক ভাষা থেকে অন্য ভাষায় পাঠ্য অনুবাদ করা।
নথি সারসংক্ষেপ.

টোকেনগুলির পরিসংখ্যানগত নিদর্শনগুলির মডেলিংয়ের মাধ্যমে, আধুনিক ভাষার মডেলগুলি ভাষার অত্যন্ত শক্তিশালী অভ্যন্তরীণ উপস্থাপনা বিকাশ করে এবং প্রশংসনীয় ভাষা তৈরি করতে পারে।

এন-গ্রাম ভাষার মডেল

N-গ্রামগুলি ভাষা মডেল তৈরি করতে ব্যবহৃত শব্দগুলির ক্রমানুসারে ক্রমানুসারে, যেখানে N হল অনুক্রমের শব্দের সংখ্যা। উদাহরণস্বরূপ, যখন N 2 হয়, N-গ্রামকে 2-গ্রাম (বা একটি বিগ্রাম ) বলা হয়; যখন N 5 হয়, N-গ্রামকে 5-গ্রাম বলা হয়। একটি প্রশিক্ষণ নথিতে নিম্নলিখিত বাক্যাংশ দেওয়া হয়েছে:

you are very nice

ফলস্বরূপ 2-গ্রাম নিম্নরূপ:

আপনি
খুব
খুব সুন্দর

যখন N 3 হয়, N-গ্রামকে 3-গ্রাম (বা একটি ট্রিগ্রাম ) বলা হয়। একই বাক্যাংশ দেওয়া, ফলে 3-গ্রাম হল:

আপনি খুব
খুব সুন্দর

ইনপুট হিসাবে দুটি শব্দ দেওয়া, 3-গ্রামের উপর ভিত্তি করে একটি ভাষা মডেল তৃতীয় শব্দের সম্ভাবনা ভবিষ্যদ্বাণী করতে পারে। উদাহরণস্বরূপ, নিম্নলিখিত দুটি শব্দ দেওয়া:

orange is

একটি ভাষা মডেল তার প্রশিক্ষণ কর্পাস থেকে প্রাপ্ত বিভিন্ন 3-গ্রাম পরীক্ষা করে যা orange is দিয়ে শুরু হয় সবচেয়ে সম্ভাব্য তৃতীয় শব্দটি নির্ধারণ করতে। শত শত 3-গ্রাম দুটি শব্দ orange is দিয়ে শুরু হতে পারে, কিন্তু আপনি শুধুমাত্র নিম্নলিখিত দুটি সম্ভাবনার উপর ফোকাস করতে পারেন:

orange is ripe
orange is cheerful

প্রথম সম্ভাবনা ( orange is ripe ) কমলা ফল সম্পর্কে, যখন দ্বিতীয় সম্ভাবনা ( orange is cheerful ) রঙ কমলা সম্পর্কে।

প্রসঙ্গ

মানুষ অপেক্ষাকৃত দীর্ঘ প্রসঙ্গ ধরে রাখতে পারে। একটি নাটকের অ্যাক্ট 3 দেখার সময়, আপনি অ্যাক্ট 1-এ প্রবর্তিত চরিত্রগুলির জ্ঞান ধরে রাখেন। একইভাবে, একটি দীর্ঘ কৌতুকের পাঞ্চলাইন আপনাকে হাসায় কারণ আপনি কৌতুকের সেটআপ থেকে প্রসঙ্গটি মনে রাখতে পারেন।

ভাষা মডেলে, লক্ষ্য টোকেনের আগে বা পরে প্রসঙ্গ সহায়ক তথ্য। প্রসঙ্গ একটি ভাষা মডেল নির্ধারণ করতে সাহায্য করতে পারে যে "কমলা" একটি সাইট্রাস ফল বা একটি রঙ বোঝায় কিনা।

প্রসঙ্গ একটি ভাষা মডেলকে আরও ভাল ভবিষ্যদ্বাণী করতে সাহায্য করতে পারে, কিন্তু একটি 3-গ্রাম কি যথেষ্ট প্রসঙ্গ প্রদান করে? দুর্ভাগ্যবশত, 3-গ্রামের একমাত্র প্রসঙ্গ প্রথম দুটি শব্দ। উদাহরণস্বরূপ, দুটি শব্দ orange is তৃতীয় শব্দের পূর্বাভাস দেওয়ার জন্য ভাষা মডেলের জন্য যথেষ্ট প্রসঙ্গ প্রদান করে না। প্রেক্ষাপটের অভাবের কারণে, 3-গ্রাম ভিত্তিক ভাষার মডেলগুলি অনেক ভুল করে।

লম্বা এন-গ্রাম অবশ্যই ছোট এন-গ্রামের চেয়ে বেশি প্রসঙ্গ সরবরাহ করবে। যাইহোক, N বৃদ্ধির সাথে সাথে প্রতিটি দৃষ্টান্তের আপেক্ষিক ঘটনা হ্রাস পায়। যখন N খুব বড় হয়ে যায়, ভাষা মডেলে সাধারণত N টোকেনগুলির প্রতিটি ঘটনার একটি মাত্র উদাহরণ থাকে, যা লক্ষ্য টোকেনের পূর্বাভাস দিতে খুব সহায়ক নয়।

পৌনঃপুনিক নিউরাল নেটওয়ার্ক

পুনরাবৃত্ত নিউরাল নেটওয়ার্ক এন-গ্রামের চেয়ে বেশি প্রসঙ্গ প্রদান করে। একটি পুনরাবৃত্ত নিউরাল নেটওয়ার্ক হল এক ধরণের নিউরাল নেটওয়ার্ক যা টোকেনের ক্রম অনুসারে প্রশিক্ষণ দেয়। উদাহরণস্বরূপ, একটি পুনরাবৃত্ত নিউরাল নেটওয়ার্ক ধীরে ধীরে একটি বাক্যে প্রতিটি শব্দ থেকে নির্বাচিত প্রসঙ্গ শিখতে পারে (এবং উপেক্ষা করতে শিখতে পারে), যেমন আপনি কারো কথা শোনার সময় করবেন। একটি বড় পুনরাবৃত্ত নিউরাল নেটওয়ার্ক বেশ কয়েকটি বাক্যের উত্তরণ থেকে প্রসঙ্গ লাভ করতে পারে।

যদিও পুনরাবৃত্ত নিউরাল নেটওয়ার্কগুলি এন-গ্রামের চেয়ে বেশি প্রসঙ্গ শিখে, তবে প্রয়োজনীয় প্রসঙ্গ পৌনঃপুনিক নিউরাল নেটওয়ার্কের পরিমাণ এখনও তুলনামূলকভাবে সীমিত। পুনরাবৃত্ত নিউরাল নেটওয়ার্ক "টোকেন দ্বারা টোকেন" তথ্য মূল্যায়ন করে। বিপরীতে, বড় ভাষার মডেল-পরবর্তী বিভাগের বিষয়-একবারে পুরো প্রসঙ্গ মূল্যায়ন করতে পারে।

মনে রাখবেন যে দীর্ঘ প্রেক্ষাপটের জন্য পুনরাবৃত্ত নিউরাল নেটওয়ার্কের প্রশিক্ষণ অদৃশ্য গ্রেডিয়েন্ট সমস্যা দ্বারা সীমাবদ্ধ।

অনুশীলন: আপনার বোঝার পরীক্ষা করুন

কোন ভাষা মডেল ইংরেজি পাঠ্যের জন্য ভাল ভবিষ্যদ্বাণী করে?

6-গ্রামের উপর ভিত্তি করে একটি ভাষা মডেল
5-গ্রামের উপর ভিত্তি করে একটি ভাষা মডেল

উত্তরটি প্রশিক্ষণ সেটের আকার এবং বৈচিত্র্যের উপর নির্ভর করে।

যদি প্রশিক্ষণ সেটটি লক্ষ লক্ষ বিভিন্ন নথিতে বিস্তৃত হয়, তাহলে 6-গ্রামের উপর ভিত্তি করে মডেলটি সম্ভবত 5-গ্রামের উপর ভিত্তি করে মডেলটিকে ছাড়িয়ে যাবে।

6-গ্রামের উপর ভিত্তি করে ভাষার মডেল।

এই ভাষা মডেলের আরও প্রসঙ্গ রয়েছে, কিন্তু এই মডেলটি অনেক নথির উপর প্রশিক্ষণ না নিলে 6-গ্রামের বেশিরভাগই বিরল হবে।

5-গ্রামের উপর ভিত্তি করে ভাষার মডেল।

এই ভাষা মডেলের কম প্রসঙ্গ আছে, তাই এটি 6-গ্রামের উপর ভিত্তি করে ভাষা মডেলকে ছাড়িয়ে যাওয়ার সম্ভাবনা কম।

পূর্ববর্তী

আপনার জ্ঞান পরীক্ষা করুন (10 মিনিট)

পরবর্তী

একটি বড় ভাষা মডেল কি? (15 মিনিট)