এই পৃষ্ঠাটি Cloud Translation API অনুবাদ করেছে।

বড় ভাষার মডেলের ভূমিকা

শেখার উদ্দেশ্য

কয়েকটি ভিন্ন ধরণের ভাষা মডেল এবং তাদের উপাদানগুলির সংজ্ঞা দাও।
কীভাবে বৃহৎ ভাষার মডেল তৈরি করা হয় এবং প্রসঙ্গ এবং পরামিতিগুলির গুরুত্ব বর্ণনা করুন।
বৃহৎ ভাষা মডেলগুলি কীভাবে আত্ম-মনোযোগের সুযোগ নেয় তা চিহ্নিত করুন।
বৃহৎ ভাষার মডেলের তিনটি মূল সমস্যা প্রকাশ করুন।
সূক্ষ্ম-সুরকরণ এবং পাতন কীভাবে একটি মডেলের ভবিষ্যদ্বাণী এবং দক্ষতা উন্নত করতে পারে তা ব্যাখ্যা করুন।

একটি ভাষা মডেল কী?

একটি ভাষা মডেল একটি দীর্ঘ টোকেনের ক্রম অনুসারে একটি টোকেন বা টোকেনের ক্রম সংঘটিত হওয়ার সম্ভাবনা অনুমান করে। একটি টোকেন একটি শব্দ, একটি উপশব্দ (একটি শব্দের একটি উপসেট), এমনকি একটি একক অক্ষরও হতে পারে।

টোকেন সম্পর্কে আরও জানতে আইকনে ক্লিক করুন।

বেশিরভাগ আধুনিক ভাষার মডেলগুলি উপ-শব্দ দ্বারা টোকেনাইজ করা হয়, অর্থাৎ, শব্দার্থিক অর্থ ধারণকারী পাঠ্যের খণ্ড দ্বারা। খণ্ডগুলি দৈর্ঘ্যে পৃথক হতে পারে যেমন বিরামচিহ্ন বা অধিকারী s থেকে শুরু করে সম্পূর্ণ শব্দ পর্যন্ত। উপসর্গ এবং প্রত্যয়গুলি পৃথক উপ-শব্দ হিসাবে উপস্থাপিত হতে পারে। উদাহরণস্বরূপ, unwatched শব্দটি নিম্নলিখিত তিনটি উপ-শব্দ দ্বারা উপস্থাপিত হতে পারে:

un (উপসর্গ)
ঘড়ি (মূল)
এড (প্রত্যয়)

"বিড়াল" শব্দটি নিম্নলিখিত দুটি উপশব্দ দ্বারা প্রতিনিধিত্ব করা যেতে পারে:

বিড়াল (মূল)
s (প্রত্যয়)

"অ্যান্টিডিসেস্টাব্লিশমেন্টারিয়ানিজম" এর মতো আরও জটিল শব্দকে ছয়টি উপশব্দ হিসেবে উপস্থাপন করা যেতে পারে:

বিরোধী
ডিস
প্রতিষ্ঠা করা
মেন্ট
আরিয়ান
ism সম্পর্কে

টোকেনাইজেশন ভাষাভিত্তিক, তাই প্রতিটি টোকেনের অক্ষরের সংখ্যা বিভিন্ন ভাষায় ভিন্ন। ইংরেজির ক্ষেত্রে, একটি টোকেন ~৪টি অক্ষর বা একটি শব্দের প্রায় ৩/৪ অংশের সমান, তাই ৪০০টি টোকেন ~= ৩০০টি ইংরেজি শব্দ।

টোকেন হলো ভাষা মডেলিংয়ের পারমাণবিক একক বা ক্ষুদ্রতম একক।

টোকেনগুলি এখন কম্পিউটার ভিশন এবং অডিও জেনারেশনেও সফলভাবে প্রয়োগ করা হচ্ছে।

নিম্নলিখিত বাক্যটি এবং এটি সম্পূর্ণ করতে পারে এমন টোকেন(গুলি) বিবেচনা করুন:

When I hear rain on my roof, I _______ in my kitchen.

একটি ভাষা মডেল বিভিন্ন টোকেন বা টোকেনের ক্রম অনুসারে শূন্যস্থান পূরণের সম্ভাব্যতা নির্ধারণ করে। উদাহরণস্বরূপ, নিম্নলিখিত সম্ভাব্যতা সারণীটি কিছু সম্ভাব্য টোকেন এবং তাদের সম্ভাব্যতা সনাক্ত করে:

সম্ভাবনা	টোকেন(গুলি)
৯.৪%	স্যুপ রান্না করো
৫.২%	কেটলি গরম করো
৩.৬%	ভীত হওয়া
২.৫%	ঘুম
২.২%	শিথিল করা

কিছু পরিস্থিতিতে, টোকেনের ক্রম একটি সম্পূর্ণ বাক্য, অনুচ্ছেদ, এমনকি একটি সম্পূর্ণ প্রবন্ধও হতে পারে।

একটি অ্যাপ্লিকেশন ভবিষ্যদ্বাণী করার জন্য সম্ভাব্যতা সারণী ব্যবহার করতে পারে। ভবিষ্যদ্বাণীটি সর্বোচ্চ সম্ভাব্যতা (উদাহরণস্বরূপ, "কুক স্যুপ") হতে পারে অথবা একটি নির্দিষ্ট থ্রেশহোল্ডের চেয়ে বেশি সম্ভাব্যতা সম্পন্ন টোকেন থেকে একটি এলোমেলো নির্বাচন হতে পারে।

একটি টেক্সট ক্রমের শূন্যস্থান পূরণের সম্ভাব্যতা অনুমান করা আরও জটিল কাজগুলিতে প্রসারিত করা যেতে পারে, যার মধ্যে রয়েছে:

টেক্সট তৈরি করা হচ্ছে।
এক ভাষা থেকে অন্য ভাষায় লেখা অনুবাদ করা।
নথিপত্রের সারসংক্ষেপ।

টোকেনের পরিসংখ্যানগত ধরণগুলিকে মডেল করার মাধ্যমে, আধুনিক ভাষা মডেলগুলি ভাষার অত্যন্ত শক্তিশালী অভ্যন্তরীণ উপস্থাপনা বিকাশ করে এবং যুক্তিসঙ্গত ভাষা তৈরি করতে পারে।

এন-গ্রাম ভাষার মডেল

N-গ্রাম হল ভাষা মডেল তৈরিতে ব্যবহৃত শব্দের ক্রমানুসারে সাজানো ক্রম, যেখানে N হল ক্রমানুসারে থাকা শব্দের সংখ্যা। উদাহরণস্বরূপ, যখন N 2 হয়, তখন N-গ্রামকে 2-গ্রাম (অথবা একটি বিগ্রাম ) বলা হয়; যখন N 5 হয়, তখন N-গ্রামকে 5-গ্রাম বলা হয়। একটি প্রশিক্ষণ নথিতে নিম্নলিখিত বাক্যাংশটি দেওয়া হল:

you are very nice

ফলস্বরূপ 2-গ্রাম নিম্নরূপ:

তুমি
খুব
খুব সুন্দর

যখন N 3 হয়, তখন N-গ্রামকে 3-গ্রাম (অথবা একটি ট্রিগ্রাম ) বলা হয়। একই বাক্যাংশের ভিত্তিতে, ফলাফল 3-গ্রাম হল:

তুমি খুব
খুব সুন্দর

দুটি শব্দ ইনপুট হিসেবে দেওয়া হলে, ৩-গ্রামের উপর ভিত্তি করে একটি ভাষা মডেল তৃতীয় শব্দের সম্ভাবনা ভবিষ্যদ্বাণী করতে পারে। উদাহরণস্বরূপ, নিম্নলিখিত দুটি শব্দের প্রেক্ষিতে:

orange is

একটি ভাষা মডেল তার প্রশিক্ষণ কর্পাস থেকে প্রাপ্ত সমস্ত 3-গ্রাম পরীক্ষা করে যা orange is দিয়ে শুরু হয় orange is সবচেয়ে সম্ভাব্য তৃতীয় শব্দটি নির্ধারণ করার জন্য। শত শত 3-গ্রাম দুটি শব্দ দিয়ে শুরু হতে পারে, তবে আপনি কেবল নিম্নলিখিত দুটি সম্ভাবনার উপর মনোনিবেশ করতে পারেন:

orange is ripe
orange is cheerful

প্রথম সম্ভাবনা ( orange is ripe ) হল ফলের কমলা রঙ সম্পর্কে, আর দ্বিতীয় সম্ভাবনা ( orange is cheerful ) হল কমলা রঙ সম্পর্কে।

প্রসঙ্গ

মানুষ তুলনামূলকভাবে দীর্ঘ প্রেক্ষাপট ধরে রাখতে পারে। নাটকের ৩য় নং অ্যাক্ট দেখার সময়, আপনি অ্যাক্ট ১-এ প্রবর্তিত চরিত্রগুলি সম্পর্কে জ্ঞান ধরে রাখেন। একইভাবে, একটি দীর্ঘ কৌতুকের শব্দ আপনাকে হাসাতে বাধ্য করে কারণ আপনি কৌতুকের সেটআপ থেকে প্রেক্ষাপট মনে রাখতে পারেন।

ভাষা মডেলগুলিতে, প্রসঙ্গ হল লক্ষ্য টোকেনের আগে বা পরে সহায়ক তথ্য। প্রসঙ্গ একটি ভাষা মডেলকে নির্ধারণ করতে সাহায্য করতে পারে যে "কমলা" বলতে সাইট্রাস ফল বোঝায় নাকি রঙ বোঝায়।

প্রসঙ্গ একটি ভাষা মডেলকে আরও ভালো ভবিষ্যদ্বাণী করতে সাহায্য করতে পারে, কিন্তু ৩-গ্রাম কি পর্যাপ্ত প্রসঙ্গ প্রদান করে? দুর্ভাগ্যবশত, ৩-গ্রামের প্রসঙ্গই একমাত্র প্রথম দুটি শব্দ প্রদান করে। উদাহরণস্বরূপ, orange is শব্দটি দুটি ভাষা মডেলকে তৃতীয় শব্দটির ভবিষ্যদ্বাণী করার জন্য পর্যাপ্ত প্রসঙ্গ প্রদান করে না। প্রসঙ্গ না থাকার কারণে, ৩-গ্রামের উপর ভিত্তি করে তৈরি ভাষা মডেলগুলি অনেক ভুল করে।

লম্বা N-গ্রাম অবশ্যই ছোট N-গ্রামের তুলনায় বেশি প্রসঙ্গ প্রদান করবে। তবে, N বৃদ্ধির সাথে সাথে প্রতিটি উদাহরণের আপেক্ষিক উপস্থিতি হ্রাস পায়। যখন N খুব বড় হয়ে যায়, তখন ভাষা মডেলে সাধারণত N টোকেনের প্রতিটি ঘটনার একটি মাত্র উদাহরণ থাকে, যা লক্ষ্য টোকেন পূর্বাভাস দেওয়ার ক্ষেত্রে খুব একটা সহায়ক নয়।

পুনরাবৃত্ত নিউরাল নেটওয়ার্ক

পুনরাবৃত্ত নিউরাল নেটওয়ার্কগুলি N-গ্রামের চেয়ে বেশি প্রসঙ্গ প্রদান করে। পুনরাবৃত্ত নিউরাল নেটওয়ার্ক হল এক ধরণের নিউরাল নেটওয়ার্ক যা টোকেনের ক্রম অনুসারে প্রশিক্ষণ দেয়। উদাহরণস্বরূপ, একটি পুনরাবৃত্ত নিউরাল নেটওয়ার্ক ধীরে ধীরে বাক্যের প্রতিটি শব্দ থেকে নির্বাচিত প্রসঙ্গ শিখতে পারে (এবং উপেক্ষা করতে শিখতে পারে), ঠিক যেমন আপনি কারো কথা শোনার সময় করেন। একটি বৃহৎ পুনরাবৃত্ত নিউরাল নেটওয়ার্ক বেশ কয়েকটি বাক্যের অংশ থেকে প্রসঙ্গ পেতে পারে।

যদিও পুনরাবৃত্ত নিউরাল নেটওয়ার্কগুলি N-গ্রামের তুলনায় বেশি প্রসঙ্গ শেখে, তবুও কার্যকর প্রসঙ্গ পুনরাবৃত্ত নিউরাল নেটওয়ার্কগুলি কতটা অন্তর্দৃষ্টি দিতে পারে তা এখনও তুলনামূলকভাবে সীমিত। পুনরাবৃত্ত নিউরাল নেটওয়ার্কগুলি "টোকেন দ্বারা" তথ্য মূল্যায়ন করে। বিপরীতে, বৃহৎ ভাষা মডেলগুলি - পরবর্তী বিভাগের বিষয় - একবারে পুরো প্রসঙ্গ মূল্যায়ন করতে পারে।

মনে রাখবেন যে দীর্ঘ প্রেক্ষাপটের জন্য পুনরাবৃত্ত নিউরাল নেটওয়ার্কগুলিকে প্রশিক্ষণ দেওয়া ভ্যানিশিং গ্রেডিয়েন্ট সমস্যার কারণে সীমাবদ্ধ।

অনুশীলন: আপনার বোধগম্যতা পরীক্ষা করুন

কোন ভাষার মডেল ইংরেজি লেখার জন্য আরও ভালো ভবিষ্যদ্বাণী করে?

৬-গ্রামের উপর ভিত্তি করে একটি ভাষার মডেল
৫-গ্রামের উপর ভিত্তি করে একটি ভাষার মডেল

উত্তরটি প্রশিক্ষণ সেটের আকার এবং বৈচিত্র্যের উপর নির্ভর করে।

যদি প্রশিক্ষণ সেটটি লক্ষ লক্ষ বৈচিত্র্যময় নথির উপর বিস্তৃত হয়, তাহলে 6-গ্রাম ভিত্তিক মডেলটি সম্ভবত 5-গ্রাম ভিত্তিক মডেলকে ছাড়িয়ে যাবে।

৬-গ্রামের উপর ভিত্তি করে ভাষার মডেল।

এই ভাষা মডেলটিতে আরও প্রসঙ্গ রয়েছে, কিন্তু যদি না এই মডেলটি অনেক নথির উপর প্রশিক্ষণ না নেয়, তাহলে 6-গ্রামের বেশিরভাগই বিরল হবে।

৫-গ্রামের উপর ভিত্তি করে ভাষার মডেল।

এই ভাষা মডেলের প্রেক্ষাপট কম, তাই এটি ৬-গ্রামের উপর ভিত্তি করে ভাষা মডেলকে ছাড়িয়ে যাওয়ার সম্ভাবনা কম।

পূর্ববর্তী

আপনার জ্ঞান পরীক্ষা করুন (10 মিনিট)

পরবর্তী

একটি বড় ভাষা মডেল কি? (15 মিনিট)