পূর্ববর্তী ইউনিট সাধারণ-উদ্দেশ্য এলএলএমগুলিকে বর্ণনা করেছে, যা বিভিন্নভাবে পরিচিত:
- ফাউন্ডেশন এলএলএম
- বেস এলএলএম
- প্রাক-প্রশিক্ষিত এলএলএম
একটি ফাউন্ডেশন এলএলএম ব্যাকরণ, শব্দ এবং বাগধারা সম্পর্কে উল্লেখযোগ্য পরিমাণ "জানা" করার জন্য যথেষ্ট প্রাকৃতিক ভাষায় প্রশিক্ষিত হয়। একটি ফাউন্ডেশন ল্যাঙ্গুয়েজ মডেল যে বিষয়গুলিতে প্রশিক্ষিত তা সম্পর্কে সহায়ক বাক্য তৈরি করতে পারে। তদুপরি, একটি ফাউন্ডেশন এলএলএম কিছু কাজ সম্পাদন করতে পারে যা ঐতিহ্যগতভাবে "সৃজনশীল" নামে পরিচিত, যেমন কবিতা লেখা। যাইহোক, একটি ফাউন্ডেশন এলএলএম এর জেনারেটিভ টেক্সট আউটপুট অন্যান্য ধরণের সাধারণ এমএল সমস্যার সমাধান নয়, যেমন রিগ্রেশন বা শ্রেণীবিভাগ। এই ব্যবহারের ক্ষেত্রে, একটি ফাউন্ডেশন এলএলএম সমাধানের পরিবর্তে একটি প্ল্যাটফর্ম হিসাবে কাজ করতে পারে।
একটি ফাউন্ডেশন এলএলএমকে একটি সমাধানে রূপান্তরিত করতে যা একটি অ্যাপ্লিকেশনের চাহিদা পূরণ করে একটি প্রক্রিয়ার প্রয়োজন হয় যাকে বলা হয় ফাইন-টিউনিং । পাতন নামক একটি সেকেন্ডারি প্রক্রিয়া ফাইন-টিউনড মডেলের একটি ছোট (কম প্যারামিটার) সংস্করণ তৈরি করে।
ফাইন-টিউনিং
গবেষণা দেখায় যে ফাউন্ডেশন ল্যাঙ্গুয়েজ মডেলের প্যাটার্ন-স্বীকৃতি ক্ষমতা এতটাই শক্তিশালী যে নির্দিষ্ট কাজ শেখার জন্য তাদের মাঝে মাঝে অপেক্ষাকৃত সামান্য অতিরিক্ত প্রশিক্ষণের প্রয়োজন হয়। এই অতিরিক্ত প্রশিক্ষণ মডেলটিকে একটি নির্দিষ্ট কাজের বিষয়ে আরও ভাল ভবিষ্যদ্বাণী করতে সাহায্য করে। এই অতিরিক্ত প্রশিক্ষণ, যাকে ফাইন-টিউনিং বলা হয়, একটি এলএলএম-এর ব্যবহারিক দিক খুলে দেয়।
আপনার অ্যাপ্লিকেশানটি যে কাজটি সম্পাদন করবে তার নির্দিষ্ট উদাহরণগুলির উপর ফাইন-টিউনিং ট্রেনগুলি। ইঞ্জিনিয়াররা কখনও কখনও মাত্র কয়েকশ বা কয়েক হাজার প্রশিক্ষণের উদাহরণের ভিত্তিতে একটি ফাউন্ডেশন এলএলএমকে সূক্ষ্মভাবে তৈরি করতে পারে।
তুলনামূলকভাবে অল্প সংখ্যক প্রশিক্ষণের উদাহরণ থাকা সত্ত্বেও, স্ট্যান্ডার্ড ফাইন-টিউনিং প্রায়শই গণনাগতভাবে ব্যয়বহুল। কারণ স্ট্যান্ডার্ড ফাইন-টিউনিং এর সাথে প্রতিটি ব্যাকপ্রোপাগেশন পুনরাবৃত্তিতে প্রতিটি প্যারামিটারের ওজন এবং পক্ষপাত আপডেট করা জড়িত। সৌভাগ্যবশত, প্যারামিটার-দক্ষ টিউনিং নামক একটি বুদ্ধিমান প্রক্রিয়া প্রতিটি ব্যাকপ্রোপ্যাগেশন পুনরাবৃত্তিতে প্যারামিটারের একটি উপসেট সামঞ্জস্য করে একটি এলএলএমকে সূক্ষ্ম-টিউন করতে পারে।
একটি সূক্ষ্ম সুর করা মডেলের ভবিষ্যদ্বাণী সাধারণত ফাউন্ডেশন এলএলএম-এর ভবিষ্যদ্বাণীর চেয়ে ভালো হয়। যাইহোক, ফাইন-টিউনড মডেলে ফাউন্ডেশন এলএলএম-এর মতো একই সংখ্যক প্যারামিটার থাকে। সুতরাং, যদি একটি ফাউন্ডেশন এলএলএম দশ বিলিয়ন পরামিতি ধারণ করে, তাহলে সূক্ষ্ম সুর করা সংস্করণেও দশ বিলিয়ন প্যারামিটার থাকবে।
পাতন
বেশিরভাগ সূক্ষ্ম-টিউনড এলএলএম-এ প্রচুর সংখ্যক পরামিতি থাকে। ফলস্বরূপ, ফাউন্ডেশন এলএলএম-এর জন্য ভবিষ্যদ্বাণী তৈরি করার জন্য প্রচুর কম্পিউটেশনাল এবং পরিবেশগত সংস্থান প্রয়োজন। নোট করুন যে এই প্যারামিটারগুলির বড় অংশগুলি সাধারণত একটি নির্দিষ্ট অ্যাপ্লিকেশনের জন্য অপ্রাসঙ্গিক।
পাতন একটি LLM এর একটি ছোট সংস্করণ তৈরি করে। পাতিত LLM অনেক দ্রুত ভবিষ্যদ্বাণী তৈরি করে এবং সম্পূর্ণ LLM-এর তুলনায় কম কম্পিউটেশনাল এবং পরিবেশগত সংস্থান প্রয়োজন। যাইহোক, পাতিত মডেলের ভবিষ্যদ্বাণীগুলি সাধারণত আসল LLM-এর ভবিষ্যদ্বাণীগুলির মতো যথেষ্ট ভাল নয়৷ মনে রাখবেন যে বেশি প্যারামিটার সহ এলএলএমগুলি প্রায় সবসময়ই কম প্যারামিটার সহ এলএলএমগুলির চেয়ে ভাল পূর্বাভাস তৈরি করে৷
প্রম্পট ইঞ্জিনিয়ারিং
প্রম্পট ইঞ্জিনিয়ারিং একটি এলএলএম-এর শেষ ব্যবহারকারীদের মডেলের আউটপুট কাস্টমাইজ করতে সক্ষম করে। অর্থাৎ, শেষ ব্যবহারকারীরা স্পষ্ট করে দেয় কিভাবে LLM তাদের প্রম্পটে সাড়া দেবে।
মানুষ উদাহরণ থেকে ভাল শিখে. তাই এলএলএম করুন। একটি এলএলএম-এ একটি উদাহরণ দেখানোকে বলা হয় ওয়ান-শট প্রম্পটিং । উদাহরণস্বরূপ, ধরুন আপনি একটি মডেলকে একটি ফলের পরিবার আউটপুট করতে নিম্নলিখিত বিন্যাসটি ব্যবহার করতে চান:
ব্যবহারকারী একটি ফলের নাম ইনপুট করে: LLM সেই ফলের ক্লাস আউটপুট করে।
একটি এক-শট প্রম্পট LLM-কে পূর্ববর্তী বিন্যাসের একটি একক উদাহরণ দেখায় এবং তারপর সেই উদাহরণের উপর ভিত্তি করে একটি প্রশ্ন সম্পূর্ণ করতে LLM-কে বলে। উদাহরণস্বরূপ:
peach: drupe apple: ______
একটি একক উদাহরণ কখনও কখনও যথেষ্ট. যদি এটি হয়, LLM একটি দরকারী ভবিষ্যদ্বাণী আউটপুট. উদাহরণস্বরূপ:
apple: pome
অন্যান্য পরিস্থিতিতে, একটি একক উদাহরণ অপর্যাপ্ত। অর্থাৎ ব্যবহারকারীকে অবশ্যই এলএলএম একাধিক উদাহরণ দেখাতে হবে। উদাহরণস্বরূপ, নিম্নলিখিত প্রম্পটে দুটি উদাহরণ রয়েছে:
plum: drupe pear: pome lemon: ____
একাধিক উদাহরণ প্রদান করাকে বলা হয় কয়েক-শট প্রম্পটিং । আপনি প্রশিক্ষণ উদাহরণ হিসাবে পূর্ববর্তী প্রম্পটের প্রথম দুটি লাইন মনে করতে পারেন।
একটি এলএলএম কি কোন উদাহরণ ছাড়াই দরকারী ভবিষ্যদ্বাণী প্রদান করতে পারে ( জিরো-শট প্রম্পটিং )? কখনও কখনও, কিন্তু প্রসঙ্গ মত LLM. প্রসঙ্গ ছাড়া, নিম্নলিখিত জিরো-শট প্রম্পট ফলের পরিবর্তে প্রযুক্তি কোম্পানি সম্পর্কে তথ্য ফেরত দিতে পারে:
apple: _______
অফলাইন অনুমান
একটি LLM-এ প্যারামিটারের সংখ্যা কখনও কখনও এত বেশি হয় যে অনলাইন অনুমানটি রিগ্রেশন বা শ্রেণীবিভাগের মতো বাস্তব-বিশ্বের কাজগুলির জন্য ব্যবহারিক হতে খুব ধীর। ফলস্বরূপ, অনেক ইঞ্জিনিয়ারিং দল এর পরিবর্তে অফলাইন অনুমানের উপর নির্ভর করে (এটি বাল্ক ইনফারেন্স বা স্ট্যাটিক ইনফারেন্স নামেও পরিচিত)। অন্য কথায়, পরিবেশনের সময় প্রশ্নের উত্তর দেওয়ার পরিবর্তে, প্রশিক্ষিত মডেল আগে থেকেই ভবিষ্যদ্বাণী করে এবং তারপর সেই ভবিষ্যদ্বাণীগুলিকে ক্যাশ করে।
একটি LLM এর কাজটি সম্পূর্ণ করতে দীর্ঘ সময় লাগে কিনা তা বিবেচ্য নয় যদি LLM শুধুমাত্র সপ্তাহে একবার বা মাসে একবার কাজটি সম্পাদন করতে হয়।
উদাহরণস্বরূপ, 50 টিরও বেশি ভাষায় কোভিড ভ্যাকসিনের 800 টিরও বেশি প্রতিশব্দের তালিকা ক্যাশ করার জন্য Google অনুসন্ধান অফলাইন অনুমান সম্পাদন করতে একটি LLM ব্যবহার করেছে ৷ Google অনুসন্ধান তখন লাইভ ট্র্যাফিকের ভ্যাকসিন সম্পর্কে প্রশ্নগুলি সনাক্ত করতে ক্যাশে করা তালিকা ব্যবহার করে।
দায়িত্বের সাথে এলএলএম ব্যবহার করুন
যে কোনো ধরনের মেশিন লার্নিংয়ের মতো, এলএলএম সাধারণত এর পক্ষপাতিত্ব শেয়ার করে:
- যে ডাটা নিয়ে তাদের প্রশিক্ষণ দেওয়া হয়েছিল।
- ডাটা তারা পাতিত ছিল.
এই কোর্সে পূর্বে উপস্থাপিত পাঠের সাথে সঙ্গতিপূর্ণভাবে এবং দায়িত্বের সাথে LLM ব্যবহার করুন।