একটি নতুন প্রযুক্তি, বৃহৎ ভাষার মডেল ( এলএলএম ) একটি টোকেন বা টোকেনের অনুক্রমের পূর্বাভাস দেয়, কখনও কখনও পূর্বাভাসিত টোকেনের মূল্যের অনেক অনুচ্ছেদ। মনে রাখবেন যে একটি টোকেন একটি শব্দ, একটি সাবওয়ার্ড (একটি শব্দের একটি উপসেট), বা এমনকি একটি একক অক্ষরও হতে পারে। এলএলএমগুলি এন-গ্রাম ভাষার মডেল বা পুনরাবৃত্ত নিউরাল নেটওয়ার্কগুলির তুলনায় অনেক ভাল ভবিষ্যদ্বাণী করে কারণ:
- LLM-তে পুনরাবৃত্ত মডেলের তুলনায় অনেক বেশি প্যারামিটার থাকে।
- এলএলএম অনেক বেশি প্রসঙ্গ সংগ্রহ করে।
এই বিভাগটি এলএলএম তৈরির জন্য সবচেয়ে সফল এবং বহুল ব্যবহৃত আর্কিটেকচারের পরিচয় দেয়: ট্রান্সফরমার।
একটি ট্রান্সফরমার কি?
ট্রান্সফরমার হল অত্যাধুনিক আর্কিটেকচার যা বিভিন্ন ধরনের ভাষার মডেল অ্যাপ্লিকেশনের জন্য, যেমন অনুবাদ:
সম্পূর্ণ ট্রান্সফরমারগুলি একটি এনকোডার এবং একটি ডিকোডার নিয়ে গঠিত:
- একটি এনকোডার ইনপুট পাঠ্যকে একটি মধ্যবর্তী উপস্থাপনায় রূপান্তর করে। একটি এনকোডার একটি বিশাল নিউরাল নেট ।
- একটি ডিকোডার সেই মধ্যবর্তী উপস্থাপনাকে দরকারী পাঠ্যে রূপান্তর করে। একটি ডিকোডারও একটি বিশাল নিউরাল নেট।
উদাহরণস্বরূপ, একজন অনুবাদকের মধ্যে:
- এনকোডার ইনপুট টেক্সট (উদাহরণস্বরূপ, একটি ইংরেজি বাক্য) প্রক্রিয়া করে কিছু মধ্যবর্তী উপস্থাপনায়।
- ডিকোডার সেই মধ্যবর্তী উপস্থাপনাকে আউটপুট টেক্সটে রূপান্তর করে (উদাহরণস্বরূপ, সমতুল্য ফরাসি বাক্য)।
স্ব-মনোযোগ কি?
প্রসঙ্গ উন্নত করতে, ট্রান্সফরমাররা স্ব-মনোযোগ নামক একটি ধারণার উপর অনেক বেশি নির্ভর করে। কার্যকরীভাবে, ইনপুটের প্রতিটি টোকেনের পক্ষে, স্ব-মনোযোগ নিম্নলিখিত প্রশ্ন জিজ্ঞাসা করে:
"ইনপুটের একে অপরের টোকেন এই টোকেনের ব্যাখ্যাকে কতটা প্রভাবিত করে?"
"আত্ম-মনোযোগ" এর "স্ব" ইনপুট ক্রম বোঝায়। কিছু মনোযোগ মেকানিজম ইনপুট টোকেনের সাথে আউটপুট সিকোয়েন্সের টোকেনের সাথে ট্রান্সলেশন বা অন্য কোন সিকোয়েন্সের টোকেনের সাথে সম্পর্ককে ওজন করে। কিন্তু স্ব -মনোযোগ শুধুমাত্র ইনপুট অনুক্রমে টোকেনগুলির মধ্যে সম্পর্কের গুরুত্বকে ওজন করে।
বিষয়গুলিকে সহজ করার জন্য, ধরে নিন যে প্রতিটি টোকেন একটি শব্দ এবং সম্পূর্ণ প্রসঙ্গ শুধুমাত্র একটি বাক্য। নিম্নলিখিত বাক্য বিবেচনা করুন:
The animal didn't cross the street because it was too tired.
পূর্ববর্তী বাক্যটিতে এগারোটি শব্দ রয়েছে। এগারোটি শব্দের প্রতিটি অন্য দশটির দিকে মনোযোগ দিচ্ছে, ভাবছে যে এই দশটি শব্দের প্রতিটি নিজের কাছে কতটা গুরুত্বপূর্ণ। উদাহরণস্বরূপ, লক্ষ্য করুন যে বাক্যটিতে সর্বনামটি রয়েছে। সর্বনাম প্রায়ই অস্পষ্ট হয়। সর্বনাম এটি সাধারণত একটি সাম্প্রতিক বিশেষ্য বা বিশেষ্য বাক্যাংশ বোঝায়, কিন্তু উদাহরণ বাক্যে, কোন সাম্প্রতিক বিশেষ্যটি উল্লেখ করে —প্রাণী বা রাস্তা?
স্ব-মনোযোগ প্রক্রিয়া সর্বনামের সাথে প্রতিটি কাছাকাছি শব্দের প্রাসঙ্গিকতা নির্ধারণ করে। চিত্র 3 ফলাফলগুলি দেখায়—রেখা যত নীল হবে, সেই শব্দটি সর্বনামের জন্য তত বেশি গুরুত্বপূর্ণ । অর্থাৎ, সর্বনামের কাছে রাস্তার চেয়ে পশু বেশি গুরুত্বপূর্ণ।
বিপরীতভাবে, ধরুন বাক্যটির চূড়ান্ত শব্দটি নিম্নরূপ পরিবর্তিত হয়েছে:
The animal didn't cross the street because it was too wide.
এই সংশোধিত বাক্যে, আত্ম-মনোযোগ আশা করি সর্বনামের সাথে পশুর চেয়ে রাস্তাটিকে আরও প্রাসঙ্গিক হিসাবে রেট করবে।
কিছু স্ব-মনোযোগ প্রক্রিয়া দ্বিমুখী হয়, যার অর্থ তারা টোকেনগুলির জন্য প্রাসঙ্গিক স্কোর গণনা করে যে শব্দে যোগ দেওয়া হচ্ছে তার পূর্ববর্তী এবং অনুসরণ করা । উদাহরণস্বরূপ, চিত্র 3-এ লক্ষ্য করুন যে এর উভয় পাশের শব্দগুলি পরীক্ষা করা হয়েছে। সুতরাং, একটি দ্বিমুখী স্ব-মনোযোগ প্রক্রিয়া শব্দের উভয় দিকের শব্দ থেকে প্রসঙ্গ সংগ্রহ করতে পারে। বিপরীতে, একটি একমুখী স্ব-মনোযোগ প্রক্রিয়া শুধুমাত্র শব্দের একপাশে শব্দ থেকে প্রসঙ্গ সংগ্রহ করতে পারে। দ্বিমুখী স্ব-মনোযোগ বিশেষভাবে পুরো সিকোয়েন্সের উপস্থাপনা তৈরির জন্য উপযোগী, যখন টোকেন-বাই-টোকেন সিকোয়েন্স তৈরি করে এমন অ্যাপ্লিকেশনগুলির জন্য একমুখী স্ব-মনোযোগ প্রয়োজন। এই কারণে, এনকোডারগুলি দ্বিমুখী স্ব-মনোযোগ ব্যবহার করে, যখন ডিকোডারগুলি একমুখী ব্যবহার করে।
মাল্টি-হেড স্ব-মনোযোগ কি?
প্রতিটি স্ব-মনোযোগ স্তর সাধারণত একাধিক স্ব-মনোযোগ মাথার সমন্বয়ে গঠিত। একটি স্তরের আউটপুট হল বিভিন্ন হেডের আউটপুটের একটি গাণিতিক অপারেশন (উদাহরণস্বরূপ, ওজনযুক্ত গড় বা ডট পণ্য)।
যেহেতু প্রতিটি স্ব-মনোযোগ স্তর এলোমেলো মানগুলিতে শুরু করা হয়, তাই বিভিন্ন হেড প্রতিটি শব্দ এবং কাছাকাছি শব্দগুলির মধ্যে বিভিন্ন সম্পর্ক শিখতে পারে। উদাহরণস্বরূপ, পূর্ববর্তী বিভাগে বর্ণিত স্ব-মনোযোগ স্তরটি কোন বিশেষ্যটি উল্লেখ করেছে তা নির্ধারণের উপর দৃষ্টি নিবদ্ধ করে। যাইহোক, অন্যান্য স্ব-মনোযোগ স্তরগুলি প্রতিটি শব্দের সাথে প্রতিটি শব্দের ব্যাকরণগত প্রাসঙ্গিকতা শিখতে পারে বা অন্যান্য মিথস্ক্রিয়া শিখতে পারে।
ট্রান্সফরমার এত বড় কেন?
ট্রান্সফরমারে শত শত বিলিয়ন বা এমনকি ট্রিলিয়ন প্যারামিটার থাকে। এই কোর্সটি সাধারণত বড় সংখ্যক প্যারামিটারের তুলনায় কম সংখ্যক প্যারামিটার সহ বিল্ডিং মডেলের সুপারিশ করেছে। সর্বোপরি, একটি ছোট সংখ্যক প্যারামিটার সহ একটি মডেল বড় সংখ্যক প্যারামিটার সহ একটি মডেলের তুলনায় ভবিষ্যদ্বাণী করতে কম সংস্থান ব্যবহার করে। যাইহোক, গবেষণা দেখায় যে বেশি পরামিতি সহ ট্রান্সফরমারগুলি ধারাবাহিকভাবে কম প্যারামিটারের সাথে ট্রান্সফরমারকে ছাড়িয়ে যায়।
কিন্তু কিভাবে একটি LLM পাঠ্য তৈরি করে ?
আপনি দেখেছেন যে কীভাবে গবেষকরা LLM-কে একটি অনুপস্থিত শব্দ বা দুটি ভবিষ্যদ্বাণী করতে প্রশিক্ষণ দেন এবং আপনি হয়ত মুগ্ধ হবেন না। সর্বোপরি, একটি বা দুটি শব্দের ভবিষ্যদ্বাণী করা মূলত স্বয়ংসম্পূর্ণ বৈশিষ্ট্য যা বিভিন্ন পাঠ্য, ইমেল এবং অথরিং সফ্টওয়্যারের মধ্যে নির্মিত। আপনি হয়ত ভাবছেন কিভাবে LLM গুলি সালিশ সম্পর্কে বাক্য বা অনুচ্ছেদ বা হাইকুস তৈরি করতে পারে।
প্রকৃতপক্ষে, এলএলএমগুলি মূলত স্বয়ংসম্পূর্ণ প্রক্রিয়া যা স্বয়ংক্রিয়ভাবে হাজার হাজার টোকেনের পূর্বাভাস (সম্পূর্ণ) করতে পারে। উদাহরণস্বরূপ, একটি মুখোশযুক্ত বাক্য অনুসরণ করে একটি বাক্য বিবেচনা করুন:
My dog, Max, knows how to perform many traditional dog tricks. ___ (masked sentence)
একটি LLM মুখোশযুক্ত বাক্যের জন্য সম্ভাব্যতা তৈরি করতে পারে, যার মধ্যে রয়েছে:
সম্ভাবনা | শব্দ(গুলি) |
---|---|
3.1% | উদাহরণস্বরূপ, তিনি বসতে পারেন, থাকতে পারেন এবং রোল ওভার করতে পারেন। |
2.9% | উদাহরণস্বরূপ, তিনি কীভাবে বসতে, থাকতে এবং রোল ওভার করতে জানেন। |
একটি যথেষ্ট বড় LLM অনুচ্ছেদ এবং সমগ্র রচনাগুলির জন্য সম্ভাব্যতা তৈরি করতে পারে। আপনি একটি LLM-এর কাছে ব্যবহারকারীর প্রশ্নগুলিকে একটি কাল্পনিক মুখোশ অনুসরণ করে "প্রদত্ত" বাক্য হিসাবে ভাবতে পারেন। যেমন:
User's question: What is the easiest trick to teach a dog? LLM's response: ___
এলএলএম বিভিন্ন সম্ভাব্য প্রতিক্রিয়ার জন্য সম্ভাবনা তৈরি করে।
আরেকটি উদাহরণ হিসেবে, প্রচুর সংখ্যক গাণিতিক "শব্দ সমস্যা" এর উপর প্রশিক্ষিত একজন এলএলএম পরিশীলিত গাণিতিক যুক্তি করার চেহারা দিতে পারে। যাইহোক, সেই এলএলএমগুলি মূলত শুধুমাত্র একটি শব্দ সমস্যা প্রম্পট স্বয়ংসম্পূর্ণ করছে।
এলএলএম এর সুবিধা
এলএলএমগুলি বিভিন্ন ধরণের লক্ষ্য দর্শকদের জন্য স্পষ্ট, সহজে বোঝা যায় এমন পাঠ্য তৈরি করতে পারে। এলএলএমরা তাদের স্পষ্টভাবে প্রশিক্ষণপ্রাপ্ত কাজের বিষয়ে ভবিষ্যদ্বাণী করতে পারে। কিছু গবেষক দাবি করেন যে এলএলএমও ইনপুটের জন্য ভবিষ্যদ্বাণী করতে পারে যে তারা স্পষ্টভাবে প্রশিক্ষিত ছিল না , তবে অন্যান্য গবেষকরা এই দাবিকে অস্বীকার করেছেন।
এলএলএম নিয়ে সমস্যা
একটি এলএলএম প্রশিক্ষণের জন্য অনেক সমস্যা রয়েছে, যার মধ্যে রয়েছে:
- একটি বিশাল প্রশিক্ষণ সেট সংগ্রহ.
- একাধিক মাস এবং বিপুল গণনামূলক সংস্থান এবং বিদ্যুৎ ব্যবহার করছে।
- সমান্তরাল চ্যালেঞ্জ সমাধান.
ভবিষ্যদ্বাণী অনুমান করার জন্য এলএলএম ব্যবহার করলে নিম্নলিখিত সমস্যার সৃষ্টি হয়:
- এলএলএম হ্যালুসিনেট করে , যার অর্থ তাদের ভবিষ্যদ্বাণীতে প্রায়ই ভুল থাকে।
- এলএলএমগুলি প্রচুর পরিমাণে গণনামূলক সংস্থান এবং বিদ্যুৎ ব্যবহার করে। বৃহত্তর ডেটাসেটে এলএলএম প্রশিক্ষণ সাধারণত অনুমানের জন্য প্রয়োজনীয় সংস্থানগুলির পরিমাণ হ্রাস করে, যদিও বৃহত্তর প্রশিক্ষণ সেটগুলিতে আরও প্রশিক্ষণ সংস্থান ব্যয় হয়।
- সমস্ত এমএল মডেলের মতো, এলএলএমগুলি সমস্ত ধরণের পক্ষপাত প্রদর্শন করতে পারে।
অনুশীলন: আপনার বোঝার পরীক্ষা করুন
একটি নতুন প্রযুক্তি, বৃহৎ ভাষার মডেল ( এলএলএম ) একটি টোকেন বা টোকেনের অনুক্রমের পূর্বাভাস দেয়, কখনও কখনও পূর্বাভাসিত টোকেনের মূল্যের অনেক অনুচ্ছেদ। মনে রাখবেন যে একটি টোকেন একটি শব্দ, একটি সাবওয়ার্ড (একটি শব্দের একটি উপসেট), বা এমনকি একটি একক অক্ষরও হতে পারে। এলএলএমগুলি এন-গ্রাম ভাষার মডেল বা পুনরাবৃত্ত নিউরাল নেটওয়ার্কগুলির তুলনায় অনেক ভাল ভবিষ্যদ্বাণী করে কারণ:
- LLM-তে পুনরাবৃত্ত মডেলের তুলনায় অনেক বেশি প্যারামিটার থাকে।
- এলএলএম অনেক বেশি প্রসঙ্গ সংগ্রহ করে।
এই বিভাগটি এলএলএম তৈরির জন্য সবচেয়ে সফল এবং বহুল ব্যবহৃত আর্কিটেকচারের পরিচয় দেয়: ট্রান্সফরমার।
একটি ট্রান্সফরমার কি?
ট্রান্সফরমার হল অত্যাধুনিক আর্কিটেকচার যা বিভিন্ন ধরনের ভাষার মডেল অ্যাপ্লিকেশনের জন্য, যেমন অনুবাদ:
সম্পূর্ণ ট্রান্সফরমারগুলি একটি এনকোডার এবং একটি ডিকোডার নিয়ে গঠিত:
- একটি এনকোডার ইনপুট পাঠ্যকে একটি মধ্যবর্তী উপস্থাপনায় রূপান্তর করে। একটি এনকোডার একটি বিশাল নিউরাল নেট ।
- একটি ডিকোডার সেই মধ্যবর্তী উপস্থাপনাকে দরকারী পাঠ্যে রূপান্তর করে। একটি ডিকোডারও একটি বিশাল নিউরাল নেট।
উদাহরণস্বরূপ, একজন অনুবাদকের মধ্যে:
- এনকোডার ইনপুট টেক্সট (উদাহরণস্বরূপ, একটি ইংরেজি বাক্য) প্রক্রিয়া করে কিছু মধ্যবর্তী উপস্থাপনায়।
- ডিকোডার সেই মধ্যবর্তী উপস্থাপনাকে আউটপুট টেক্সটে রূপান্তর করে (উদাহরণস্বরূপ, সমতুল্য ফরাসি বাক্য)।
স্ব-মনোযোগ কি?
প্রসঙ্গ উন্নত করতে, ট্রান্সফরমাররা স্ব-মনোযোগ নামক একটি ধারণার উপর অনেক বেশি নির্ভর করে। কার্যকরীভাবে, ইনপুটের প্রতিটি টোকেনের পক্ষে, স্ব-মনোযোগ নিম্নলিখিত প্রশ্ন জিজ্ঞাসা করে:
"ইনপুটের একে অপরের টোকেন এই টোকেনের ব্যাখ্যাকে কতটা প্রভাবিত করে?"
"আত্ম-মনোযোগ" এর "স্ব" ইনপুট ক্রম বোঝায়। কিছু মনোযোগ মেকানিজম ইনপুট টোকেনের সাথে আউটপুট সিকোয়েন্সের টোকেনের সাথে ট্রান্সলেশন বা অন্য কোন সিকোয়েন্সের টোকেনের সাথে সম্পর্ককে ওজন করে। কিন্তু স্ব -মনোযোগ শুধুমাত্র ইনপুট অনুক্রমে টোকেনগুলির মধ্যে সম্পর্কের গুরুত্বকে ওজন করে।
বিষয়গুলিকে সহজ করার জন্য, ধরে নিন যে প্রতিটি টোকেন একটি শব্দ এবং সম্পূর্ণ প্রসঙ্গ শুধুমাত্র একটি বাক্য। নিম্নলিখিত বাক্য বিবেচনা করুন:
The animal didn't cross the street because it was too tired.
পূর্ববর্তী বাক্যটিতে এগারোটি শব্দ রয়েছে। এগারোটি শব্দের প্রতিটি অন্য দশটির দিকে মনোযোগ দিচ্ছে, ভাবছে যে এই দশটি শব্দের প্রতিটি নিজের কাছে কতটা গুরুত্বপূর্ণ। উদাহরণস্বরূপ, লক্ষ্য করুন যে বাক্যটিতে সর্বনামটি রয়েছে। সর্বনাম প্রায়ই অস্পষ্ট হয়। সর্বনাম এটি সাধারণত একটি সাম্প্রতিক বিশেষ্য বা বিশেষ্য বাক্যাংশ বোঝায়, কিন্তু উদাহরণ বাক্যে, কোন সাম্প্রতিক বিশেষ্যটি উল্লেখ করে —প্রাণী বা রাস্তা?
স্ব-মনোযোগ প্রক্রিয়া সর্বনামের সাথে প্রতিটি কাছাকাছি শব্দের প্রাসঙ্গিকতা নির্ধারণ করে। চিত্র 3 ফলাফলগুলি দেখায়—রেখা যত নীল হবে, সেই শব্দটি সর্বনামের জন্য তত বেশি গুরুত্বপূর্ণ । অর্থাৎ, সর্বনামের কাছে রাস্তার চেয়ে পশু বেশি গুরুত্বপূর্ণ।
বিপরীতভাবে, ধরুন বাক্যটির চূড়ান্ত শব্দটি নিম্নরূপ পরিবর্তিত হয়েছে:
The animal didn't cross the street because it was too wide.
এই সংশোধিত বাক্যে, আত্ম-মনোযোগ আশা করি সর্বনামের সাথে পশুর চেয়ে রাস্তাটিকে আরও প্রাসঙ্গিক হিসাবে রেট করবে।
কিছু স্ব-মনোযোগ প্রক্রিয়া দ্বিমুখী হয়, যার অর্থ তারা টোকেনগুলির জন্য প্রাসঙ্গিক স্কোর গণনা করে যে শব্দে যোগ দেওয়া হচ্ছে তার পূর্ববর্তী এবং অনুসরণ করা । উদাহরণস্বরূপ, চিত্র 3-এ লক্ষ্য করুন যে এর উভয় পাশের শব্দগুলি পরীক্ষা করা হয়েছে। সুতরাং, একটি দ্বিমুখী স্ব-মনোযোগ প্রক্রিয়া শব্দের উভয় দিকের শব্দ থেকে প্রসঙ্গ সংগ্রহ করতে পারে। বিপরীতে, একটি একমুখী স্ব-মনোযোগ প্রক্রিয়া শুধুমাত্র শব্দের একপাশে শব্দ থেকে প্রসঙ্গ সংগ্রহ করতে পারে। দ্বিমুখী স্ব-মনোযোগ বিশেষভাবে পুরো সিকোয়েন্সের উপস্থাপনা তৈরির জন্য উপযোগী, যখন টোকেন-বাই-টোকেন সিকোয়েন্স তৈরি করে এমন অ্যাপ্লিকেশনগুলির জন্য একমুখী স্ব-মনোযোগ প্রয়োজন। এই কারণে, এনকোডারগুলি দ্বিমুখী স্ব-মনোযোগ ব্যবহার করে, যখন ডিকোডারগুলি একমুখী ব্যবহার করে।
মাল্টি-হেড স্ব-মনোযোগ কি?
প্রতিটি স্ব-মনোযোগ স্তর সাধারণত একাধিক স্ব-মনোযোগ মাথার সমন্বয়ে গঠিত। একটি স্তরের আউটপুট হল বিভিন্ন হেডের আউটপুটের একটি গাণিতিক অপারেশন (উদাহরণস্বরূপ, ওজনযুক্ত গড় বা ডট পণ্য)।
যেহেতু প্রতিটি স্ব-মনোযোগ স্তর এলোমেলো মানগুলিতে শুরু করা হয়, তাই বিভিন্ন হেড প্রতিটি শব্দ এবং কাছাকাছি শব্দগুলির মধ্যে বিভিন্ন সম্পর্ক শিখতে পারে। উদাহরণস্বরূপ, পূর্ববর্তী বিভাগে বর্ণিত স্ব-মনোযোগ স্তরটি কোন বিশেষ্যটি উল্লেখ করেছে তা নির্ধারণের উপর দৃষ্টি নিবদ্ধ করে। যাইহোক, অন্যান্য স্ব-মনোযোগ স্তরগুলি প্রতিটি শব্দের সাথে প্রতিটি শব্দের ব্যাকরণগত প্রাসঙ্গিকতা শিখতে পারে বা অন্যান্য মিথস্ক্রিয়া শিখতে পারে।
ট্রান্সফরমার এত বড় কেন?
ট্রান্সফরমারে শত শত বিলিয়ন বা এমনকি ট্রিলিয়ন প্যারামিটার থাকে। এই কোর্সটি সাধারণত বড় সংখ্যক প্যারামিটারের তুলনায় কম সংখ্যক প্যারামিটার সহ বিল্ডিং মডেলের সুপারিশ করেছে। সর্বোপরি, একটি ছোট সংখ্যক প্যারামিটার সহ একটি মডেল বড় সংখ্যক প্যারামিটার সহ একটি মডেলের তুলনায় ভবিষ্যদ্বাণী করতে কম সংস্থান ব্যবহার করে। যাইহোক, গবেষণা দেখায় যে বেশি পরামিতি সহ ট্রান্সফরমারগুলি ধারাবাহিকভাবে কম প্যারামিটারের সাথে ট্রান্সফরমারকে ছাড়িয়ে যায়।
কিন্তু কিভাবে একটি LLM পাঠ্য তৈরি করে ?
আপনি দেখেছেন যে কীভাবে গবেষকরা LLM-কে একটি অনুপস্থিত শব্দ বা দুটি ভবিষ্যদ্বাণী করতে প্রশিক্ষণ দেন এবং আপনি হয়ত মুগ্ধ হবেন না। সর্বোপরি, একটি বা দুটি শব্দের ভবিষ্যদ্বাণী করা মূলত স্বয়ংসম্পূর্ণ বৈশিষ্ট্য যা বিভিন্ন পাঠ্য, ইমেল এবং অথরিং সফ্টওয়্যারের মধ্যে নির্মিত। আপনি হয়ত ভাবছেন কিভাবে LLM গুলি সালিশ সম্পর্কে বাক্য বা অনুচ্ছেদ বা হাইকুস তৈরি করতে পারে।
প্রকৃতপক্ষে, এলএলএমগুলি মূলত স্বয়ংসম্পূর্ণ প্রক্রিয়া যা স্বয়ংক্রিয়ভাবে হাজার হাজার টোকেনের পূর্বাভাস (সম্পূর্ণ) করতে পারে। উদাহরণস্বরূপ, একটি মুখোশযুক্ত বাক্য অনুসরণ করে একটি বাক্য বিবেচনা করুন:
My dog, Max, knows how to perform many traditional dog tricks. ___ (masked sentence)
একটি LLM মুখোশযুক্ত বাক্যের জন্য সম্ভাব্যতা তৈরি করতে পারে, যার মধ্যে রয়েছে:
সম্ভাবনা | শব্দ(গুলি) |
---|---|
3.1% | উদাহরণস্বরূপ, তিনি বসতে পারেন, থাকতে পারেন এবং রোল ওভার করতে পারেন। |
2.9% | উদাহরণস্বরূপ, তিনি কীভাবে বসতে, থাকতে এবং রোল ওভার করতে জানেন। |
একটি যথেষ্ট বড় LLM অনুচ্ছেদ এবং সমগ্র রচনাগুলির জন্য সম্ভাব্যতা তৈরি করতে পারে। আপনি একটি LLM-এর কাছে ব্যবহারকারীর প্রশ্নগুলিকে একটি কাল্পনিক মুখোশ অনুসরণ করে "প্রদত্ত" বাক্য হিসাবে ভাবতে পারেন। যেমন:
User's question: What is the easiest trick to teach a dog? LLM's response: ___
এলএলএম বিভিন্ন সম্ভাব্য প্রতিক্রিয়ার জন্য সম্ভাবনা তৈরি করে।
আরেকটি উদাহরণ হিসেবে, প্রচুর সংখ্যক গাণিতিক "শব্দ সমস্যা" এর উপর প্রশিক্ষিত একজন এলএলএম পরিশীলিত গাণিতিক যুক্তি করার চেহারা দিতে পারে। যাইহোক, সেই এলএলএমগুলি মূলত শুধুমাত্র একটি শব্দ সমস্যা প্রম্পট স্বয়ংসম্পূর্ণ করছে।
এলএলএম এর সুবিধা
এলএলএমগুলি বিভিন্ন ধরণের লক্ষ্য দর্শকদের জন্য স্পষ্ট, সহজে বোঝা যায় এমন পাঠ্য তৈরি করতে পারে। এলএলএমরা তাদের স্পষ্টভাবে প্রশিক্ষণপ্রাপ্ত কাজের বিষয়ে ভবিষ্যদ্বাণী করতে পারে। কিছু গবেষক দাবি করেন যে এলএলএমও ইনপুটের জন্য ভবিষ্যদ্বাণী করতে পারে যে তারা স্পষ্টভাবে প্রশিক্ষিত ছিল না , তবে অন্যান্য গবেষকরা এই দাবিকে অস্বীকার করেছেন।
এলএলএম নিয়ে সমস্যা
একটি এলএলএম প্রশিক্ষণের জন্য অনেক সমস্যা রয়েছে, যার মধ্যে রয়েছে:
- একটি বিশাল প্রশিক্ষণ সেট সংগ্রহ.
- একাধিক মাস এবং বিপুল গণনামূলক সংস্থান এবং বিদ্যুৎ ব্যবহার করছে।
- সমান্তরাল চ্যালেঞ্জ সমাধান.
ভবিষ্যদ্বাণী অনুমান করার জন্য এলএলএম ব্যবহার করলে নিম্নলিখিত সমস্যার সৃষ্টি হয়:
- এলএলএম হ্যালুসিনেট করে , যার অর্থ তাদের ভবিষ্যদ্বাণীতে প্রায়ই ভুল থাকে।
- এলএলএমগুলি প্রচুর পরিমাণে গণনামূলক সংস্থান এবং বিদ্যুৎ ব্যবহার করে। বৃহত্তর ডেটাসেটে এলএলএম প্রশিক্ষণ সাধারণত অনুমানের জন্য প্রয়োজনীয় সংস্থানগুলির পরিমাণ হ্রাস করে, যদিও বৃহত্তর প্রশিক্ষণ সেটগুলিতে আরও প্রশিক্ষণ সংস্থান ব্যয় হয়।
- সমস্ত এমএল মডেলের মতো, এলএলএমগুলি সমস্ত ধরণের পক্ষপাত প্রদর্শন করতে পারে।