এই পৃষ্ঠায় ভাষা মূল্যায়ন শব্দকোষ রয়েছে। সকল শব্দকোষের জন্য এখানে ক্লিক করুন ।
ক
মনোযোগ
একটি নিউরাল নেটওয়ার্কে ব্যবহৃত একটি প্রক্রিয়া যা একটি নির্দিষ্ট শব্দ বা শব্দের অংশের গুরুত্ব নির্দেশ করে। মনোযোগ একটি মডেলের পরবর্তী টোকেন/শব্দের পূর্বাভাস দিতে প্রয়োজনীয় তথ্যের পরিমাণ সংকুচিত করে। একটি সাধারণ মনোযোগ প্রক্রিয়া ইনপুটগুলির একটি সেটের উপর একটি ওজনযুক্ত যোগফল নিয়ে গঠিত হতে পারে, যেখানে প্রতিটি ইনপুটের ওজন নিউরাল নেটওয়ার্কের অন্য অংশ দ্বারা গণনা করা হয়।
স্ব-মনোযোগ এবং বহু-হেড স্ব-মনোযোগকেও উল্লেখ করুন, যা ট্রান্সফরমারের বিল্ডিং ব্লক।
অটোএনকোডার
একটি সিস্টেম যা ইনপুট থেকে সবচেয়ে গুরুত্বপূর্ণ তথ্য বের করতে শেখে। অটোএনকোডার হল একটি এনকোডার এবং ডিকোডারের সংমিশ্রণ। অটোএনকোডারগুলি নিম্নলিখিত দ্বি-পদক্ষেপ প্রক্রিয়ার উপর নির্ভর করে:
- এনকোডার ইনপুটকে একটি (সাধারণত) ক্ষতিকর নিম্ন-মাত্রিক (মধ্যবর্তী) বিন্যাসে ম্যাপ করে।
- ডিকোডার নিম্ন-মাত্রিক বিন্যাসটিকে মূল উচ্চ-মাত্রিক ইনপুট বিন্যাসে ম্যাপ করে মূল ইনপুটের একটি ক্ষতিকারক সংস্করণ তৈরি করে।
এনকোডারের মধ্যবর্তী বিন্যাস থেকে যতটা সম্ভব ঘনিষ্ঠভাবে মূল ইনপুট পুনর্গঠন করার জন্য ডিকোডার প্রচেষ্টার মাধ্যমে অটোএনকোডারদের এন্ড-টু-এন্ড প্রশিক্ষিত করা হয়। মধ্যবর্তী বিন্যাসটি মূল বিন্যাসের চেয়ে ছোট (নিম্ন-মাত্রিক) হওয়ায়, অটোএনকোডারকে ইনপুটে কোন তথ্য অপরিহার্য তা শিখতে বাধ্য করা হয় এবং আউটপুটটি ইনপুটের সাথে পুরোপুরি অভিন্ন হবে না।
যেমন:
- যদি ইনপুট ডেটা একটি গ্রাফিক হয়, অ-নির্ভুল অনুলিপিটি মূল গ্রাফিকের অনুরূপ হবে, তবে কিছুটা পরিবর্তিত হবে। সম্ভবত অ-নির্ভুল অনুলিপি মূল গ্রাফিক থেকে শব্দ সরিয়ে দেয় বা কিছু অনুপস্থিত পিক্সেল পূরণ করে।
- যদি ইনপুট ডেটা পাঠ্য হয় তবে একটি অটোএনকোডার নতুন পাঠ্য তৈরি করবে যা মূল পাঠ্যের অনুকরণ করে (কিন্তু অনুরূপ নয়)।
পরিবর্তনশীল অটোএনকোডারগুলিও দেখুন।
অটো রিগ্রেসিভ মডেল
একটি মডেল যা তার নিজের পূর্বের ভবিষ্যদ্বাণীগুলির উপর ভিত্তি করে একটি ভবিষ্যদ্বাণী অনুমান করে৷ উদাহরণস্বরূপ, অটো-রিগ্রেসিভ ল্যাঙ্গুয়েজ মডেলগুলি পূর্বে ভবিষ্যদ্বাণী করা টোকেনের উপর ভিত্তি করে পরবর্তী টোকেনের পূর্বাভাস দেয়। সমস্ত ট্রান্সফরমার -ভিত্তিক বৃহৎ ভাষার মডেলগুলি স্বয়ংক্রিয়-রিগ্রেসিভ।
বিপরীতে, GAN- ভিত্তিক ইমেজ মডেলগুলি সাধারণত অটো-রিগ্রেসিভ হয় না কারণ তারা একটি একক ফরোয়ার্ড-পাসে একটি ছবি তৈরি করে এবং ধাপে ধাপে নয়। যাইহোক, কিছু ইমেজ জেনারেশন মডেল অটো -রিগ্রেসিভ কারণ তারা ধাপে ধাপে একটি ইমেজ তৈরি করে।
খ
শব্দের ব্যাগ
ক্রম নির্বিশেষে একটি বাক্যাংশ বা প্যাসেজে শব্দের উপস্থাপনা। উদাহরণস্বরূপ, শব্দের ব্যাগ নিম্নলিখিত তিনটি বাক্যাংশকে অভিন্নভাবে উপস্থাপন করে:
- কুকুর লাফ দেয়
- কুকুর লাফিয়ে
- কুকুর লাফ দেয়
প্রতিটি শব্দ একটি স্পার্স ভেক্টরের একটি সূচকে ম্যাপ করা হয়, যেখানে ভেক্টরের শব্দভান্ডারের প্রতিটি শব্দের জন্য একটি সূচক থাকে। উদাহরণস্বরূপ, কুকুরের লাফানো শব্দগুচ্ছটি একটি বৈশিষ্ট্য ভেক্টরে ম্যাপ করা হয়েছে যা , কুকুর এবং লাফ শব্দের সাথে সম্পর্কিত তিনটি সূচকে শূন্য নয়। অ-শূন্য মান নিম্নলিখিত যে কোনো হতে পারে:
- একটি শব্দের উপস্থিতি বোঝাতে একটি 1।
- ব্যাগে একটি শব্দ কতবার উপস্থিত হয় তার একটি গণনা। উদাহরণস্বরূপ, যদি বাক্যাংশটি মেরুন কুকুর মেরুন পশমযুক্ত একটি কুকুর হয় , তাহলে মেরুন এবং কুকুর উভয়কেই 2 হিসাবে উপস্থাপন করা হবে, অন্য শব্দগুলিকে 1 হিসাবে উপস্থাপন করা হবে।
- আরও কিছু মান, যেমন ব্যাগে একটি শব্দ কতবার উপস্থিত হয় তার সংখ্যার লগারিদম।
BERT (ট্রান্সফরমার থেকে দ্বিমুখী এনকোডার প্রতিনিধিত্ব)
পাঠ্য উপস্থাপনার জন্য একটি মডেল আর্কিটেকচার। একটি প্রশিক্ষিত BERT মডেল পাঠ্য শ্রেণিবিন্যাস বা অন্যান্য ML কাজের জন্য একটি বড় মডেলের অংশ হিসাবে কাজ করতে পারে।
BERT এর নিম্নলিখিত বৈশিষ্ট্য রয়েছে:
- ট্রান্সফরমার আর্কিটেকচার ব্যবহার করে, এবং তাই স্ব-মনোযোগের উপর নির্ভর করে।
- ট্রান্সফরমারের এনকোডার অংশ ব্যবহার করে। এনকোডারের কাজ হল শ্রেণীবিভাগের মতো একটি নির্দিষ্ট কাজ সম্পাদন করার পরিবর্তে ভাল পাঠ্য উপস্থাপনা তৈরি করা।
- দ্বিমুখী ।
- তত্ত্বাবধানহীন প্রশিক্ষণের জন্য মাস্কিং ব্যবহার করে।
BERT এর ভেরিয়েন্টগুলির মধ্যে রয়েছে:
দ্বিমুখী
এমন একটি শব্দ যা একটি সিস্টেমকে বর্ণনা করতে ব্যবহৃত হয় যা পাঠ্যের একটি লক্ষ্য বিভাগের পূর্ববর্তী এবং অনুসরণ করে এমন পাঠ্যকে মূল্যায়ন করে। বিপরীতে, একটি ইউনিডাইরেকশনাল সিস্টেম শুধুমাত্র পাঠ্যের একটি লক্ষ্য বিভাগের আগে থাকা পাঠ্যকে মূল্যায়ন করে।
উদাহরণস্বরূপ, একটি মুখোশযুক্ত ভাষা মডেল বিবেচনা করুন যা অবশ্যই নিম্নলিখিত প্রশ্নে আন্ডারলাইন প্রতিনিধিত্বকারী শব্দ বা শব্দগুলির সম্ভাব্যতা নির্ধারণ করবে:
আপনার সাথে _____ কি?
একটি একমুখী ভাষা মডেলকে শুধুমাত্র "কী", "is", এবং "the" শব্দ দ্বারা প্রদত্ত প্রেক্ষাপটের উপর ভিত্তি করে তার সম্ভাবনার ভিত্তি করতে হবে। বিপরীতে, একটি দ্বিমুখী ভাষা মডেল "সহ" এবং "আপনি" থেকে প্রসঙ্গ লাভ করতে পারে, যা মডেলটিকে আরও ভাল ভবিষ্যদ্বাণী তৈরি করতে সহায়তা করতে পারে।
দ্বিমুখী ভাষার মডেল
একটি ভাষা মডেল যা পূর্ববর্তী এবং পরবর্তী পাঠ্যের উপর ভিত্তি করে পাঠ্যের একটি উদ্ধৃতিতে একটি প্রদত্ত টোকেন একটি নির্দিষ্ট স্থানে উপস্থিত থাকার সম্ভাবনা নির্ধারণ করে।
বিগগ্রাম
একটি N-গ্রাম যার মধ্যে N=2।
BLEU (দ্বিভাষিক মূল্যায়ন আন্ডারস্টাডি)
0.0 এবং 1.0 এর মধ্যে একটি স্কোর, অন্তর্ভুক্ত, দুটি মানব ভাষার মধ্যে একটি অনুবাদের গুণমান নির্দেশ করে (উদাহরণস্বরূপ, ইংরেজি এবং রাশিয়ান মধ্যে)। 1.0 এর একটি BLEU স্কোর একটি নিখুঁত অনুবাদ নির্দেশ করে; একটি BLEU স্কোর 0.0 একটি ভয়ানক অনুবাদ নির্দেশ করে।
গ
কার্যকারণ ভাষা মডেল
একমুখী ভাষা মডেলের প্রতিশব্দ।
ভাষা মডেলিংয়ে বিভিন্ন দিকনির্দেশক পদ্ধতির বিপরীতে দ্বিমুখী ভাষার মডেল দেখুন।
চেইন-অফ-থট প্রম্পটিং
একটি প্রম্পট ইঞ্জিনিয়ারিং কৌশল যা একটি বৃহৎ ভাষা মডেল (LLM) কে ধাপে ধাপে তার যুক্তি ব্যাখ্যা করতে উৎসাহিত করে। উদাহরণস্বরূপ, দ্বিতীয় বাক্যে বিশেষ মনোযোগ দিয়ে নিম্নলিখিত প্রম্পটটি বিবেচনা করুন:
7 সেকেন্ডে প্রতি ঘন্টায় 0 থেকে 60 মাইল বেগে যাওয়া গাড়িতে একজন চালক কতটি জি ফোর্স অনুভব করবে? উত্তরে, সমস্ত প্রাসঙ্গিক গণনা দেখান।
এলএলএম এর প্রতিক্রিয়া সম্ভবত:
- উপযুক্ত স্থানে 0, 60, এবং 7 মান প্লাগ করে পদার্থবিজ্ঞানের সূত্রের একটি ক্রম দেখান।
- ব্যাখ্যা করুন কেন এটি সেই সূত্রগুলি বেছে নিয়েছে এবং বিভিন্ন ভেরিয়েবলের অর্থ কী।
চেইন-অফ-থট প্রম্পটিং এলএলএমকে সমস্ত গণনা সম্পাদন করতে বাধ্য করে, যা আরও সঠিক উত্তরের দিকে নিয়ে যেতে পারে। উপরন্তু, চেইন-অফ-থট প্রম্পটিং ব্যবহারকারীকে LLM-এর পদক্ষেপগুলি পরীক্ষা করতে সক্ষম করে উত্তরটি অর্থপূর্ণ কিনা তা নির্ধারণ করতে।
চ্যাট
একটি ML সিস্টেমের সাথে একটি পিছনে এবং সামনে কথোপকথনের বিষয়বস্তু, সাধারণত একটি বড় ভাষা মডেল । একটি চ্যাটে পূর্ববর্তী মিথস্ক্রিয়া (আপনি কী টাইপ করেছেন এবং কীভাবে বৃহৎ ভাষার মডেল প্রতিক্রিয়া জানিয়েছেন) চ্যাটের পরবর্তী অংশগুলির প্রসঙ্গ হয়ে ওঠে।
একটি চ্যাটবট একটি বড় ভাষা মডেলের একটি অ্যাপ্লিকেশন।
বিভ্রান্তি
হ্যালুসিনেশনের প্রতিশব্দ।
কনফ্যাবুলেশন সম্ভবত হ্যালুসিনেশনের চেয়ে প্রযুক্তিগতভাবে আরও সঠিক শব্দ। যাইহোক, হ্যালুসিনেশন প্রথম জনপ্রিয় হয়ে ওঠে।
নির্বাচনী এলাকা পার্সিং
একটি বাক্যকে ছোট ব্যাকরণগত কাঠামোতে বিভক্ত করা ("নির্ধারক")। ML সিস্টেমের একটি পরবর্তী অংশ, যেমন একটি প্রাকৃতিক ভাষা বোঝার মডেল, মূল বাক্যের চেয়ে উপাদানগুলিকে আরও সহজে পার্স করতে পারে। উদাহরণস্বরূপ, নিম্নলিখিত বাক্যটি বিবেচনা করুন:
আমার বন্ধু দুটি বিড়াল দত্তক.
একজন নির্বাচনী পার্সার এই বাক্যটিকে নিম্নলিখিত দুটি উপাদানে ভাগ করতে পারেন:
- আমার বন্ধু একটি বিশেষ্য বাক্যাংশ।
- গৃহীত দুই বিড়াল একটি ক্রিয়া বাক্যাংশ।
এই উপাদানগুলিকে আরও ছোট উপাদানগুলিতে বিভক্ত করা যেতে পারে। উদাহরণস্বরূপ, ক্রিয়াপদ বাক্যাংশ
দুটি বিড়াল দত্তক
আরও উপবিভক্ত করা যেতে পারে:
- গৃহীত একটি ক্রিয়া।
- দুটি বিড়াল আরেকটি বিশেষ্য বাক্যাংশ।
প্রাসঙ্গিক ভাষা এম্বেডিং
এমন একটি এমবেডিং যা "বোঝার" শব্দ এবং বাক্যাংশের কাছাকাছি আসে এমনভাবে যা স্থানীয় মানুষের বক্তা করতে পারে। প্রাসঙ্গিক ভাষা এম্বেডিং জটিল বাক্য গঠন, শব্দার্থবিদ্যা এবং প্রসঙ্গ বুঝতে পারে।
উদাহরণস্বরূপ, ইংরেজি শব্দ cow এর এমবেডিং বিবেচনা করুন। পুরানো এম্বেডিং যেমন word2vec ইংরেজি শব্দগুলিকে উপস্থাপন করতে পারে যেমন গাভী থেকে ষাঁড় পর্যন্ত এম্বেড করার স্থানের দূরত্ব ewe (স্ত্রী ভেড়া) থেকে রাম (পুরুষ ভেড়া) বা মহিলা থেকে পুরুষের দূরত্বের সমান। প্রাসঙ্গিক ভাষা এম্বেডিংগুলি স্বীকার করে আরও এক ধাপ এগিয়ে যেতে পারে যে ইংরেজি ভাষাভাষীরা কখনও কখনও গরু বা ষাঁড়ের অর্থ বোঝাতে গরু শব্দটি ব্যবহার করে।
প্রসঙ্গ উইন্ডো
প্রদত্ত প্রম্পটে একটি মডেল প্রক্রিয়া করতে পারে এমন টোকেনের সংখ্যা। প্রসঙ্গ উইন্ডো যত বড় হবে, মডেলটি প্রম্পটে সুসংগত এবং সামঞ্জস্যপূর্ণ প্রতিক্রিয়া প্রদান করতে তত বেশি তথ্য ব্যবহার করতে পারে।
ক্র্যাশ ব্লসম
একটি অস্পষ্ট অর্থ সহ একটি বাক্য বা বাক্যাংশ। ক্র্যাশ ফুল প্রাকৃতিক ভাষা বোঝার ক্ষেত্রে একটি উল্লেখযোগ্য সমস্যা উপস্থাপন করে। উদাহরণস্বরূপ, শিরোনাম রেড টেপ হোল্ডস আপ স্কাইস্ক্র্যাপার একটি ক্র্যাশ ব্লসম কারণ একটি NLU মডেল শিরোনামটিকে আক্ষরিক বা রূপকভাবে ব্যাখ্যা করতে পারে।
ডি
ডিকোডার
সাধারণভাবে, যে কোনো ML সিস্টেম যা একটি প্রক্রিয়াকৃত, ঘন বা অভ্যন্তরীণ উপস্থাপনা থেকে আরও কাঁচা, বিক্ষিপ্ত বা বাহ্যিক উপস্থাপনায় রূপান্তরিত হয়।
ডিকোডারগুলি প্রায়শই একটি বড় মডেলের একটি উপাদান, যেখানে তারা প্রায়শই একটি এনকোডারের সাথে যুক্ত হয়।
সিকোয়েন্স-টু-সিকোয়েন্স কাজগুলিতে , একটি ডিকোডার পরবর্তী ক্রম অনুমান করার জন্য এনকোডার দ্বারা তৈরি অভ্যন্তরীণ অবস্থা দিয়ে শুরু হয়।
ট্রান্সফরমার আর্কিটেকচারের মধ্যে একটি ডিকোডারের সংজ্ঞার জন্য ট্রান্সফরমার পড়ুন।
denoising
স্ব-তত্ত্বাবধানে শিক্ষার একটি সাধারণ পদ্ধতি যার মধ্যে:
Denoising লেবেলবিহীন উদাহরণ থেকে শেখার সক্ষম করে। মূল ডেটাসেট লক্ষ্য বা লেবেল হিসাবে কাজ করে এবং কোলাহলপূর্ণ ডেটা ইনপুট হিসাবে কাজ করে।
কিছু মুখোশযুক্ত ভাষা মডেল নিম্নরূপ denoising ব্যবহার করে:
- কিছু টোকেন মাস্ক করে লেবেলবিহীন বাক্যে কৃত্রিমভাবে নয়েজ যোগ করা হয়।
- মডেল মূল টোকেন ভবিষ্যদ্বাণী করার চেষ্টা করে।
সরাসরি প্রম্পটিং
জিরো-শট প্রম্পটিং- এর প্রতিশব্দ।
ই
দূরত্ব সম্পাদনা করুন
দুটি টেক্সট স্ট্রিং একে অপরের সাথে কতটা অনুরূপ তার একটি পরিমাপ। মেশিন লার্নিং-এ, দূরত্ব সম্পাদনা করা উপযোগী কারণ এটি গণনা করা সহজ, এবং একই রকম বলে পরিচিত দুটি স্ট্রিং তুলনা করার বা প্রদত্ত স্ট্রিং-এর অনুরূপ স্ট্রিং খুঁজে বের করার একটি কার্যকর উপায়।
সম্পাদনা দূরত্বের বেশ কয়েকটি সংজ্ঞা রয়েছে, প্রতিটি ভিন্ন স্ট্রিং অপারেশন ব্যবহার করে। উদাহরণস্বরূপ, Levenshtein দূরত্ব সবচেয়ে কম মুছে ফেলা, সন্নিবেশ করা এবং বিকল্প ক্রিয়াকলাপ বিবেচনা করে।
উদাহরণস্বরূপ, "হার্ট" এবং "ডার্টস" শব্দের মধ্যে লেভেনশটাইনের দূরত্ব হল 3 কারণ নিম্নলিখিত 3টি সম্পাদনা হল একটি শব্দকে অন্য শব্দে পরিণত করার জন্য সবচেয়ে কম পরিবর্তন:
- হৃদয় → deart ("d" এর সাথে "h" বিকল্প)
- deart → ডার্ট ("e" মুছুন)
- ডার্ট → ডার্টস ("s" ঢোকান)
এম্বেডিং স্তর
একটি বিশেষ লুকানো স্তর যা একটি উচ্চ-মাত্রিক শ্রেণীগত বৈশিষ্ট্যের উপর প্রশিক্ষণ দেয় যা ধীরে ধীরে একটি নিম্ন মাত্রার এম্বেডিং ভেক্টর শিখতে পারে। একটি এম্বেডিং স্তর একটি নিউরাল নেটওয়ার্ককে শুধুমাত্র উচ্চ-মাত্রিক শ্রেণীগত বৈশিষ্ট্যের উপর প্রশিক্ষণের চেয়ে অনেক বেশি দক্ষতার সাথে প্রশিক্ষণ দিতে সক্ষম করে।
উদাহরণস্বরূপ, পৃথিবী বর্তমানে প্রায় 73,000 গাছের প্রজাতিকে সমর্থন করে। ধরুন গাছের প্রজাতি আপনার মডেলের একটি বৈশিষ্ট্য , তাই আপনার মডেলের ইনপুট স্তরে একটি এক-হট ভেক্টর 73,000 উপাদান রয়েছে। উদাহরণস্বরূপ, সম্ভবত baobab
এই মত কিছু প্রতিনিধিত্ব করা হবে:
একটি 73,000-এলিমেন্ট অ্যারে খুব দীর্ঘ। আপনি যদি মডেলটিতে একটি এম্বেডিং স্তর যোগ না করেন, তাহলে 72,999 শূন্য গুণ করার কারণে প্রশিক্ষণটি খুব সময়সাপেক্ষ হতে চলেছে। সম্ভবত আপনি 12টি মাত্রা সমন্বিত করার জন্য এম্বেডিং স্তরটি বেছে নিন। ফলস্বরূপ, এম্বেডিং স্তরটি ধীরে ধীরে প্রতিটি গাছের প্রজাতির জন্য একটি নতুন এমবেডিং ভেক্টর শিখবে।
কিছু পরিস্থিতিতে, হ্যাশিং একটি এম্বেডিং স্তরের একটি যুক্তিসঙ্গত বিকল্প।
এম্বেডিং স্থান
উচ্চ-মাত্রিক ভেক্টর স্থান থেকে বৈশিষ্ট্যযুক্ত ডি-ডাইমেনশনাল ভেক্টর স্পেস ম্যাপ করা হয়। আদর্শভাবে, এমবেডিং স্পেস এমন একটি কাঠামো ধারণ করে যা অর্থপূর্ণ গাণিতিক ফলাফল দেয়; উদাহরণস্বরূপ, একটি আদর্শ এম্বেডিং স্পেসে, এম্বেডিংয়ের যোগ এবং বিয়োগ শব্দের সাদৃশ্যের কাজগুলি সমাধান করতে পারে।
দুটি এমবেডিংয়ের ডট পণ্য তাদের সাদৃশ্যের একটি পরিমাপ।
এমবেডিং ভেক্টর
বিস্তৃতভাবে বলতে গেলে, কোনো লুকানো স্তর থেকে নেওয়া ফ্লোটিং-পয়েন্ট সংখ্যার একটি অ্যারে যা সেই লুকানো স্তরের ইনপুটগুলিকে বর্ণনা করে। প্রায়শই, একটি এমবেডিং ভেক্টর হল একটি এমবেডিং স্তরে প্রশিক্ষিত ফ্লোটিং-পয়েন্ট সংখ্যার অ্যারে। উদাহরণস্বরূপ, ধরুন একটি এম্বেডিং স্তরকে অবশ্যই পৃথিবীতে 73,000টি গাছের প্রজাতির জন্য একটি এমবেডিং ভেক্টর শিখতে হবে। সম্ভবত নিম্নলিখিত অ্যারেটি একটি বাওবাব গাছের জন্য এমবেডিং ভেক্টর:
একটি এম্বেডিং ভেক্টর এলোমেলো সংখ্যার একটি গুচ্ছ নয়। একটি এমবেডিং স্তর প্রশিক্ষণের মাধ্যমে এই মানগুলি নির্ধারণ করে, যেভাবে একটি নিউরাল নেটওয়ার্ক প্রশিক্ষণের সময় অন্যান্য ওজন শেখে। অ্যারের প্রতিটি উপাদান একটি গাছের প্রজাতির কিছু বৈশিষ্ট্য বরাবর একটি রেটিং। কোন উপাদান কোন গাছের প্রজাতির বৈশিষ্ট্য উপস্থাপন করে? এটা মানুষের জন্য নির্ধারণ করা খুব কঠিন।
একটি এমবেডিং ভেক্টরের গাণিতিকভাবে উল্লেখযোগ্য অংশ হল যে অনুরূপ আইটেমগুলিতে ভাসমান-বিন্দু সংখ্যার অনুরূপ সেট রয়েছে। উদাহরণ স্বরূপ, অনুরূপ গাছের প্রজাতির ভিন্ন ভিন্ন বৃক্ষের প্রজাতির তুলনায় ভাসমান-বিন্দু সংখ্যার আরও অনুরূপ সেট রয়েছে। রেডউডস এবং সিকোইয়াস গাছের প্রজাতি সম্পর্কিত, তাই তাদের রেডউডস এবং নারকেল পামের তুলনায় ভাসমান-পয়েন্টিং সংখ্যার আরও অনুরূপ সেট থাকবে। এমবেডিং ভেক্টরের সংখ্যাগুলি আপনি প্রতিবার মডেলটিকে পুনরায় প্রশিক্ষণ দেওয়ার সময় পরিবর্তিত হবে, এমনকি যদি আপনি অভিন্ন ইনপুট দিয়ে মডেলটিকে পুনরায় প্রশিক্ষণ দেন।
এনকোডার
সাধারণভাবে, যে কোনো ML সিস্টেম যা একটি কাঁচা, বিক্ষিপ্ত, বা বাহ্যিক উপস্থাপনা থেকে আরও প্রক্রিয়াকৃত, ঘন বা আরও অভ্যন্তরীণ উপস্থাপনায় রূপান্তরিত হয়।
এনকোডারগুলি প্রায়শই একটি বড় মডেলের একটি উপাদান, যেখানে তারা প্রায়শই একটি ডিকোডারের সাথে যুক্ত হয়। কিছু ট্রান্সফরমার ডিকোডারের সাথে এনকোডার যুক্ত করে, যদিও অন্যান্য ট্রান্সফরমার শুধুমাত্র এনকোডার বা শুধুমাত্র ডিকোডার ব্যবহার করে।
কিছু সিস্টেম শ্রেণীবিভাগ বা রিগ্রেশন নেটওয়ার্কে ইনপুট হিসাবে এনকোডারের আউটপুট ব্যবহার করে।
সিকোয়েন্স-টু-সিকোয়েন্স কাজগুলিতে , একটি এনকোডার একটি ইনপুট সিকোয়েন্স নেয় এবং একটি অভ্যন্তরীণ অবস্থা (একটি ভেক্টর) প্রদান করে। তারপর, ডিকোডার পরবর্তী ক্রম অনুমান করতে সেই অভ্যন্তরীণ অবস্থা ব্যবহার করে।
ট্রান্সফরমার আর্কিটেকচারে একটি এনকোডারের সংজ্ঞার জন্য ট্রান্সফরমার পড়ুন।
চ
কয়েক শট প্রম্পটিং
একটি প্রম্পট যাতে একাধিক (একটি "কয়েক") উদাহরণ রয়েছে যা প্রদর্শন করে যে কীভাবে বড় ভাষা মডেলের প্রতিক্রিয়া জানানো উচিত। উদাহরণস্বরূপ, নিম্নলিখিত দীর্ঘ প্রম্পটে দুটি উদাহরণ রয়েছে যা একটি বৃহৎ ভাষার মডেল দেখাচ্ছে কিভাবে একটি প্রশ্নের উত্তর দিতে হয়।
এক প্রম্পটের অংশ | নোট |
---|---|
নির্দিষ্ট দেশের সরকারী মুদ্রা কি? | যে প্রশ্নটির উত্তর আপনি LLM করতে চান। |
ফ্রান্স: EUR | একটি উদাহরণ. |
যুক্তরাজ্য: GBP | আরেকটি উদাহরণ। |
ভারত: | প্রকৃত প্রশ্ন. |
কিছু-শট প্রম্পটিং সাধারণত জিরো-শট প্রম্পটিং এবং ওয়ান-শট প্রম্পটিংয়ের চেয়ে বেশি পছন্দসই ফলাফল দেয়। যাইহোক, অল্প-শট প্রম্পটিংয়ের জন্য একটি দীর্ঘ প্রম্পট প্রয়োজন।
ফিউ-শট প্রম্পটিং হল প্রম্পট-ভিত্তিক শিক্ষার জন্য প্রয়োগ করা কয়েক-শট লার্নিংয়ের একটি রূপ।
বেহালা
একটি পাইথন-প্রথম কনফিগারেশন লাইব্রেরি যা আক্রমণাত্মক কোড বা অবকাঠামো ছাড়াই ফাংশন এবং ক্লাসের মান সেট করে। প্যাক্স —এবং অন্যান্য ML কোডবেসের ক্ষেত্রে — এই ফাংশন এবং ক্লাসগুলি মডেল এবং প্রশিক্ষণ হাইপারপ্যারামিটারগুলিকে উপস্থাপন করে।
ফিডল অনুমান করে যে মেশিন লার্নিং কোডবেসগুলি সাধারণত বিভক্ত হয়:
- লাইব্রেরি কোড, যা স্তর এবং অপ্টিমাইজার সংজ্ঞায়িত করে।
- ডেটাসেট "আঠালো" কোড, যা লাইব্রেরিগুলিকে কল করে এবং সবকিছুকে একত্রিত করে।
ফিডল একটি অমূল্যায়িত এবং পরিবর্তনযোগ্য আকারে আঠালো কোডের কল কাঠামো ক্যাপচার করে।
ফাইন টিউনিং
একটি নির্দিষ্ট ব্যবহারের ক্ষেত্রে এর পরামিতিগুলিকে পরিমার্জিত করার জন্য একটি প্রাক-প্রশিক্ষিত মডেলে একটি দ্বিতীয়, টাস্ক-নির্দিষ্ট প্রশিক্ষণ পাস। উদাহরণস্বরূপ, কিছু বড় ভাষা মডেলের জন্য সম্পূর্ণ প্রশিক্ষণের ক্রম নিম্নরূপ:
- প্রাক-প্রশিক্ষণ: একটি বিশাল সাধারণ ডেটাসেটে একটি বৃহৎ ভাষার মডেলকে প্রশিক্ষণ দিন, যেমন সমস্ত ইংরেজি ভাষার উইকিপিডিয়া পৃষ্ঠা।
- ফাইন-টিউনিং: একটি নির্দিষ্ট কাজ করার জন্য প্রাক-প্রশিক্ষিত মডেলকে প্রশিক্ষণ দিন, যেমন মেডিকেল প্রশ্নের উত্তর দেওয়া। ফাইন-টিউনিংয়ে সাধারণত নির্দিষ্ট কাজের উপর দৃষ্টি নিবদ্ধ করে শত শত বা হাজার হাজার উদাহরণ জড়িত থাকে।
আরেকটি উদাহরণ হিসাবে, একটি বড় ইমেজ মডেলের জন্য সম্পূর্ণ প্রশিক্ষণের ক্রম নিম্নরূপ:
- প্রাক-প্রশিক্ষণ: একটি বিশাল সাধারণ ইমেজ ডেটাসেটে একটি বড় ইমেজ মডেলকে প্রশিক্ষণ দিন, যেমন উইকিমিডিয়া কমন্সের সমস্ত ছবি।
- ফাইন-টিউনিং: একটি নির্দিষ্ট কাজ সম্পাদন করার জন্য পূর্ব-প্রশিক্ষিত মডেলকে প্রশিক্ষণ দিন, যেমন অর্কাসের ছবি তৈরি করা।
ফাইন-টিউনিং নিম্নলিখিত কৌশলগুলির যেকোন সংমিশ্রণকে অন্তর্ভুক্ত করতে পারে:
- প্রাক-প্রশিক্ষিত মডেলের বিদ্যমান পরামিতিগুলির সমস্ত পরিবর্তন করা। একে কখনও কখনও ফুল ফাইন-টিউনিং বলা হয়।
- অন্যান্য বিদ্যমান পরামিতিগুলি অপরিবর্তিত রেখে (সাধারণত, ইনপুট স্তরের সবচেয়ে কাছের স্তরগুলি) রেখে শুধুমাত্র প্রাক-প্রশিক্ষিত মডেলের বিদ্যমান প্যারামিটারগুলির কিছু পরিবর্তন করা (সাধারণত, আউটপুট স্তরের নিকটতম স্তরগুলি)। প্যারামিটার-দক্ষ টিউনিং দেখুন।
- আরও স্তর যুক্ত করা হচ্ছে, সাধারণত আউটপুট স্তরের নিকটতম বিদ্যমান স্তরগুলির উপরে।
ফাইন-টিউনিং হল ট্রান্সফার লার্নিং এর একটি ফর্ম। যেমন, ফাইন-টিউনিং একটি ভিন্ন লস ফাংশন ব্যবহার করতে পারে বা প্রাক-প্রশিক্ষিত মডেলকে প্রশিক্ষিত করতে ব্যবহৃত মডেলের তুলনায় ভিন্ন মডেলের ধরন ব্যবহার করতে পারে। উদাহরণস্বরূপ, আপনি একটি রিগ্রেশন মডেল তৈরি করতে একটি প্রাক-প্রশিক্ষিত বড় ইমেজ মডেলকে সূক্ষ্ম-টিউন করতে পারেন যা একটি ইনপুট চিত্রে পাখির সংখ্যা ফেরত দেয়।
নিম্নলিখিত পদগুলির সাথে ফাইন-টিউনিং তুলনা করুন এবং বৈসাদৃশ্য করুন:
শণ
JAX- এর উপরে তৈরি গভীর শিক্ষার জন্য একটি উচ্চ-কর্মক্ষমতাসম্পন্ন ওপেন-সোর্স লাইব্রেরি । ফ্ল্যাক্স নিউরাল নেটওয়ার্কের প্রশিক্ষণের জন্য ফাংশন প্রদান করে, সেইসাথে তাদের কার্যকারিতা মূল্যায়নের পদ্ধতি।
ফ্ল্যাক্সফর্মার
একটি ওপেন সোর্স ট্রান্সফরমার লাইব্রেরি , ফ্ল্যাক্সের উপর নির্মিত, যা প্রাথমিকভাবে প্রাকৃতিক ভাষা প্রক্রিয়াকরণ এবং মাল্টিমোডাল গবেষণার জন্য ডিজাইন করা হয়েছে।
জি
জেনারেটিভ এআই
কোনো আনুষ্ঠানিক সংজ্ঞা ছাড়াই একটি উদীয়মান রূপান্তরমূলক ক্ষেত্র। এটি বলেছে, বেশিরভাগ বিশেষজ্ঞরা সম্মত হন যে জেনারেটিভ এআই মডেলগুলি নিম্নলিখিত সমস্ত সামগ্রী তৈরি করতে পারে ("উত্পন্ন"):
- জটিল
- সুসঙ্গত
- মূল
উদাহরণস্বরূপ, একটি জেনারেটিভ এআই মডেল পরিশীলিত প্রবন্ধ বা চিত্র তৈরি করতে পারে।
LSTMs এবং RNN সহ কিছু আগের প্রযুক্তিও আসল এবং সুসংগত বিষয়বস্তু তৈরি করতে পারে। কিছু বিশেষজ্ঞ এই আগের প্রযুক্তিগুলিকে জেনারেটিভ AI হিসাবে দেখেন, অন্যরা মনে করেন যে সত্যিকারের জেনারেটিভ AI-এর জন্য আগের প্রযুক্তিগুলি তৈরি করতে পারে তার চেয়ে আরও জটিল আউটপুট প্রয়োজন।
ভবিষ্যদ্বাণীমূলক ML এর সাথে বৈসাদৃশ্য।
জিপিটি (জেনারেটিভ প্রাক-প্রশিক্ষিত ট্রান্সফরমার)
OpenAI দ্বারা বিকশিত ট্রান্সফরমার -ভিত্তিক বৃহৎ ভাষার মডেলের একটি পরিবার।
GPT ভেরিয়েন্টগুলি একাধিক পদ্ধতিতে প্রয়োগ করতে পারে, যার মধ্যে রয়েছে:
- ইমেজ জেনারেশন (উদাহরণস্বরূপ, ImageGPT)
- টেক্সট-টু-ইমেজ জেনারেশন (উদাহরণস্বরূপ, DALL-E )।
এইচ
হ্যালুসিনেশন
একটি জেনারেটিভ এআই মডেল দ্বারা প্রশংসনীয়-আপাত কিন্তু বাস্তবে ভুল আউটপুট উৎপাদন যা বাস্তব জগৎ সম্পর্কে একটি দাবী করে। উদাহরণস্বরূপ, একটি জেনারেটিভ এআই মডেল যা দাবি করে যে বারাক ওবামা 1865 সালে মারা গিয়েছিলেন তা হ্যালুসিনেটিং ।
আমি
প্রেক্ষাপটে শিক্ষা
কয়েক শট প্রম্পটিং এর সমার্থক।
এল
LaMDA (সংলাপ অ্যাপ্লিকেশনের জন্য ভাষা মডেল)
একটি ট্রান্সফরমার -ভিত্তিক বৃহৎ ভাষা মডেল যা Google দ্বারা তৈরি করা হয়েছে একটি বৃহৎ ডায়ালগ ডেটাসেটে প্রশিক্ষণ দেওয়া হয়েছে যা বাস্তবসম্মত কথোপকথনমূলক প্রতিক্রিয়া তৈরি করতে পারে।
LaMDA: আমাদের যুগান্তকারী কথোপকথন প্রযুক্তি একটি ওভারভিউ প্রদান করে।
ভাষার মডেল
একটি মডেল যা একটি টোকেন বা টোকেনের ক্রম টোকেনগুলির একটি দীর্ঘ ক্রমানুসারে ঘটানোর সম্ভাবনা অনুমান করে৷
বড় ভাষা মডেল
একটি অনানুষ্ঠানিক শব্দ যার কোন কঠোর সংজ্ঞা নেই যার অর্থ সাধারণত একটি ভাষা মডেল যার উচ্চ সংখ্যক পরামিতি রয়েছে। কিছু বড় ভাষার মডেলে 100 বিলিয়নের বেশি প্যারামিটার থাকে।
সুপ্ত স্থান
স্থান এমবেডিং জন্য সমার্থক.
এলএলএম
বড় ভাষার মডেলের সংক্ষিপ্ত রূপ।
LoRA
নিম্ন-র্যাঙ্ক অভিযোজনযোগ্যতার সংক্ষিপ্ত রূপ।
নিম্ন-র্যাঙ্ক অভিযোজনযোগ্যতা (LoRA)
প্যারামিটার দক্ষ টিউনিং করার জন্য একটি অ্যালগরিদম যা শুধুমাত্র একটি বড় ভাষা মডেলের প্যারামিটারের একটি উপসেটকে সূক্ষ্ম-টিউন করে । LoRA নিম্নলিখিত সুবিধা প্রদান করে:
- একটি মডেলের সমস্ত প্যারামিটার সূক্ষ্ম-টিউন করার প্রয়োজন হয় এমন কৌশলগুলির চেয়ে দ্রুত ফাইন-টিউন।
- সূক্ষ্ম-টিউনড মডেলে অনুমানের গণনামূলক খরচ হ্রাস করে।
LoRA এর সাথে টিউন করা একটি মডেল তার ভবিষ্যদ্বাণীর গুণমান বজায় রাখে বা উন্নত করে।
LoRA একটি মডেলের একাধিক বিশেষ সংস্করণ সক্ষম করে।
এম
মুখোশযুক্ত ভাষা মডেল
একটি ভাষা মডেল যা প্রার্থীর টোকেনগুলির একটি ক্রমানুসারে শূন্যস্থান পূরণ করার সম্ভাবনার পূর্বাভাস দেয়৷ উদাহরণস্বরূপ, একটি মুখোশযুক্ত ভাষা মডেল নিম্নলিখিত বাক্যে আন্ডারলাইন প্রতিস্থাপন করতে প্রার্থী শব্দ(গুলি) এর সম্ভাব্যতা গণনা করতে পারে:
টুপির ____ ফিরে এল।
সাহিত্য সাধারণত আন্ডারলাইনের পরিবর্তে স্ট্রিং "MASK" ব্যবহার করে। যেমন:
টুপিতে "মাস্ক" ফিরে এসেছে।
বেশিরভাগ আধুনিক মুখোশযুক্ত ভাষার মডেলগুলি দ্বিমুখী ।
মেটা-লার্নিং
মেশিন লার্নিংয়ের একটি উপসেট যা একটি শেখার অ্যালগরিদম আবিষ্কার করে বা উন্নত করে। একটি মেটা-লার্নিং সিস্টেমের লক্ষ্য হতে পারে একটি মডেলকে দ্রুত একটি নতুন কাজ শিখতে শেখার জন্য অল্প পরিমাণ ডেটা বা পূর্ববর্তী কাজগুলিতে অর্জিত অভিজ্ঞতা থেকে। মেটা-লার্নিং অ্যালগরিদমগুলি সাধারণত নিম্নলিখিতগুলি অর্জন করার চেষ্টা করে:
- হ্যান্ড-ইঞ্জিনিয়ার করা বৈশিষ্ট্যগুলি উন্নত বা শিখুন (যেমন একটি ইনিশিয়ালাইজার বা একটি অপ্টিমাইজার)।
- আরও ডেটা-দক্ষ এবং গণনা-দক্ষ হন।
- সাধারণীকরণ উন্নত করুন।
মেটা-লার্নিং অল্প-শট শেখার সাথে সম্পর্কিত।
পদ্ধতি
একটি উচ্চ-স্তরের ডেটা বিভাগ। উদাহরণস্বরূপ, সংখ্যা, পাঠ্য, চিত্র, ভিডিও এবং অডিও পাঁচটি ভিন্ন পদ্ধতি।
মডেল সমান্তরালতা
প্রশিক্ষণ বা অনুমান স্কেলিং করার একটি উপায় যা একটি মডেলের বিভিন্ন অংশকে বিভিন্ন ডিভাইসে রাখে। মডেল সমান্তরাল মডেলগুলিকে সক্ষম করে যেগুলি একটি একক ডিভাইসে ফিট করার জন্য খুব বড়।
মডেল সমান্তরালতা বাস্তবায়ন করতে, একটি সিস্টেম সাধারণত নিম্নলিখিতগুলি করে:
- মডেলটিকে ছোট ছোট অংশে ভাগ করে।
- একাধিক প্রসেসর জুড়ে সেই ছোট অংশগুলির প্রশিক্ষণ বিতরণ করে। প্রতিটি প্রসেসর মডেলের নিজস্ব অংশকে প্রশিক্ষণ দেয়।
- একটি একক মডেল তৈরি করতে ফলাফলগুলিকে একত্রিত করে৷
মডেল সমান্তরালতা প্রশিক্ষণ ধীর.
ডেটা সমান্তরালতাও দেখুন।
বহু-মাথা স্ব-মনোযোগ
স্ব-মনোযোগের একটি এক্সটেনশন যা ইনপুট অনুক্রমের প্রতিটি অবস্থানের জন্য স্ব-মনোযোগ প্রক্রিয়া একাধিকবার প্রয়োগ করে।
ট্রান্সফরমার মাল্টি-হেড স্ব-মনোযোগ চালু করেছে।
মাল্টিমোডাল মডেল
একটি মডেল যার ইনপুট এবং/অথবা আউটপুট একাধিক মোডালিটি অন্তর্ভুক্ত করে। উদাহরণ স্বরূপ, এমন একটি মডেল বিবেচনা করুন যা একটি চিত্র এবং একটি পাঠ্য ক্যাপশন (দুটি রূপ) উভয়কেই বৈশিষ্ট্য হিসাবে গ্রহণ করে এবং একটি স্কোর আউটপুট করে যা নির্দেশ করে যে পাঠ্য ক্যাপশনটি চিত্রের জন্য কতটা উপযুক্ত। সুতরাং, এই মডেলের ইনপুট মাল্টিমোডাল এবং আউটপুট ইউনিমডাল।
এন
প্রাকৃতিক ভাষা বোঝা
ব্যবহারকারী যা টাইপ করেছেন বা বলেছেন তার উপর ভিত্তি করে ব্যবহারকারীর উদ্দেশ্য নির্ধারণ করা। উদাহরণস্বরূপ, ব্যবহারকারী যা টাইপ করেছেন বা বলেছেন তার উপর ভিত্তি করে ব্যবহারকারী কী অনুসন্ধান করছেন তা নির্ধারণ করতে একটি সার্চ ইঞ্জিন প্রাকৃতিক ভাষা বোঝার ব্যবহার করে।
এন-গ্রাম
N শব্দের একটি আদেশকৃত ক্রম। উদাহরণস্বরূপ, সত্যিকারের পাগল হল একটি 2-গ্রাম। কারণ অর্ডার প্রাসঙ্গিক, madly সত্যি সত্যি পাগলের চেয়ে আলাদা 2-গ্রাম।
এন | এই ধরনের N-গ্রামের জন্য নাম(গুলি) | উদাহরণ |
---|---|---|
2 | বিগগ্রাম বা 2-গ্রাম | যেতে, যেতে, দুপুরের খাবার খেতে, রাতের খাবার খেতে |
3 | ট্রিগ্রাম বা 3-গ্রাম | খুব বেশি খেয়েছে, তিনটি অন্ধ ইঁদুর, ঘণ্টা বাজছে |
4 | 4-গ্রাম | পার্কে হাঁটা, বাতাসে ধুলো, ছেলেটা মসুর ডাল খেয়েছে |
অনেক প্রাকৃতিক ভাষা বোঝার মডেল এন-গ্রামের উপর নির্ভর করে পরবর্তী শব্দ যা ব্যবহারকারী টাইপ করবে বা বলবে তা ভবিষ্যদ্বাণী করতে। উদাহরণস্বরূপ, ধরুন একজন ব্যবহারকারী তিনটি অন্ধ টাইপ করেছেন। ট্রিগ্রামের উপর ভিত্তি করে একটি NLU মডেল সম্ভবত ভবিষ্যদ্বাণী করবে যে ব্যবহারকারী পরবর্তীতে ইঁদুর টাইপ করবে।
শব্দের ব্যাগের সাথে এন-গ্রামের বৈসাদৃশ্য করুন, যা শব্দের বিন্যাসহীন সেট।
এনএলইউ
প্রাকৃতিক ভাষা বোঝার জন্য সংক্ষিপ্ত রূপ।
ও
এক শট প্রম্পটিং
একটি প্রম্পট যাতে একটি উদাহরণ রয়েছে যা প্রদর্শন করে যে কীভাবে বড় ভাষা মডেলের প্রতিক্রিয়া জানানো উচিত। উদাহরণ স্বরূপ, নিচের প্রম্পটে একটি উদাহরণ রয়েছে যেটি একটি বৃহৎ ভাষার মডেল দেখায় কিভাবে এটি একটি প্রশ্নের উত্তর দিতে হবে।
এক প্রম্পটের অংশ | নোট |
---|---|
নির্দিষ্ট দেশের সরকারী মুদ্রা কি? | যে প্রশ্নটির উত্তর আপনি LLM করতে চান। |
ফ্রান্স: EUR | একটি উদাহরণ. |
ভারত: | প্রকৃত প্রশ্ন. |
নিম্নলিখিত পদগুলির সাথে এক-শট প্রম্পটিং তুলনা করুন এবং বৈসাদৃশ্য করুন:
পৃ
প্যারামিটার-দক্ষ টিউনিং
একটি বৃহৎ প্রাক-প্রশিক্ষিত ভাষা মডেল (PLM) সম্পূর্ণ ফাইন-টিউনিংয়ের চেয়ে আরও দক্ষতার সাথে সূক্ষ্ম-টিউন করার কৌশলগুলির একটি সেট। প্যারামিটার-দক্ষ টিউনিং সাধারণত পূর্ণ সূক্ষ্ম-টিউনিংয়ের চেয়ে অনেক কম পরামিতিকে সূক্ষ্ম-টিউন করে, তবুও সাধারণত একটি বৃহৎ ভাষার মডেল তৈরি করে যা সম্পূর্ণ সূক্ষ্ম-টিউনিং থেকে নির্মিত একটি বৃহৎ ভাষার মডেল হিসাবে (বা প্রায় পাশাপাশি) কাজ করে।
এর সাথে পরামিতি-দক্ষ টিউনিং তুলনা করুন এবং বৈসাদৃশ্য করুন:
প্যারামিটার-দক্ষ টিউনিং প্যারামিটার-দক্ষ ফাইন-টিউনিং নামেও পরিচিত।
পাইপলাইন
মডেলের সমান্তরালতার একটি ফর্ম যেখানে একটি মডেলের প্রক্রিয়াকরণ ধারাবাহিক পর্যায়ে বিভক্ত এবং প্রতিটি পর্যায় একটি ভিন্ন ডিভাইসে কার্যকর করা হয়। একটি পর্যায় যখন একটি ব্যাচ প্রক্রিয়া করছে, পূর্ববর্তী পর্যায়টি পরবর্তী ব্যাচে কাজ করতে পারে।
এছাড়াও মঞ্চস্থ প্রশিক্ষণ দেখুন.
পিএলএম
প্রাক-প্রশিক্ষিত ভাষা মডেলের সংক্ষিপ্ত রূপ।
অবস্থানগত এনকোডিং
টোকেনের এম্বেডিং-এ একটি ক্রমানুসারে একটি টোকেনের অবস্থান সম্পর্কে তথ্য যোগ করার একটি কৌশল। ট্রান্সফরমার মডেলগুলি সিকোয়েন্সের বিভিন্ন অংশের মধ্যে সম্পর্ক আরও ভালভাবে বোঝার জন্য অবস্থানগত এনকোডিং ব্যবহার করে।
অবস্থানগত এনকোডিংয়ের একটি সাধারণ বাস্তবায়ন একটি সাইনোসয়েডাল ফাংশন ব্যবহার করে। (বিশেষত, সাইনোসয়েডাল ফাংশনের ফ্রিকোয়েন্সি এবং প্রশস্ততা ক্রমানুসারে টোকেনের অবস্থান দ্বারা নির্ধারিত হয়।) এই কৌশলটি একটি ট্রান্সফরমার মডেলকে তাদের অবস্থানের উপর ভিত্তি করে ক্রমটির বিভিন্ন অংশে উপস্থিত থাকতে শিখতে সক্ষম করে।
প্রাক-প্রশিক্ষিত মডেল
মডেল বা মডেল উপাদান (যেমন একটি এমবেডিং ভেক্টর ) যা ইতিমধ্যেই প্রশিক্ষিত হয়েছে। কখনও কখনও, আপনি একটি নিউরাল নেটওয়ার্কে প্রাক-প্রশিক্ষিত এমবেডিং ভেক্টর খাওয়াবেন। অন্য সময়ে, আপনার মডেল প্রাক-প্রশিক্ষিত এম্বেডিংয়ের উপর নির্ভর না করে নিজেরাই এম্বেডিং ভেক্টরকে প্রশিক্ষণ দেবে।
প্রাক-প্রশিক্ষিত ভাষা মডেল শব্দটি একটি বড় ভাষা মডেলকে বোঝায় যা প্রাক-প্রশিক্ষণের মধ্য দিয়ে গেছে।
প্রাক-প্রশিক্ষণ
একটি বড় ডেটাসেটে একটি মডেলের প্রাথমিক প্রশিক্ষণ৷ কিছু প্রাক-প্রশিক্ষিত মডেল হল আনাড়ি জায়ান্ট এবং সাধারণত অতিরিক্ত প্রশিক্ষণের মাধ্যমে পরিমার্জিত হতে হবে। উদাহরণস্বরূপ, এমএল বিশেষজ্ঞরা একটি বিশাল টেক্সট ডেটাসেটে, যেমন উইকিপিডিয়ার সমস্ত ইংরেজি পৃষ্ঠাগুলিতে একটি বড় ভাষার মডেলকে প্রাক-প্রশিক্ষণ দিতে পারে। প্রাক-প্রশিক্ষণের পরে, ফলস্বরূপ মডেলটি নিম্নলিখিত কৌশলগুলির মাধ্যমে আরও পরিমার্জিত হতে পারে:
প্রম্পট
একটি বৃহৎ ভাষার মডেলে ইনপুট হিসাবে প্রবেশ করা যেকোন পাঠ্য মডেলটিকে একটি নির্দিষ্ট উপায়ে আচরণ করার শর্ত দেয়। প্রম্পটগুলি একটি বাক্যাংশের মতো ছোট বা ইচ্ছাকৃতভাবে দীর্ঘ হতে পারে (উদাহরণস্বরূপ, একটি উপন্যাসের সম্পূর্ণ পাঠ্য)। প্রম্পটগুলি নিম্নলিখিত সারণীতে দেখানো সহ একাধিক বিভাগে পড়ে:
প্রম্পট বিভাগ | উদাহরণ | নোট |
---|---|---|
প্রশ্ন | একটি কবুতর কত দ্রুত উড়তে পারে? | |
নির্দেশ | স্বেচ্ছাচারিতা সম্পর্কে একটি মজার কবিতা লিখুন। | একটি প্রম্পট যা বড় ভাষা মডেলকে কিছু করতে বলে। |
উদাহরণ | HTML-এ মার্কডাউন কোড অনুবাদ করুন। যেমন: মার্কডাউন: * তালিকা আইটেম HTML: <ul> <li>তালিকা আইটেম</li> </ul> | এই উদাহরণের প্রম্পটে প্রথম বাক্যটি একটি নির্দেশ। প্রম্পটের অবশিষ্টাংশটি উদাহরণ। |
ভূমিকা | পদার্থবিদ্যায় পিএইচডি করার জন্য মেশিন লার্নিং প্রশিক্ষণে গ্রেডিয়েন্ট ডিসেন্ট কেন ব্যবহার করা হয় তা ব্যাখ্যা করুন। | বাক্যের প্রথম অংশটি একটি নির্দেশ; "পদার্থবিজ্ঞানে পিএইচডি করতে" বাক্যাংশটি ভূমিকা অংশ। |
মডেল সম্পূর্ণ করার জন্য আংশিক ইনপুট | যুক্তরাজ্যের প্রধানমন্ত্রী এখানে থাকেন | একটি আংশিক ইনপুট প্রম্পট হয় আকস্মিকভাবে শেষ হতে পারে (যেমন এই উদাহরণটি করে) অথবা একটি আন্ডারস্কোর দিয়ে শেষ হতে পারে। |
একটি জেনারেটিভ এআই মডেল টেক্সট, কোড, ইমেজ, এমবেডিং , ভিডিও...প্রায় যেকোন কিছুর সাথে প্রম্পটে সাড়া দিতে পারে।
প্রম্পট-ভিত্তিক শিক্ষা
নির্দিষ্ট মডেলের একটি ক্ষমতা যা তাদের স্বেচ্ছাচারী পাঠ্য ইনপুট ( প্রম্পট ) এর প্রতিক্রিয়ায় তাদের আচরণকে মানিয়ে নিতে সক্ষম করে। একটি সাধারণ প্রম্পট-ভিত্তিক শেখার দৃষ্টান্তে, একটি বৃহৎ ভাষা মডেল পাঠ্য তৈরি করে একটি প্রম্পটে সাড়া দেয়। উদাহরণস্বরূপ, ধরুন একজন ব্যবহারকারী নিম্নলিখিত প্রম্পটে প্রবেশ করে:
নিউটনের গতির তৃতীয় সূত্র সংক্ষিপ্ত কর।
প্রম্পট-ভিত্তিক শিক্ষার জন্য সক্ষম একটি মডেল পূর্ববর্তী প্রম্পটের উত্তর দেওয়ার জন্য বিশেষভাবে প্রশিক্ষিত নয়। বরং, মডেলটি পদার্থবিজ্ঞান সম্পর্কে অনেক তথ্য, সাধারণ ভাষার নিয়ম সম্পর্কে অনেক কিছু এবং সাধারণত দরকারী উত্তরগুলি কী গঠন করে সে সম্পর্কে অনেক কিছু "জানে"৷ সেই জ্ঞান একটি (আশা করি) দরকারী উত্তর প্রদানের জন্য যথেষ্ট। অতিরিক্ত মানুষের প্রতিক্রিয়া ("সেই উত্তরটি খুব জটিল ছিল।" বা "একটি প্রতিক্রিয়া কী?") কিছু প্রম্পট-ভিত্তিক শিক্ষা ব্যবস্থাকে তাদের উত্তরগুলির উপযোগিতাকে ধীরে ধীরে উন্নত করতে সক্ষম করে।
প্রম্পট নকশা
প্রম্পট ইঞ্জিনিয়ারিং এর প্রতিশব্দ।
প্রম্পট ইঞ্জিনিয়ারিং
প্রম্পট তৈরি করার শিল্প যা একটি বৃহৎ ভাষার মডেল থেকে পছন্দসই প্রতিক্রিয়াগুলি প্রকাশ করে। মানুষ প্রম্পট ইঞ্জিনিয়ারিং সঞ্চালন. সুগঠিত প্রম্পট লেখা একটি বড় ভাষা মডেল থেকে কার্যকর প্রতিক্রিয়া নিশ্চিত করার একটি অপরিহার্য অংশ। প্রম্পট ইঞ্জিনিয়ারিং অনেক কারণের উপর নির্ভর করে, যার মধ্যে রয়েছে:
- ডেটাসেটটি প্রাক-প্রশিক্ষণ এবং সম্ভবত বৃহৎ ভাষার মডেলটিকে সূক্ষ্ম-টিউন করতে ব্যবহৃত হয়।
- তাপমাত্রা এবং অন্যান্য ডিকোডিং পরামিতি যা মডেল প্রতিক্রিয়া তৈরি করতে ব্যবহার করে।
সহায়ক প্রম্পটগুলি লেখার বিষয়ে আরও তথ্যের জন্য প্রম্পট ডিজাইনের পরিচিতি দেখুন।
প্রম্পট ডিজাইন প্রম্পট ইঞ্জিনিয়ারিংয়ের প্রতিশব্দ।
প্রম্পট টিউনিং
একটি প্যারামিটার দক্ষ টিউনিং প্রক্রিয়া যা একটি "উপসর্গ" শিখেছে যা সিস্টেমটি প্রকৃত প্রম্পটে প্রস্তুত করে।
প্রম্পট টিউনিংয়ের একটি প্রকরণ - কখনও কখনও উপসর্গ টিউনিং নামে পরিচিত - প্রতিটি স্তরে উপসর্গটি প্রস্তুত করার জন্য। বিপরীতে, বেশিরভাগ প্রম্পট টিউনিং কেবল ইনপুট স্তরটিতে একটি উপসর্গ যুক্ত করে।
আর
ভূমিকা অনুরোধ
প্রম্পটের একটি al চ্ছিক অংশ যা একটি জেনারেটর এআই মডেলের প্রতিক্রিয়ার জন্য একটি লক্ষ্য শ্রোতাদের চিহ্নিত করে। কোনও ভূমিকা প্রম্পট ছাড়াই , একটি বৃহত ভাষার মডেল এমন একটি উত্তর সরবরাহ করে যা প্রশ্ন জিজ্ঞাসা করা ব্যক্তির পক্ষে কার্যকর বা নাও হতে পারে। একটি ভূমিকা প্রম্পটের সাথে , একটি বৃহত ভাষার মডেল এমনভাবে উত্তর দিতে পারে যা নির্দিষ্ট লক্ষ্য দর্শকদের জন্য আরও উপযুক্ত এবং আরও সহায়ক। উদাহরণস্বরূপ, নিম্নলিখিত অনুরোধগুলির ভূমিকা প্রম্পট অংশটি বোল্ডফেসে রয়েছে:
- অর্থনীতিতে পিএইচডি করার জন্য এই নিবন্ধটি সংক্ষিপ্ত করুন।
- দশ বছরের পুরানো জন্য জোয়ারগুলি কীভাবে কাজ করে তা বর্ণনা করুন।
- ২০০৮ আর্থিক সংকট ব্যাখ্যা করুন। আপনি একটি ছোট বাচ্চা, বা একটি সোনার পুনরুদ্ধারকারী হিসাবে কথা বলুন।
এস
স্ব-অ্যাটেনশন (যাকে স্ব-অ্যাটেনশন স্তরও বলা হয়)
একটি নিউরাল নেটওয়ার্ক স্তর যা এম্বেডিংগুলির ক্রম (উদাহরণস্বরূপ, টোকেন এম্বেডিংস) এম্বেডিংগুলির অন্য ক্রমে রূপান্তর করে। আউটপুট সিকোয়েন্সে প্রতিটি এম্বেডিং একটি মনোযোগ ব্যবস্থার মাধ্যমে ইনপুট ক্রমের উপাদানগুলি থেকে তথ্য সংহত করে নির্মিত হয়।
স্ব-অনুমোদনের স্ব- অংশটি অন্য কোনও প্রসঙ্গের চেয়ে নিজের কাছে উপস্থিত ক্রমকে বোঝায়। স্ব-অ্যাটেনশন ট্রান্সফর্মারগুলির জন্য অন্যতম প্রধান বিল্ডিং ব্লক এবং "ক্যোয়ারী", "কী" এবং "মান" এর মতো অভিধান লুকআপ পরিভাষা ব্যবহার করে।
একটি স্ব-মনোভাব স্তরটি ইনপুট উপস্থাপনার ক্রম দিয়ে শুরু হয়, প্রতিটি শব্দের জন্য একটি করে। একটি শব্দের জন্য ইনপুট উপস্থাপনা একটি সাধারণ এম্বেডিং হতে পারে। একটি ইনপুট ক্রমের প্রতিটি শব্দের জন্য, নেটওয়ার্ক শব্দের পুরো অনুক্রমের প্রতিটি উপাদানের সাথে শব্দের প্রাসঙ্গিকতা স্কোর করে। প্রাসঙ্গিক স্কোরগুলি নির্ধারণ করে যে শব্দের চূড়ান্ত উপস্থাপনা অন্য শব্দের উপস্থাপনাগুলিকে কতটা অন্তর্ভুক্ত করে।
উদাহরণস্বরূপ, নিম্নলিখিত বাক্যটি বিবেচনা করুন:
প্রাণীটি রাস্তায় পার হয়নি কারণ এটি খুব ক্লান্ত ছিল।
নিম্নলিখিত চিত্রটি ( ট্রান্সফর্মার থেকে: ভাষা বোঝার জন্য একটি উপন্যাস নিউরাল নেটওয়ার্ক আর্কিটেকচার ) সর্বনামটির জন্য একটি স্ব-মনোযোগ স্তরটির মনোযোগ প্যাটার্ন দেখায়, প্রতিটি লাইনের অন্ধকারের সাথে প্রতিটি শব্দ প্রতিনিধিত্বকে কতটা অবদান রাখে তা নির্দেশ করে:
স্ব-অধিকার স্তরটি "এটি" এর সাথে প্রাসঙ্গিক শব্দগুলিকে হাইলাইট করে। এই ক্ষেত্রে, মনোযোগ স্তরটি এমন শব্দগুলি হাইলাইট করতে শিখেছে যা এটি উল্লেখ করতে পারে, প্রাণীকে সর্বোচ্চ ওজন নির্ধারণ করে।
এন টোকেনগুলির ক্রমের জন্য, স্ব-মনোভাবটি এম্বেডিংস এন পৃথক সময়ের ক্রমকে রূপান্তর করে, একবারে প্রতিটি অবস্থানে একবারে।
মনোযোগ এবং মাল্টি-হেড স্ব-অধিকারকেও উল্লেখ করুন।
অনুভূতি বিশ্লেষণ
কোনও গোষ্ঠীর সামগ্রিক মনোভাব - ইতিবাচক বা নেতিবাচক - কোনও পরিষেবা, পণ্য, সংস্থা বা বিষয়কে ধরে রাখার জন্য পরিসংখ্যান বা মেশিন লার্নিং অ্যালগরিদম ব্যবহার করে। উদাহরণস্বরূপ, প্রাকৃতিক ভাষা বোঝাপড়া ব্যবহার করে, একটি অ্যালগরিদম একটি বিশ্ববিদ্যালয় কোর্স থেকে পাঠ্য প্রতিক্রিয়া সম্পর্কে সংবেদন বিশ্লেষণ করতে পারে যে শিক্ষার্থীরা সাধারণত কোর্সটি পছন্দ করে বা অপছন্দ করে তা নির্ধারণ করতে।
সিকোয়েন্স-টু-সিকোয়েন্স টাস্ক
এমন একটি কাজ যা টোকেনগুলির একটি ইনপুট ক্রমকে টোকেনের আউটপুট সিকোয়েন্সে রূপান্তর করে। উদাহরণস্বরূপ, দুটি জনপ্রিয় ধরণের সিকোয়েন্স-টু-সিকোয়েন্স কাজগুলি হ'ল:
- অনুবাদক:
- নমুনা ইনপুট ক্রম: "আমি আপনাকে ভালবাসি।"
- নমুনা আউটপুট ক্রম: "জে টি'মাইম।"
- প্রশ্নের উত্তর:
- নমুনা ইনপুট ক্রম: "নিউ ইয়র্ক সিটিতে আমার কি আমার গাড়ি দরকার?"
- নমুনা আউটপুট ক্রম: "না। দয়া করে আপনার গাড়িটি বাড়িতে রাখুন" "
স্কিপ-গ্রাম
একটি এন-গ্রাম যা মূল প্রসঙ্গ থেকে শব্দ বাদ দিতে পারে (বা "এড়িয়ে যান"), যার অর্থ এন শব্দগুলি মূলত সংলগ্ন নাও হতে পারে। আরও স্পষ্টভাবে, একটি "কে-স্কিপ-এন-গ্রাম" একটি এন-গ্রাম যার জন্য কে শব্দ পর্যন্ত এড়িয়ে যেতে পারে।
উদাহরণস্বরূপ, "দ্য কুইক ব্রাউন ফক্স" এর নিম্নলিখিত সম্ভাব্য 2-গ্রাম রয়েছে:
- "দ্রুত"
- "কুইক ব্রাউন"
- "বাদামী শিয়াল"
একটি "1-স্কিপ-2-গ্রাম" হ'ল শব্দের একটি জুড়ি যা তাদের মধ্যে সর্বাধিক 1 টি শব্দ রয়েছে। অতএব, "দ্য কুইক ব্রাউন ফক্স" এর নিম্নলিখিত 1-স্কিপ 2-গ্রাম রয়েছে:
- "দ্য ব্রাউন"
- "কুইক ফক্স"
এছাড়াও, সমস্ত 2- গ্রামগুলিও 1-স্কিপ-2-গ্রাম, যেহেতু একেরও কম শব্দ এড়িয়ে যেতে পারে।
স্কিপ-গ্রামগুলি কোনও শব্দের আশেপাশের প্রসঙ্গে আরও বোঝার জন্য দরকারী। উদাহরণস্বরূপ, "ফক্স" সরাসরি 1-স্কিপ-2-গ্রামগুলির সেটে "কুইক" এর সাথে সরাসরি যুক্ত ছিল, তবে 2-গ্রামের সেটে নয়।
স্কিপ-গ্রামগুলি ওয়ার্ড এম্বেডিং মডেলগুলি প্রশিক্ষণে সহায়তা করে।
নরম প্রম্পট টিউনিং
একটি নির্দিষ্ট কাজের জন্য একটি বৃহত ভাষার মডেল টিউন করার জন্য একটি কৌশল, রিসোর্স নিবিড় সূক্ষ্ম-সুরকরণ ছাড়াই। মডেলের সমস্ত ওজনকে পুনরায় প্রশিক্ষণ দেওয়ার পরিবর্তে, সফট প্রম্পট টিউনিং স্বয়ংক্রিয়ভাবে একই লক্ষ্য অর্জনের জন্য একটি প্রম্পট সামঞ্জস্য করে।
একটি পাঠ্য প্রম্পট দেওয়া, নরম প্রম্পট টিউনিং সাধারণত অতিরিক্ত টোকেন এম্বেডিংগুলিকে প্রম্পটে সংযুক্ত করে এবং ইনপুটটি অনুকূল করতে ব্যাকপ্রোপেশন ব্যবহার করে।
একটি "হার্ড" প্রম্পটে টোকেন এম্বেডিংয়ের পরিবর্তে প্রকৃত টোকেন রয়েছে।
বিরল বৈশিষ্ট্য
এমন একটি বৈশিষ্ট্য যার মানগুলি মূলত শূন্য বা খালি। উদাহরণস্বরূপ, একটি একক 1 মান এবং এক মিলিয়ন 0 মান সমন্বিত একটি বৈশিষ্ট্য বিরল। বিপরীতে, একটি ঘন বৈশিষ্ট্যের মান রয়েছে যা মূলত শূন্য বা খালি নয়।
মেশিন লার্নিংয়ে, আশ্চর্যজনক সংখ্যক বৈশিষ্ট্য হ'ল স্পারস বৈশিষ্ট্য। শ্রেণীবদ্ধ বৈশিষ্ট্যগুলি সাধারণত বিরল বৈশিষ্ট্য হয়। উদাহরণস্বরূপ, একটি বনে 300 টি সম্ভাব্য গাছের প্রজাতির মধ্যে একটি একক উদাহরণ কেবল একটি ম্যাপেল গাছ সনাক্ত করতে পারে। বা, একটি ভিডিও লাইব্রেরিতে কয়েক মিলিয়ন সম্ভাব্য ভিডিওর মধ্যে একটি একক উদাহরণ কেবল "ক্যাসাব্ল্যাঙ্কা" সনাক্ত করতে পারে।
একটি মডেলটিতে, আপনি সাধারণত এক-হট এনকোডিং সহ স্পারস বৈশিষ্ট্যগুলি উপস্থাপন করেন। যদি এক-হট এনকোডিং বড় হয় তবে আপনি আরও বেশি দক্ষতার জন্য এক-হট এনকোডিংয়ের উপরে একটি এম্বেডিং স্তর রাখতে পারেন।
বিরল প্রতিনিধিত্ব
একটি বিরল বৈশিষ্ট্যে ননজারো উপাদানগুলির কেবলমাত্র অবস্থান (গুলি) সংরক্ষণ করা।
উদাহরণস্বরূপ, ধরুন species
নামের একটি শ্রেণিবদ্ধ বৈশিষ্ট্য একটি নির্দিষ্ট বনে 36 টি গাছের প্রজাতি সনাক্ত করে। আরও ধরে নিন যে প্রতিটি উদাহরণ কেবল একটি একক প্রজাতি চিহ্নিত করে।
আপনি প্রতিটি উদাহরণে গাছের প্রজাতির প্রতিনিধিত্ব করতে এক-হট ভেক্টর ব্যবহার করতে পারেন। এক-হট ভেক্টরটিতে একটি একক 1
(সেই উদাহরণে নির্দিষ্ট গাছের প্রজাতির প্রতিনিধিত্ব করতে) এবং 35 0
এস (35 টি গাছের প্রজাতির প্রতিনিধিত্ব করতে সেই উদাহরণে) থাকবে। সুতরাং, maple
এক-হট উপস্থাপনা নিম্নলিখিতগুলির মতো কিছু দেখতে পারে:
বিকল্পভাবে, বিরল প্রতিনিধিত্ব কেবল নির্দিষ্ট প্রজাতির অবস্থান সনাক্ত করতে পারে। যদি maple
24 অবস্থানে থাকে তবে maple
বিরল উপস্থাপনা কেবল হবে:
24
লক্ষ্য করুন যে বিরল উপস্থাপনা এক-হট উপস্থাপনের চেয়ে অনেক বেশি কমপ্যাক্ট।
মঞ্চস্থ প্রশিক্ষণ
বিচ্ছিন্ন পর্যায়ে একটি অনুক্রমে একটি মডেল প্রশিক্ষণের কৌশল। লক্ষ্যটি হয় প্রশিক্ষণ প্রক্রিয়াটি গতি বাড়ানো বা আরও ভাল মডেলের গুণমান অর্জন করা।
প্রগতিশীল স্ট্যাকিং পদ্ধতির একটি চিত্র নীচে দেখানো হয়েছে:
- পর্যায় 1 এ 3 টি লুকানো স্তর রয়েছে, মঞ্চ 2 এ 6 টি লুকানো স্তর রয়েছে এবং 3 ম পর্যায়টি 12 টি লুকানো স্তর রয়েছে।
- পর্যায় 2 পর্যায় 1 এর 3 টি গোপন স্তরগুলিতে শিখে নেওয়া ওজনের সাথে প্রশিক্ষণ শুরু করে। পর্যায় 3 পর্যায় 2 এর 6 টি লুকানো স্তরগুলিতে শিখে নেওয়া ওজনের সাথে প্রশিক্ষণ শুরু করে।
পাইপলাইনিংও দেখুন।
সাবওয়ার্ড টোকেন
ভাষার মডেলগুলিতে , একটি টোকেন যা একটি শব্দের একটি সাবস্ট্রিং, যা পুরো শব্দ হতে পারে।
উদাহরণস্বরূপ, "আইটেমাইজ" এর মতো একটি শব্দ "আইটেম" (একটি মূল শব্দ) এবং "আইজ" (একটি প্রত্যয়) টুকরো টুকরো টুকরো টুকরো টুকরো টুকরো টুকরো টুকরো টুকরো টুকরো টুকরো টুকরো টুকরো টুকরো টুকরো টুকরো টুকরো টুকরো টুকরো টুকরো টুকরো টুকরো টুকরো টুকরো টুকরো টুকরো টুকরো টুকরো টুকরো টুকরো টুকরো টুকরো টুকরো টুকরো টুকরো টুকরো টুকরো টুকরো টুকরো টুকরো টুকরো টুকরো টুকরো টুকরো টুকরো টুকরো টুকরো টুকরো টুকরো টুকরো টুকরো টুকরো টুকরো টুকরো টুকরো টুকরো টুকরো টুকরো টুকরো টুকরো টুকরো টুকরো টুকরো টুকরো টুকরো টুকরো টুকরো টুকরো টুকরো টুকরো টুকরো টুকরো সাবওয়ার্ড নামে পরিচিত এই জাতীয় টুকরোগুলিতে অস্বাভাবিক শব্দগুলিকে বিভক্ত করা, ভাষার মডেলগুলিকে শব্দের আরও সাধারণ উপাদানগুলির অংশগুলিতে যেমন উপসর্গ এবং প্রত্যয়গুলি পরিচালনা করতে দেয়।
বিপরীতে, "যাওয়া" এর মতো সাধারণ শব্দগুলি ভেঙে যেতে পারে না এবং এটি একটি একক টোকেন দ্বারা প্রতিনিধিত্ব করা যেতে পারে।
টি
T5
2020 সালে গুগল এআই দ্বারা প্রবর্তিত একটি পাঠ্য-থেকে-পাঠ্য স্থানান্তর শেখার মডেল । টি 5 হ'ল একটি এনকোডার - ডিকোডার মডেল, ট্রান্সফর্মার আর্কিটেকচারের উপর ভিত্তি করে একটি অত্যন্ত বড় ডেটাসেটে প্রশিক্ষিত। এটি বিভিন্ন প্রাকৃতিক ভাষা প্রক্রিয়াজাতকরণ কার্যগুলিতে কার্যকর যেমন পাঠ্য উত্পন্ন করা, ভাষা অনুবাদ করা এবং কথোপকথনের পদ্ধতিতে প্রশ্নের উত্তর দেওয়া।
"পাঠ্য-থেকে-পাঠ্য ট্রান্সফার ট্রান্সফর্মার" তে পাঁচটি টি থেকে টি 5 এর নাম পেয়েছে।
T5X
একটি ওপেন সোর্স, মেশিন লার্নিং ফ্রেমওয়ার্ক বড় আকারের প্রাকৃতিক ভাষা প্রসেসিং (এনএলপি) মডেলগুলি তৈরি এবং প্রশিক্ষণের জন্য ডিজাইন করা হয়েছে। টি 5 টি 5 এক্স কোডবেসে প্রয়োগ করা হয়েছে (যা জ্যাক্স এবং ফ্ল্যাক্সে নির্মিত)।
তাপমাত্রা
একটি হাইপারপ্যারামিটার যা কোনও মডেলের আউটপুটটির এলোমেলো ডিগ্রি নিয়ন্ত্রণ করে। উচ্চতর তাপমাত্রার ফলে আরও এলোমেলো আউটপুট হয়, যখন কম তাপমাত্রার ফলে কম এলোমেলো আউটপুট হয়।
সর্বোত্তম তাপমাত্রা নির্বাচন করা নির্দিষ্ট অ্যাপ্লিকেশন এবং মডেলের আউটপুটটির পছন্দসই বৈশিষ্ট্যের উপর নির্ভর করে। উদাহরণস্বরূপ, সৃজনশীল আউটপুট উত্পন্ন করে এমন একটি অ্যাপ্লিকেশন তৈরি করার সময় আপনি সম্ভবত তাপমাত্রা বাড়িয়ে তুলবেন। বিপরীতে, মডেলটির যথার্থতা এবং ধারাবাহিকতা উন্নত করার জন্য চিত্র বা পাঠ্যকে শ্রেণিবদ্ধ করে এমন কোনও মডেল তৈরি করার সময় আপনি সম্ভবত তাপমাত্রা কমিয়ে দেবেন।
তাপমাত্রা প্রায়শই সফটম্যাক্সের সাথে ব্যবহৃত হয়।
পাঠ্য স্প্যান
একটি পাঠ্য স্ট্রিংয়ের একটি নির্দিষ্ট উপধারার সাথে যুক্ত অ্যারে সূচক স্প্যান। উদাহরণস্বরূপ, পাইথন স্ট্রিং এস = "এখন good
s="Be good now"
শব্দটি 3 থেকে 6 পর্যন্ত পাঠ্য স্প্যানটি দখল করে।
টোকেন
একটি ভাষার মডেলটিতে , মডেলটি প্রশিক্ষণ নিচ্ছে এবং ভবিষ্যদ্বাণী করছে এমন পারমাণবিক ইউনিট। একটি টোকেন সাধারণত নিম্নলিখিতগুলির মধ্যে একটি:
- একটি শব্দ - উদাহরণস্বরূপ, "কুকুরের মতো কুকুর" শব্দটি তিনটি শব্দের টোকেন নিয়ে গঠিত: "কুকুর", "লাইক" এবং "বিড়াল"।
- একটি চরিত্র - উদাহরণস্বরূপ, "বাইক ফিশ" শব্দটি নয়টি চরিত্রের টোকেন নিয়ে গঠিত। (নোট করুন যে ফাঁকা স্থানটি টোকেনগুলির মধ্যে একটি হিসাবে গণনা করে))
- সাবওয়ার্ডস - যার মধ্যে একটি শব্দ একক টোকেন বা একাধিক টোকেন হতে পারে। একটি সাবওয়ার্ড একটি মূল শব্দ, একটি উপসর্গ বা একটি প্রত্যয় নিয়ে গঠিত। উদাহরণস্বরূপ, একটি ভাষার মডেল যা টোকেন হিসাবে সাবওয়ার্ড ব্যবহার করে "কুকুর" শব্দটিকে দুটি টোকেন হিসাবে দেখতে পারে (মূল শব্দ "কুকুর" এবং বহুবচন প্রত্যয় "গুলি")। একই ভাষার মডেলটি একক শব্দটিকে "লম্বা" দুটি সাবওয়ার্ড হিসাবে দেখতে পারে (মূল শব্দ "লম্বা" এবং প্রত্যয় "এর")।
ভাষার মডেলের বাইরের ডোমেনগুলিতে, টোকেনগুলি অন্যান্য ধরণের পারমাণবিক ইউনিটকে উপস্থাপন করতে পারে। উদাহরণস্বরূপ, কম্পিউটার ভিশনে, একটি টোকেন কোনও চিত্রের একটি উপসেট হতে পারে।
ট্রান্সফরমার
গুগলে বিকশিত একটি নিউরাল নেটওয়ার্ক আর্কিটেকচার যা ইনপুট এম্বেডিংগুলির ক্রমকে কনভোলিউশন বা পুনরাবৃত্ত নিউরাল নেটওয়ার্কগুলির উপর নির্ভর না করে আউটপুট এম্বেডিংগুলির ক্রম হিসাবে রূপান্তর করতে স্ব-অনুমোদন প্রক্রিয়াগুলির উপর নির্ভর করে। একটি ট্রান্সফর্মার স্ব-মনোযোগ স্তরগুলির স্ট্যাক হিসাবে দেখা যেতে পারে।
একটি ট্রান্সফর্মার নিম্নলিখিত যে কোনও একটি অন্তর্ভুক্ত করতে পারে:
একটি এনকোডার এম্বেডিংগুলির একটি ক্রমকে একই দৈর্ঘ্যের একটি নতুন অনুক্রমে রূপান্তর করে। একটি এনকোডারটিতে এন অভিন্ন স্তরগুলি অন্তর্ভুক্ত রয়েছে, যার প্রত্যেকটিতে দুটি উপ-স্তর রয়েছে। এই দুটি সাব-স্তরগুলি ইনপুট এম্বেডিং সিকোয়েন্সের প্রতিটি অবস্থানে প্রয়োগ করা হয়, ক্রমের প্রতিটি উপাদানকে একটি নতুন এম্বেডিংয়ে রূপান্তরিত করে। প্রথম এনকোডার সাব-লেয়ার ইনপুট ক্রম জুড়ে তথ্যকে একত্রিত করে। দ্বিতীয় এনকোডার সাব-স্তর একত্রিত তথ্যকে একটি আউটপুট এম্বেডিংয়ে রূপান্তর করে।
একটি ডিকোডার ইনপুট এম্বেডিংগুলির একটি ক্রমকে আউটপুট এম্বেডিংগুলির ক্রম হিসাবে রূপান্তর করে, সম্ভবত একটি আলাদা দৈর্ঘ্যের সাথে। একটি ডিকোডারটিতে তিনটি উপ-স্তরযুক্ত এন অভিন্ন স্তরগুলিও অন্তর্ভুক্ত রয়েছে, যার মধ্যে দুটি এনকোডার সাব-স্তরগুলির সাথে সমান। তৃতীয় ডিকোডার সাব-লেয়ার এনকোডারের আউটপুট নেয় এবং এটি থেকে তথ্য সংগ্রহের জন্য স্ব-মনোযোগ প্রক্রিয়া প্রয়োগ করে।
ব্লগ পোস্ট ট্রান্সফর্মার: ভাষা বোঝার জন্য একটি উপন্যাস নিউরাল নেটওয়ার্ক আর্কিটেকচার ট্রান্সফর্মারগুলির একটি ভাল ভূমিকা সরবরাহ করে।
ট্রাইগ্রাম
একটি এন-গ্রাম যা এন = 3।
উ
একমুখী
এমন একটি সিস্টেম যা কেবল পাঠ্যের লক্ষ্য বিভাগের পূর্ববর্তী পাঠ্যকে মূল্যায়ন করে। বিপরীতে, একটি দ্বি নির্দেশমূলক সিস্টেম পাঠ্যের একটি লক্ষ্য বিভাগের পূর্ববর্তী এবং অনুসরণ করে উভয় পাঠ্যকে মূল্যায়ন করে। আরও তথ্যের জন্য দ্বি নির্দেশমূলক দেখুন।
একমুখী ভাষা মডেল
একটি ভাষার মডেল যা তার সম্ভাব্যতাগুলি কেবল টোকেনগুলিতে আগে প্রদর্শিত হয়, এর পরে নয়, লক্ষ্য টোকেন (গুলি) এর পরে। দ্বি নির্দেশমূলক ভাষার মডেলের সাথে বৈপরীত্য।
ভি
ভেরিয়েশনাল অটোএনকোডার (VAE)
ইনপুটগুলির পরিবর্তিত সংস্করণগুলি উত্পন্ন করতে ইনপুট এবং আউটপুটগুলির মধ্যে তাত্পর্যকে উত্সাহ দেয় এমন এক ধরণের অটোইনকোডার । ভেরিয়েশনাল অটোয়েনকোডারগুলি জেনারেটর এআইয়ের জন্য দরকারী।
ভিএইগুলি বৈকল্পিক অনুমানের উপর ভিত্তি করে: সম্ভাব্যতা মডেলের পরামিতিগুলি অনুমান করার জন্য একটি কৌশল।
ডব্লিউ
শব্দ এম্বেডিং
এম্বেডিং ভেক্টরের মধ্যে সেট করা একটি শব্দে প্রতিটি শব্দের প্রতিনিধিত্ব করে ; এটি হ'ল প্রতিটি শব্দকে 0.0 এবং 1.0 এর মধ্যে ভাসমান-পয়েন্টের মানগুলির ভেক্টর হিসাবে উপস্থাপন করে। অনুরূপ অর্থ সহ শব্দগুলির বিভিন্ন অর্থের সাথে শব্দের চেয়ে আরও বেশি সহযোগিতা রয়েছে। উদাহরণস্বরূপ, গাজর , সেলারি এবং শসাগুলির সবগুলিরই তুলনামূলকভাবে অনুরূপ উপস্থাপনা থাকবে যা বিমান , সানগ্লাস এবং টুথপেস্টের উপস্থাপনা থেকে খুব আলাদা হবে।
জেড
জিরো-শট প্রম্পটিং
এমন একটি প্রম্পট যা আপনি বড় ভাষার মডেলটি কীভাবে প্রতিক্রিয়া জানাতে চান তার উদাহরণ সরবরাহ করে না । যেমন:
একটি প্রম্পটের অংশ | নোট |
---|---|
নির্দিষ্ট দেশের সরকারী মুদ্রা কী? | আপনি যে প্রশ্নের উত্তর চান তা প্রশ্নের উত্তর দিন। |
ভারত: | আসল ক্যোয়ারী। |
বৃহত্তর ভাষার মডেল নিম্নলিখিতগুলির সাথে প্রতিক্রিয়া জানাতে পারে:
- রুপি
- INR
- ₹
- ভারতীয় রুপি
- রুপী
- ভারতীয় রুপি
সমস্ত উত্তর সঠিক, যদিও আপনি একটি নির্দিষ্ট ফর্ম্যাট পছন্দ করতে পারেন।
নিম্নলিখিত শর্তগুলির সাথে জিরো-শটকে অনুরোধ করুন এবং বিপরীতে তুলনা করুন: