এই পৃষ্ঠায় রিইনফোর্সমেন্ট লার্নিং শব্দকোষ রয়েছে। সকল শব্দকোষের জন্য এখানে ক্লিক করুন ।
ক
কর্ম
শক্তিবৃদ্ধি শেখার ক্ষেত্রে, যে প্রক্রিয়ার মাধ্যমে এজেন্ট পরিবেশের অবস্থার মধ্যে স্থানান্তরিত হয়। এজেন্ট একটি নীতি ব্যবহার করে পদক্ষেপ বেছে নেয়।
প্রতিনিধি
শক্তিবৃদ্ধি শেখার ক্ষেত্রে, যে সত্তা পরিবেশের রাজ্যগুলির মধ্যে স্থানান্তর থেকে অর্জিত প্রত্যাশিত রিটার্ন সর্বাধিক করার জন্য একটি নীতি ব্যবহার করে।
আরও সাধারণভাবে, একটি এজেন্ট হল এমন একটি সফ্টওয়্যার যা স্বায়ত্তশাসিতভাবে একটি লক্ষ্য অর্জনের জন্য একাধিক কর্মের পরিকল্পনা করে এবং কার্যকর করে, যার পরিবেশের পরিবর্তনের সাথে খাপ খাইয়ে নেওয়ার ক্ষমতা থাকে। উদাহরণস্বরূপ, LLM- ভিত্তিক এজেন্টরা একটি শক্তিবৃদ্ধি শেখার নীতি প্রয়োগ করার পরিবর্তে একটি পরিকল্পনা তৈরি করতে LLM ব্যবহার করতে পারে।
খ
বেলম্যান সমীকরণ
শক্তিবৃদ্ধি শেখার ক্ষেত্রে, নিম্নোক্ত পরিচয়টি সর্বোত্তম Q-ফাংশন দ্বারা সন্তুষ্ট:
\[Q(s, a) = r(s, a) + \gamma \mathbb{E}_{s'|s,a} \max_{a'} Q(s', a')\]
রিইনফোর্সমেন্ট লার্নিং অ্যালগরিদমগুলি নিম্নলিখিত আপডেট নিয়মের মাধ্যমে Q-লার্নিং তৈরি করতে এই পরিচয়টি প্রয়োগ করে:
\[Q(s,a) \gets Q(s,a) + \alpha \left[r(s,a) + \gamma \displaystyle\max_{\substack{a_1}} Q(s',a') - Q(s,a) \right] \]
শক্তিবৃদ্ধি শেখার বাইরে, বেলম্যান সমীকরণে গতিশীল প্রোগ্রামিং-এর অ্যাপ্লিকেশন রয়েছে। বেলম্যান সমীকরণের জন্য উইকিপিডিয়া এন্ট্রি দেখুন।
গ
সমালোচক
ডিপ কিউ-নেটওয়ার্কের প্রতিশব্দ।
ডি
গভীর Q-নেটওয়ার্ক (DQN)
কিউ-লার্নিং -এ, একটি গভীর নিউরাল নেটওয়ার্ক যা কিউ-ফাংশনগুলির পূর্বাভাস দেয়।
সমালোচক ডিপ কিউ-নেটওয়ার্কের প্রতিশব্দ।
ডিকিউএন
ডিপ কিউ-নেটওয়ার্কের সংক্ষিপ্ত রূপ।
ই
পরিবেশ
শক্তিবৃদ্ধি শেখার ক্ষেত্রে, যে বিশ্বে এজেন্ট থাকে এবং এজেন্টকে সেই বিশ্বের অবস্থা পর্যবেক্ষণ করতে দেয়। উদাহরণস্বরূপ, প্রতিনিধিত্ব করা বিশ্ব দাবার মত একটি খেলা, অথবা একটি গোলকধাঁধা মত একটি শারীরিক জগত হতে পারে। যখন এজেন্ট পরিবেশে একটি ক্রিয়া প্রয়োগ করে, তখন পরিবেশ রাজ্যগুলির মধ্যে রূপান্তরিত হয়।
পর্ব
শক্তিবৃদ্ধি শেখার মধ্যে, এজেন্ট দ্বারা বারবার চেষ্টা প্রতিটি একটি পরিবেশ শিখতে.
epsilon লোভী নীতি
শক্তিবৃদ্ধি শেখার ক্ষেত্রে, এমন একটি নীতি যা হয় এপসিলন সম্ভাবনার সাথে একটি এলোমেলো নীতি অনুসরণ করে বা অন্যথায় একটি লোভী নীতি অনুসরণ করে। উদাহরণস্বরূপ, যদি এপিসিলন 0.9 হয়, তাহলে নীতিটি 90% সময় একটি এলোমেলো নীতি এবং 10% সময় একটি লোভী নীতি অনুসরণ করে।
ধারাবাহিক পর্বে, অ্যালগরিদম এপসিলনের মান হ্রাস করে যাতে একটি এলোমেলো নীতি অনুসরণ করা থেকে একটি লোভী নীতি অনুসরণ করে। নীতি পরিবর্তন করে, এজেন্ট প্রথমে এলোমেলোভাবে পরিবেশ অন্বেষণ করে এবং তারপর লোভের সাথে এলোমেলো অনুসন্ধানের ফলাফলগুলিকে কাজে লাগায়।
অভিজ্ঞতা রিপ্লে
শক্তিবৃদ্ধি শেখার ক্ষেত্রে, একটি DQN কৌশল প্রশিক্ষণের ডেটাতে সাময়িক পারস্পরিক সম্পর্ক কমাতে ব্যবহৃত হয়। এজেন্ট একটি রিপ্লে বাফারে স্টেট ট্রানজিশন সঞ্চয় করে, এবং তারপর ট্রেনিং ডেটা তৈরি করতে রিপ্লে বাফার থেকে স্যাম্পল ট্রানজিশন করে।
জি
লোভী নীতি
শক্তিবৃদ্ধি শেখার ক্ষেত্রে, এমন একটি নীতি যা সর্বদা সর্বোচ্চ প্রত্যাশিত রিটার্ন সহ কর্মটি বেছে নেয়।
এম
মার্কভ সিদ্ধান্ত প্রক্রিয়া (MDP)
সিদ্ধান্ত নেওয়ার মডেলের প্রতিনিধিত্বকারী একটি গ্রাফ যেখানে মার্কভ সম্পত্তি ধারণ করে এমন ধারণার অধীনে রাজ্যগুলির একটি ক্রম নেভিগেট করার জন্য সিদ্ধান্ত (বা কর্ম ) নেওয়া হয়। শক্তিবৃদ্ধি শেখার ক্ষেত্রে, রাজ্যগুলির মধ্যে এই রূপান্তরগুলি একটি সংখ্যাসূচক পুরস্কার প্রদান করে।
মার্কভ সম্পত্তি
নির্দিষ্ট পরিবেশের একটি সম্পত্তি, যেখানে রাষ্ট্রীয় রূপান্তর সম্পূর্ণরূপে বর্তমান অবস্থায় অন্তর্নিহিত তথ্য এবং এজেন্টের ক্রিয়া দ্বারা নির্ধারিত হয়।
পৃ
নীতি
শক্তিবৃদ্ধি শেখার ক্ষেত্রে, রাষ্ট্র থেকে ক্রিয়া পর্যন্ত একজন এজেন্টের সম্ভাব্য ম্যাপিং।
প্র
Q- ফাংশন
রিইনফোর্সমেন্ট লার্নিং -এ, যে ফাংশনটি একটি রাজ্যে একটি পদক্ষেপ নেওয়া এবং তারপর একটি প্রদত্ত নীতি অনুসরণ করে প্রত্যাশিত রিটার্নের পূর্বাভাস দেয়।
Q-ফাংশন রাষ্ট্র-ক্রিয়া মান ফাংশন নামেও পরিচিত।
প্রশ্ন-শিক্ষা
শক্তিবৃদ্ধি শেখার ক্ষেত্রে, একটি অ্যালগরিদম যা একজন এজেন্টকে বেলম্যান সমীকরণ প্রয়োগ করে মার্কভ সিদ্ধান্ত প্রক্রিয়ার সর্বোত্তম Q-ফাংশন শিখতে দেয়। মার্কভ সিদ্ধান্ত প্রক্রিয়া একটি পরিবেশকে মডেল করে।
আর
এলোমেলো নীতি
শক্তিবৃদ্ধি শেখার ক্ষেত্রে, একটি নীতি যা এলোমেলোভাবে একটি ক্রিয়া বেছে নেয়।
শক্তিবৃদ্ধি শিক্ষা (RL)
অ্যালগরিদমের একটি পরিবার যা একটি সর্বোত্তম নীতি শিখে, যার লক্ষ্য হল একটি পরিবেশের সাথে ইন্টারঅ্যাক্ট করার সময় সর্বোচ্চ রিটার্ন করা । উদাহরণস্বরূপ, বেশিরভাগ গেমের চূড়ান্ত পুরস্কার হল বিজয়। রিইনফোর্সমেন্ট লার্নিং সিস্টেমগুলি পূর্ববর্তী গেমের চালগুলির সিকোয়েন্সগুলি মূল্যায়ন করে জটিল গেম খেলতে পারদর্শী হয়ে উঠতে পারে যা শেষ পর্যন্ত জয়ের দিকে পরিচালিত করে এবং শেষ পর্যন্ত হারের দিকে পরিচালিত করে।
হিউম্যান ফিডব্যাক থেকে রিইনফোর্সমেন্ট লার্নিং (RLHF)
একটি মডেলের প্রতিক্রিয়ার গুণমান উন্নত করতে মানব রেটারদের প্রতিক্রিয়া ব্যবহার করা। উদাহরণস্বরূপ, একটি RLHF মেকানিজম ব্যবহারকারীদেরকে একটি মডেলের প্রতিক্রিয়ার গুণমানকে 👍 বা 👎 ইমোজি দিয়ে রেট দিতে বলতে পারে। সিস্টেম তারপর সেই প্রতিক্রিয়ার উপর ভিত্তি করে তার ভবিষ্যত প্রতিক্রিয়া সামঞ্জস্য করতে পারে।
রিপ্লে বাফার
DQN- এর মতো অ্যালগরিদমে, অভিজ্ঞতা রিপ্লেতে ব্যবহারের জন্য স্টেট ট্রানজিশন সংরক্ষণ করতে এজেন্ট দ্বারা ব্যবহৃত মেমরি।
ফিরে
রিইনফোর্সমেন্ট শেখার ক্ষেত্রে, একটি নির্দিষ্ট নীতি এবং একটি নির্দিষ্ট অবস্থার প্রেক্ষিতে, রিটার্ন হল সমস্ত পুরস্কারের সমষ্টি যা এজেন্ট রাষ্ট্র থেকে পর্বের শেষ পর্যন্ত নীতি অনুসরণ করার সময় পাওয়ার আশা করে। পুরষ্কার পাওয়ার জন্য প্রয়োজনীয় রাষ্ট্রীয় পরিবর্তন অনুসারে পুরস্কারে ছাড় দিয়ে প্রত্যাশিত পুরস্কারের বিলম্বিত প্রকৃতির জন্য এজেন্ট অ্যাকাউন্ট করে।
তাই, যদি ডিসকাউন্ট ফ্যাক্টর হয় \(\gamma\), এবং \(r_0, \ldots, r_{N}\)পর্বের শেষ না হওয়া পর্যন্ত পুরষ্কারগুলি বোঝায়, তাহলে রিটার্নের হিসাব নিম্নরূপ:
পুরস্কার
শক্তিবৃদ্ধি শেখার ক্ষেত্রে, পরিবেশ দ্বারা সংজ্ঞায়িত একটি রাষ্ট্রে একটি পদক্ষেপ নেওয়ার সংখ্যাসূচক ফলাফল।
এস
অবস্থা
শক্তিবৃদ্ধি শেখার ক্ষেত্রে, প্যারামিটার মানগুলি পরিবেশের বর্তমান কনফিগারেশন বর্ণনা করে, যা এজেন্ট একটি ক্রিয়া চয়ন করতে ব্যবহার করে।
রাষ্ট্র-ক্রিয়া মান ফাংশন
Q- ফাংশনের প্রতিশব্দ।
টি
সারণী Q-শিক্ষা
রিইনফোর্সমেন্ট লার্নিং -এ , স্টেট এবং অ্যাকশনের প্রতিটি সংমিশ্রণের জন্য Q-ফাংশন সংরক্ষণ করার জন্য একটি টেবিল ব্যবহার করে Q-লার্নিং বাস্তবায়ন করা।
লক্ষ্য নেটওয়ার্ক
ডিপ কিউ-লার্নিং -এ, একটি নিউরাল নেটওয়ার্ক যা প্রধান নিউরাল নেটওয়ার্কের একটি স্থিতিশীল অনুমান, যেখানে প্রধান নিউরাল নেটওয়ার্ক হয় একটি Q-ফাংশন বা একটি নীতি প্রয়োগ করে। তারপর, আপনি লক্ষ্য নেটওয়ার্ক দ্বারা পূর্বাভাসিত Q-মানগুলিতে প্রধান নেটওয়ার্ককে প্রশিক্ষণ দিতে পারেন। অতএব, আপনি ফিডব্যাক লুপকে আটকান যেটি ঘটে যখন প্রধান নেটওয়ার্ক Q-মানগুলি নিজেই পূর্বাভাস দেয়। এই প্রতিক্রিয়া এড়ানোর মাধ্যমে, প্রশিক্ষণের স্থিতিশীলতা বৃদ্ধি পায়।
সমাপ্তির শর্ত
রিইনফোর্সমেন্ট লার্নিং -এ, যে শর্তগুলি নির্ধারণ করে কখন একটি পর্ব শেষ হয়, যেমন যখন এজেন্ট একটি নির্দিষ্ট অবস্থায় পৌঁছায় বা স্টেট ট্রানজিশনের থ্রেশহোল্ড সংখ্যা অতিক্রম করে। উদাহরণস্বরূপ, টিক-ট্যাক-টো- এ (নটস অ্যান্ড ক্রস নামেও পরিচিত), একটি পর্ব শেষ হয় যখন একজন খেলোয়াড় পরপর তিনটি স্পেস চিহ্নিত করে বা যখন সমস্ত স্পেস চিহ্নিত করা হয়।
গতিপথ
রিইনফোর্সমেন্ট লার্নিংয়ে , টিপলের একটি ক্রম যা এজেন্টের রাষ্ট্রীয় রূপান্তরের একটি ক্রমকে প্রতিনিধিত্ব করে, যেখানে প্রতিটি টিপল একটি প্রদত্ত রাষ্ট্র পরিবর্তনের জন্য রাষ্ট্র, কর্ম , পুরস্কার এবং পরবর্তী অবস্থার সাথে মিলে যায়।