মেশিন লার্নিং শব্দকোষ,মেশিন লার্নিং শব্দকোষ

এই শব্দকোষ মেশিন লার্নিং শর্তাবলী সংজ্ঞায়িত করে।

বিমোচন

একটি মডেল থেকে সাময়িকভাবে অপসারণ করে একটি বৈশিষ্ট্য বা উপাদানের গুরুত্ব মূল্যায়ন করার একটি কৌশল৷ তারপরে আপনি সেই বৈশিষ্ট্য বা উপাদান ছাড়াই মডেলটিকে পুনরায় প্রশিক্ষণ দিন এবং যদি পুনরায় প্রশিক্ষিত মডেলটি উল্লেখযোগ্যভাবে খারাপ কাজ করে, তাহলে অপসারিত বৈশিষ্ট্য বা উপাদানটি সম্ভবত গুরুত্বপূর্ণ ছিল।

উদাহরণস্বরূপ, ধরুন আপনি 10টি বৈশিষ্ট্যের উপর একটি শ্রেণিবিন্যাস মডেলকে প্রশিক্ষণ দিচ্ছেন এবং পরীক্ষা সেটে 88% নির্ভুলতা অর্জন করেছেন। প্রথম বৈশিষ্ট্যটির গুরুত্ব পরীক্ষা করতে, আপনি শুধুমাত্র নয়টি অন্যান্য বৈশিষ্ট্য ব্যবহার করে মডেলটিকে পুনরায় প্রশিক্ষণ দিতে পারেন। যদি পুনরায় প্রশিক্ষিত মডেল উল্লেখযোগ্যভাবে খারাপ কাজ করে (উদাহরণস্বরূপ, 55% নির্ভুলতা), তাহলে অপসারণ বৈশিষ্ট্যটি সম্ভবত গুরুত্বপূর্ণ ছিল। বিপরীতভাবে, যদি পুনরায় প্রশিক্ষিত মডেলটি সমানভাবে ভাল পারফর্ম করে, তবে সেই বৈশিষ্ট্যটি সম্ভবত গুরুত্বপূর্ণ ছিল না।

নির্মূল এছাড়াও গুরুত্ব নির্ধারণ করতে সাহায্য করতে পারে:

  • বৃহত্তর উপাদান, যেমন একটি বৃহত্তর এমএল সিস্টেমের একটি সম্পূর্ণ সাবসিস্টেম
  • প্রক্রিয়া বা কৌশল, যেমন একটি ডেটা প্রিপ্রসেসিং ধাপ

উভয় ক্ষেত্রেই, আপনি উপাদানটি সরানোর পরে কীভাবে সিস্টেমের কর্মক্ষমতা পরিবর্তিত হয় (বা পরিবর্তন হয় না) তা আপনি লক্ষ্য করবেন।

A/B পরীক্ষা

দুটি (বা তার বেশি) কৌশল তুলনা করার একটি পরিসংখ্যানগত উপায় - A এবং B। সাধারণত, A একটি বিদ্যমান কৌশল, এবং B একটি নতুন কৌশল। A/B পরীক্ষা কেবলমাত্র কোন কৌশলটি ভাল কাজ করে তা নির্ধারণ করে না তবে পার্থক্যটি পরিসংখ্যানগতভাবে তাৎপর্যপূর্ণ কিনা তাও নির্ধারণ করে।

A/B পরীক্ষা সাধারণত দুটি কৌশলে একটি একক মেট্রিকের তুলনা করে; উদাহরণস্বরূপ, দুটি কৌশলের জন্য মডেল নির্ভুলতা কীভাবে তুলনা করে? যাইহোক, A/B টেস্টিং যেকোন সীমিত সংখ্যক মেট্রিকের তুলনা করতে পারে।

এক্সিলারেটর চিপ

#GoogleCloud

গভীর শিক্ষার অ্যালগরিদমগুলির জন্য প্রয়োজনীয় মূল গণনাগুলি সম্পাদন করার জন্য ডিজাইন করা বিশেষ হার্ডওয়্যার উপাদানগুলির একটি বিভাগ।

অ্যাক্সিলারেটর চিপস (বা সংক্ষেপে শুধু অ্যাক্সিলারেটর ) একটি সাধারণ-উদ্দেশ্য CPU-এর তুলনায় প্রশিক্ষণ এবং অনুমান কার্যগুলির গতি এবং দক্ষতা উল্লেখযোগ্যভাবে বৃদ্ধি করতে পারে। তারা নিউরাল নেটওয়ার্ক এবং অনুরূপ গণনামূলকভাবে নিবিড় কাজ প্রশিক্ষণের জন্য আদর্শ।

অ্যাক্সিলারেটর চিপগুলির উদাহরণগুলির মধ্যে রয়েছে:

  • গভীর শিক্ষার জন্য ডেডিকেটেড হার্ডওয়্যার সহ Google-এর টেনসর প্রসেসিং ইউনিট ( TPUs )।
  • NVIDIA-এর GPUগুলি, যদিও প্রাথমিকভাবে গ্রাফিক্স প্রক্রিয়াকরণের জন্য ডিজাইন করা হয়েছে, সমান্তরাল প্রক্রিয়াকরণ সক্ষম করার জন্য ডিজাইন করা হয়েছে, যা প্রক্রিয়াকরণের গতি উল্লেখযোগ্যভাবে বৃদ্ধি করতে পারে।

নির্ভুলতা

#মৌলিক
#মেট্রিক

সঠিক শ্রেণীবিভাগের ভবিষ্যদ্বাণীর সংখ্যাকে ভবিষ্যদ্বাণীর মোট সংখ্যা দিয়ে ভাগ করলে। অর্থাৎ:

$$\text{Accuracy} = \frac{\text{correct predictions}} {\text{correct predictions + incorrect predictions }}$$

উদাহরণস্বরূপ, একটি মডেল যা 40টি সঠিক ভবিষ্যদ্বাণী করেছে এবং 10টি ভুল ভবিষ্যদ্বাণী করেছে তার সঠিকতা থাকবে:

$$\text{Accuracy} = \frac{\text{40}} {\text{40 + 10}} = \text{80%}$$

বাইনারি শ্রেণীবিভাগ সঠিক ভবিষ্যদ্বাণী এবং ভুল ভবিষ্যদ্বাণীর বিভিন্ন বিভাগের জন্য নির্দিষ্ট নাম প্রদান করে। সুতরাং, বাইনারি শ্রেণীবিভাগের নির্ভুলতা সূত্রটি নিম্নরূপ:

$$\text{Accuracy} = \frac{\text{TP} + \text{TN}} {\text{TP} + \text{TN} + \text{FP} + \text{FN}}$$

কোথায়:

নির্ভুলতা এবং প্রত্যাহার সঙ্গে তুলনা এবং বিপরীতে নির্ভুলতা.

আরও তথ্যের জন্য মেশিন লার্নিং ক্র্যাশ কোর্সে শ্রেণিবিন্যাস: যথার্থতা, স্মরণ, নির্ভুলতা এবং সম্পর্কিত মেট্রিক্স দেখুন।

কর্ম

#আরএল

শক্তিবৃদ্ধি শেখার ক্ষেত্রে, যে প্রক্রিয়ার মাধ্যমে এজেন্ট পরিবেশের অবস্থার মধ্যে স্থানান্তরিত হয়। এজেন্ট একটি নীতি ব্যবহার করে পদক্ষেপ বেছে নেয়।

সক্রিয়করণ ফাংশন

#মৌলিক

একটি ফাংশন যা নিউরাল নেটওয়ার্কগুলিকে বৈশিষ্ট্য এবং লেবেলের মধ্যে অরৈখিক (জটিল) সম্পর্ক শিখতে সক্ষম করে।

জনপ্রিয় সক্রিয়করণ ফাংশন অন্তর্ভুক্ত:

অ্যাক্টিভেশন ফাংশনগুলির প্লটগুলি কখনই একক সরলরেখা নয়। উদাহরণস্বরূপ, ReLU অ্যাক্টিভেশন ফাংশনের প্লট দুটি সরল রেখা নিয়ে গঠিত:

দুটি লাইনের একটি কার্টেসিয়ান প্লট। প্রথম লাইনে একটি ধ্রুবক আছে           0 এর y মান, x-অক্ষ বরাবর -ইনফিনিটি,0 থেকে 0,-0 পর্যন্ত চলছে।           দ্বিতীয় লাইন 0,0 এ শুরু হয়। এই লাইনে +1 এর ঢাল আছে, তাই           এটি 0,0 থেকে +ইনফিনিটি,+ইনফিনিটি পর্যন্ত চলে।

সিগমায়েড অ্যাক্টিভেশন ফাংশনের একটি প্লট নিম্নরূপ দেখায়:

ডোমেনে বিস্তৃত x মান সহ একটি দ্বি-মাত্রিক বাঁকা প্লট           -ইনফিনিটি থেকে +ধনাত্মক, যখন y মান প্রায় 0 থেকে পরিসরে বিস্তৃত           প্রায় 1. যখন x 0 হয়, y হয় 0.5। বক্ররেখার ঢাল সবসময়           ধনাত্মক, সর্বোচ্চ ঢাল 0,0.5 সহ এবং ধীরে ধীরে হ্রাস পাচ্ছে           x এর পরম মান বাড়ার সাথে সাথে ঢাল।

আরও তথ্যের জন্য নিউরাল নেটওয়ার্ক: মেশিন লার্নিং ক্র্যাশ কোর্সে অ্যাক্টিভেশন ফাংশন দেখুন।

সক্রিয় শিক্ষা

একটি প্রশিক্ষণ পদ্ধতি যেখানে অ্যালগরিদম কিছু ডেটা বেছে নেয় যা থেকে শেখে। সক্রিয় শিক্ষা বিশেষভাবে মূল্যবান যখন লেবেলযুক্ত উদাহরণগুলি প্রাপ্তির জন্য দুষ্প্রাপ্য বা ব্যয়বহুল। অন্ধভাবে লেবেলযুক্ত উদাহরণের বিভিন্ন পরিসর খোঁজার পরিবর্তে, একটি সক্রিয় লার্নিং অ্যালগরিদম বেছে বেছে নির্দিষ্ট পরিসরের উদাহরণ খোঁজে যা শেখার জন্য প্রয়োজন।

অ্যাডাগ্রাড

একটি পরিশীলিত গ্রেডিয়েন্ট ডিসেন্ট অ্যালগরিদম যা প্রতিটি প্যারামিটারের গ্রেডিয়েন্টকে পুনরায় স্কেল করে, কার্যকরভাবে প্রতিটি প্যারামিটারকে একটি স্বাধীন শেখার হার দেয়। সম্পূর্ণ ব্যাখ্যার জন্য, অনলাইন লার্নিং এবং স্টোকাস্টিক অপ্টিমাইজেশনের জন্য অভিযোজিত সাবগ্রেডিয়েন্ট পদ্ধতি দেখুন।

এজেন্ট

#আরএল

শক্তিবৃদ্ধি শেখার ক্ষেত্রে, যে সত্তা পরিবেশের রাজ্যগুলির মধ্যে স্থানান্তর থেকে অর্জিত প্রত্যাশিত রিটার্ন সর্বাধিক করার জন্য একটি নীতি ব্যবহার করে।

আরও সাধারণভাবে, একটি এজেন্ট হল এমন একটি সফ্টওয়্যার যা স্বায়ত্তশাসিতভাবে একটি লক্ষ্য অর্জনের জন্য একাধিক কর্মের পরিকল্পনা করে এবং কার্যকর করে, যার পরিবেশের পরিবর্তনের সাথে খাপ খাইয়ে নেওয়ার ক্ষমতা থাকে। উদাহরণস্বরূপ, একটি LLM- ভিত্তিক এজেন্ট একটি শক্তিবৃদ্ধি শেখার নীতি প্রয়োগ করার পরিবর্তে একটি পরিকল্পনা তৈরি করতে একটি LLM ব্যবহার করতে পারে।

সমষ্টিগত ক্লাস্টারিং

# ক্লাস্টারিং

অনুক্রমিক ক্লাস্টারিং দেখুন।

অসঙ্গতি সনাক্তকরণ

বহিরাগতদের চিহ্নিত করার প্রক্রিয়া। উদাহরণস্বরূপ, যদি একটি নির্দিষ্ট বৈশিষ্ট্যের গড় 100 এর একটি আদর্শ বিচ্যুতি 10 হয়, তাহলে অসঙ্গতি সনাক্তকরণ 200 এর মানকে সন্দেহজনক হিসাবে চিহ্নিত করা উচিত।

এআর

বর্ধিত বাস্তবতার সংক্ষিপ্ত রূপ।

পিআর বক্ররেখার অধীনে এলাকা

#মেট্রিক

PR AUC (PR বক্ররেখার অধীনে এলাকা) দেখুন।

ROC বক্ররেখার অধীনে এলাকা

#মেট্রিক

AUC (আরওসি বক্ররেখার অধীনে এলাকা) দেখুন।

কৃত্রিম সাধারণ বুদ্ধিমত্তা

একটি অ-মানবিক প্রক্রিয়া যা সমস্যা সমাধান, সৃজনশীলতা এবং অভিযোজনযোগ্যতার বিস্তৃত পরিসর প্রদর্শন করে। উদাহরণস্বরূপ, কৃত্রিম সাধারণ বুদ্ধিমত্তা প্রদর্শনকারী একটি প্রোগ্রাম পাঠ্য অনুবাদ করতে পারে, সিম্ফনি রচনা করতে পারে এবং গেমগুলিতে এক্সেল করতে পারে যা এখনও উদ্ভাবিত হয়নি।

কৃত্রিম বুদ্ধিমত্তা

#মৌলিক

একটি অ-মানব প্রোগ্রাম বা মডেল যা পরিশীলিত কাজগুলি সমাধান করতে পারে। উদাহরণস্বরূপ, একটি প্রোগ্রাম বা মডেল যা পাঠ্য অনুবাদ করে বা একটি প্রোগ্রাম বা মডেল যা রেডিওলজিক চিত্র থেকে রোগ সনাক্ত করে উভয়ই কৃত্রিম বুদ্ধিমত্তা প্রদর্শন করে।

আনুষ্ঠানিকভাবে, মেশিন লার্নিং হল কৃত্রিম বুদ্ধিমত্তার একটি উপ-ক্ষেত্র। যাইহোক, সাম্প্রতিক বছরগুলিতে, কিছু সংস্থা কৃত্রিম বুদ্ধিমত্তা এবং মেশিন লার্নিং শব্দগুলিকে বিনিময়যোগ্যভাবে ব্যবহার করা শুরু করেছে।

মনোযোগ

#ভাষা

একটি নিউরাল নেটওয়ার্কে ব্যবহৃত একটি প্রক্রিয়া যা একটি নির্দিষ্ট শব্দ বা শব্দের অংশের গুরুত্ব নির্দেশ করে। মনোযোগ একটি মডেলের পরবর্তী টোকেন/শব্দের পূর্বাভাস দিতে প্রয়োজনীয় তথ্যের পরিমাণ সংকুচিত করে। একটি সাধারণ মনোযোগ প্রক্রিয়া ইনপুটগুলির একটি সেটের উপর একটি ওজনযুক্ত যোগফল নিয়ে গঠিত হতে পারে, যেখানে প্রতিটি ইনপুটের ওজন নিউরাল নেটওয়ার্কের অন্য অংশ দ্বারা গণনা করা হয়।

স্ব-মনোযোগ এবং বহু-হেড স্ব-মনোযোগকেও উল্লেখ করুন, যা ট্রান্সফরমারের বিল্ডিং ব্লক।

LLMs দেখুন: একটি বড় ভাষা মডেল কি? স্ব-মনোযোগ সম্পর্কে আরও তথ্যের জন্য মেশিন লার্নিং ক্র্যাশ কোর্সে।

বৈশিষ্ট্য

#দায়িত্বশীল

বৈশিষ্ট্য জন্য সমার্থক.

মেশিন লার্নিং ন্যায্যতায়, বৈশিষ্ট্যগুলি প্রায়শই ব্যক্তি সম্পর্কিত বৈশিষ্ট্যগুলিকে বোঝায়।

বৈশিষ্ট্য নমুনা

#df

একটি সিদ্ধান্ত বন প্রশিক্ষণের জন্য একটি কৌশল যেখানে প্রতিটি সিদ্ধান্ত গাছ শর্ত শেখার সময় সম্ভাব্য বৈশিষ্ট্যগুলির একটি এলোমেলো উপসেট বিবেচনা করে। সাধারণত, প্রতিটি নোডের জন্য বৈশিষ্ট্যগুলির একটি ভিন্ন উপসেট নমুনা করা হয়। বিপরীতে, অ্যাট্রিবিউট স্যাম্পলিং ছাড়াই একটি সিদ্ধান্ত গাছকে প্রশিক্ষণ দেওয়ার সময়, প্রতিটি নোডের জন্য সমস্ত সম্ভাব্য বৈশিষ্ট্য বিবেচনা করা হয়।

AUC (ROC বক্ররেখার অধীনে এলাকা)

#মৌলিক
#মেট্রিক

0.0 এবং 1.0 এর মধ্যে একটি সংখ্যা যা একটি বাইনারি শ্রেণীবিন্যাস মডেলের নেতিবাচক শ্রেণী থেকে ইতিবাচক শ্রেণীগুলিকে পৃথক করার ক্ষমতা উপস্থাপন করে। AUC 1.0 এর যত কাছাকাছি হবে, মডেলের একে অপরের থেকে ক্লাস আলাদা করার ক্ষমতা তত ভাল।

উদাহরণস্বরূপ, নিম্নলিখিত চিত্রটি একটি শ্রেণিবিন্যাস মডেল দেখায় যা ইতিবাচক শ্রেণীগুলি (সবুজ ডিম্বাকৃতি) নেতিবাচক শ্রেণী (বেগুনি আয়তক্ষেত্র) থেকে পুরোপুরি আলাদা করে। এই অবাস্তবভাবে নিখুঁত মডেলটির একটি AUC 1.0 রয়েছে:

এক পাশে 8টি ইতিবাচক উদাহরণ সহ একটি সংখ্যা রেখা এবং           অন্য দিকে 9টি নেতিবাচক উদাহরণ।

বিপরীতভাবে, নিম্নলিখিত চিত্রটি একটি শ্রেণীবিভাগ মডেলের ফলাফল দেখায় যা এলোমেলো ফলাফল তৈরি করেছে। এই মডেলটির একটি AUC 0.5 রয়েছে:

6টি ইতিবাচক উদাহরণ এবং 6টি নেতিবাচক উদাহরণ সহ একটি সংখ্যা রেখা৷           উদাহরণের ক্রমটি ইতিবাচক, নেতিবাচক,           ইতিবাচক, নেতিবাচক, ইতিবাচক, নেতিবাচক, ইতিবাচক, নেতিবাচক, ইতিবাচক           নেতিবাচক, ইতিবাচক, নেতিবাচক।

হ্যাঁ, পূর্ববর্তী মডেলটির একটি AUC 0.5 আছে, 0.0 নয়৷

বেশিরভাগ মডেল দুটি চরমের মধ্যে কোথাও আছে। উদাহরণস্বরূপ, নিম্নলিখিত মডেলটি নেতিবাচক থেকে ইতিবাচককে কিছুটা আলাদা করে, এবং তাই 0.5 এবং 1.0 এর মধ্যে একটি AUC রয়েছে:

6টি ইতিবাচক উদাহরণ এবং 6টি নেতিবাচক উদাহরণ সহ একটি সংখ্যা রেখা৷           উদাহরণের ক্রম হল ঋণাত্মক, ঋণাত্মক, ঋণাত্মক, ঋণাত্মক,           ইতিবাচক, নেতিবাচক, ইতিবাচক, ইতিবাচক, নেতিবাচক, ইতিবাচক, ইতিবাচক           ইতিবাচক

AUC আপনার শ্রেণীবিন্যাস থ্রেশহোল্ডের জন্য সেট করা যেকোনো মান উপেক্ষা করে। পরিবর্তে, AUC সমস্ত সম্ভাব্য শ্রেণীবিভাগ থ্রেশহোল্ড বিবেচনা করে।

আরও তথ্যের জন্য শ্রেণীবিভাগ দেখুন: মেশিন লার্নিং ক্র্যাশ কোর্সে ROC এবং AUC

বর্ধিত বাস্তবতা

#ছবি

একটি প্রযুক্তি যা একটি কম্পিউটার-উত্পাদিত চিত্রকে বাস্তব জগতের একজন ব্যবহারকারীর দৃষ্টিভঙ্গির উপর তুলে ধরে, এইভাবে একটি যৌগিক দৃশ্য প্রদান করে।

অটোএনকোডার

#ভাষা
#ছবি

একটি সিস্টেম যা ইনপুট থেকে সবচেয়ে গুরুত্বপূর্ণ তথ্য বের করতে শেখে। অটোএনকোডার হল একটি এনকোডার এবং ডিকোডারের সংমিশ্রণ। অটোএনকোডারগুলি নিম্নলিখিত দ্বি-পদক্ষেপ প্রক্রিয়ার উপর নির্ভর করে:

  1. এনকোডার ইনপুটকে একটি (সাধারণত) ক্ষতিকর নিম্ন-মাত্রিক (মধ্যবর্তী) বিন্যাসে ম্যাপ করে।
  2. ডিকোডার নিম্ন-মাত্রিক বিন্যাসটিকে মূল উচ্চ-মাত্রিক ইনপুট বিন্যাসে ম্যাপ করে মূল ইনপুটের একটি ক্ষতিকারক সংস্করণ তৈরি করে।

এনকোডারের মধ্যবর্তী বিন্যাস থেকে যতটা সম্ভব ঘনিষ্ঠভাবে মূল ইনপুট পুনর্গঠন করার জন্য ডিকোডার প্রচেষ্টার মাধ্যমে অটোএনকোডারদের এন্ড-টু-এন্ড প্রশিক্ষিত করা হয়। মধ্যবর্তী বিন্যাসটি মূল বিন্যাসের চেয়ে ছোট (নিম্ন-মাত্রিক) হওয়ায়, অটোএনকোডারকে ইনপুটে কোন তথ্য অপরিহার্য তা শিখতে বাধ্য করা হয় এবং আউটপুটটি ইনপুটের সাথে পুরোপুরি অভিন্ন হবে না।

যেমন:

  • যদি ইনপুট ডেটা একটি গ্রাফিক হয়, অ-নির্ভুল অনুলিপিটি মূল গ্রাফিকের অনুরূপ হবে, তবে কিছুটা পরিবর্তিত হবে। সম্ভবত অ-নির্ভুল অনুলিপি মূল গ্রাফিক থেকে শব্দ সরিয়ে দেয় বা কিছু অনুপস্থিত পিক্সেল পূরণ করে।
  • যদি ইনপুট ডেটা পাঠ্য হয় তবে একটি অটোএনকোডার নতুন পাঠ্য তৈরি করবে যা মূল পাঠ্যের অনুকরণ করে (কিন্তু অনুরূপ নয়)।

পরিবর্তনশীল অটোএনকোডারগুলিও দেখুন।

স্বয়ংক্রিয় মূল্যায়ন

#ভাষা
#generativeAI

একটি মডেলের আউটপুট গুণমান বিচার করতে সফ্টওয়্যার ব্যবহার করে.

যখন মডেল আউটপুট তুলনামূলকভাবে সহজবোধ্য হয়, তখন একটি স্ক্রিপ্ট বা প্রোগ্রাম মডেলের আউটপুটকে সোনালী প্রতিক্রিয়ার সাথে তুলনা করতে পারে। এই ধরনের স্বয়ংক্রিয় মূল্যায়নকে কখনও কখনও প্রোগ্রামেটিক মূল্যায়ন বলা হয়। মেট্রিক্স যেমন ROUGE বা BLEU প্রায়ই প্রোগ্রামেটিক মূল্যায়নের জন্য উপযোগী।

যখন মডেল আউটপুট জটিল হয় বা এর কোনো সঠিক উত্তর থাকে না , তখন একটি স্বয়ংক্রিয় এমএল প্রোগ্রাম নামে পরিচিত একটি স্বয়ংক্রিয় মূল্যায়ন করে।

মানুষের মূল্যায়নের সাথে বৈসাদৃশ্য।

অটোমেশন পক্ষপাত

#দায়িত্বশীল

যখন একজন মানবিক সিদ্ধান্ত গ্রহণকারী অটোমেশন ছাড়াই তৈরি তথ্যের উপর একটি স্বয়ংক্রিয় সিদ্ধান্ত-প্রণয়ন ব্যবস্থার দ্বারা প্রণীত সুপারিশগুলিকে সমর্থন করে, এমনকি যখন স্বয়ংক্রিয় সিদ্ধান্ত গ্রহণের সিস্টেম ত্রুটি করে।

আরও তথ্যের জন্য মেশিন লার্নিং ক্র্যাশ কোর্সে ন্যায্যতা: পক্ষপাতের প্রকারগুলি দেখুন।

অটোএমএল

মেশিন লার্নিং মডেল তৈরির জন্য যেকোনো স্বয়ংক্রিয় প্রক্রিয়া। অটোএমএল স্বয়ংক্রিয়ভাবে নিম্নলিখিত কাজগুলি করতে পারে:

অটোএমএল ডেটা বিজ্ঞানীদের জন্য উপযোগী কারণ এটি তাদের মেশিন লার্নিং পাইপলাইন তৈরিতে সময় এবং শ্রম বাঁচাতে পারে এবং ভবিষ্যদ্বাণীর নির্ভুলতা উন্নত করতে পারে। এটি অ-বিশেষজ্ঞদের জন্যও দরকারী, তাদের কাছে জটিল মেশিন লার্নিং কাজগুলিকে আরও অ্যাক্সেসযোগ্য করে তোলে।

আরও তথ্যের জন্য মেশিন লার্নিং ক্র্যাশ কোর্সে অটোমেটেড মেশিন লার্নিং (অটোএমএল) দেখুন।

অটোরাটার মূল্যায়ন

#ভাষা
#generativeAI
একটি জেনারেটিভ এআই মডেলের আউটপুটের গুণমান বিচার করার জন্য একটি হাইব্রিড প্রক্রিয়া যা মানুষের মূল্যায়নকে স্বয়ংক্রিয় মূল্যায়নের সাথে একত্রিত করে। একটি অটোরাটার হল একটি এমএল মডেল যা মানুষের মূল্যায়ন দ্বারা তৈরি ডেটার উপর প্রশিক্ষিত। আদর্শভাবে, একজন অটোরাটার একজন মানুষের মূল্যায়নকারীকে অনুকরণ করতে শেখে।

প্রি-বিল্ট অটোরেটর উপলব্ধ, তবে সেরা অটোরেটরগুলি বিশেষভাবে আপনি যে কাজটি মূল্যায়ন করছেন তার জন্য সূক্ষ্ম সুর করা হয়।

অটো রিগ্রেসিভ মডেল

#ভাষা
#ছবি
#generativeAI

একটি মডেল যা তার নিজের পূর্বের ভবিষ্যদ্বাণীগুলির উপর ভিত্তি করে একটি ভবিষ্যদ্বাণী অনুমান করে৷ উদাহরণস্বরূপ, অটো-রিগ্রেসিভ ল্যাঙ্গুয়েজ মডেলগুলি পূর্বে ভবিষ্যদ্বাণী করা টোকেনের উপর ভিত্তি করে পরবর্তী টোকেনের পূর্বাভাস দেয়। সমস্ত ট্রান্সফরমার -ভিত্তিক বৃহৎ ভাষার মডেলগুলি স্বয়ংক্রিয়-রিগ্রেসিভ।

বিপরীতে, GAN- ভিত্তিক ইমেজ মডেলগুলি সাধারণত অটো-রিগ্রেসিভ হয় না কারণ তারা একটি একক ফরোয়ার্ড-পাসে একটি ছবি তৈরি করে এবং ধাপে ধাপে নয়। যাইহোক, কিছু ইমেজ জেনারেশন মডেল অটো-রিগ্রেসিভ কারণ তারা ধাপে ধাপে একটি ইমেজ তৈরি করে।

সহায়ক ক্ষতি

একটি লস ফাংশন - একটি নিউরাল নেটওয়ার্ক মডেলের প্রধান ক্ষতি ফাংশনের সাথে একত্রে ব্যবহৃত - যা প্রাথমিক পুনরাবৃত্তির সময় প্রশিক্ষণকে ত্বরান্বিত করতে সাহায্য করে যখন ওজন এলোমেলোভাবে শুরু হয়।

অক্জিলিয়ারী লস ফাংশনগুলি কার্যকর গ্রেডিয়েন্টগুলিকে আগের স্তরগুলিতে ঠেলে দেয়। এটি অদৃশ্য গ্রেডিয়েন্ট সমস্যা মোকাবেলা করে প্রশিক্ষণের সময় একত্রিত হওয়া সহজ করে।

k এ গড় নির্ভুলতা

#ভাষা
#মেট্রিক

একটি একক প্রম্পটে মডেলের কর্মক্ষমতা সংক্ষিপ্ত করার জন্য একটি মেট্রিক যা র‌্যাঙ্ক করা ফলাফল তৈরি করে, যেমন বইয়ের সুপারিশের একটি সংখ্যাযুক্ত তালিকা। k- এ গড় নির্ভুলতা হল, ভাল, প্রতিটি প্রাসঙ্গিক ফলাফলের জন্য k মানের নির্ভুলতার গড়। k এ গড় নির্ভুলতার সূত্রটি তাই:

\[{\text{average precision at k}} = \frac{1}{n} \sum_{i=1}^n {\text{precision at k for each relevant item} } \]

কোথায়:

  • \(n\) তালিকায় প্রাসঙ্গিক আইটেমের সংখ্যা।

k এ প্রত্যাহার সঙ্গে বৈসাদৃশ্য।

অক্ষ-সারিবদ্ধ অবস্থা

#df

একটি সিদ্ধান্ত গাছে , একটি শর্ত যা শুধুমাত্র একটি একক বৈশিষ্ট্য জড়িত। উদাহরণস্বরূপ, যদি area একটি বৈশিষ্ট্য হয়, তাহলে নিম্নলিখিতটি একটি অক্ষ-সারিবদ্ধ শর্ত:

area > 200

তির্যক অবস্থার সাথে বৈসাদৃশ্য।

backpropagation

#মৌলিক

অ্যালগরিদম যা নিউরাল নেটওয়ার্কগুলিতে গ্রেডিয়েন্ট ডিসেন্ট প্রয়োগ করে৷

একটি নিউরাল নেটওয়ার্ক প্রশিক্ষণ নিম্নলিখিত দুই-পাস চক্রের অনেক পুনরাবৃত্তি জড়িত:

  1. ফরওয়ার্ড পাসের সময়, সিস্টেম ভবিষ্যদ্বাণী(গুলি) প্রদানের জন্য উদাহরণগুলির একটি ব্যাচ প্রক্রিয়া করে। সিস্টেম প্রতিটি লেবেল মানের সাথে প্রতিটি ভবিষ্যদ্বাণী তুলনা করে। ভবিষ্যদ্বাণী এবং লেবেল মানের মধ্যে পার্থক্য হল সেই উদাহরণের ক্ষতি । বর্তমান ব্যাচের মোট ক্ষতি গণনা করার জন্য সিস্টেমটি সমস্ত উদাহরণের জন্য ক্ষতিগুলিকে একত্রিত করে।
  2. ব্যাকওয়ার্ড পাসের সময় (ব্যাকপ্রপাগেশন), সিস্টেমটি সমস্ত লুকানো স্তর(গুলি) এর সমস্ত নিউরনের ওজন সামঞ্জস্য করে ক্ষতি হ্রাস করে।

নিউরাল নেটওয়ার্কে প্রায়ই অনেক লুকানো স্তর জুড়ে অনেক নিউরন থাকে। এই নিউরনগুলির প্রতিটি বিভিন্ন উপায়ে সামগ্রিক ক্ষতিতে অবদান রাখে। ব্যাকপ্রোপ্যাগেশন নির্দিষ্ট নিউরনগুলিতে প্রয়োগ করা ওজন বাড়ানো বা হ্রাস করা নির্ধারণ করে।

শেখার হার হল একটি গুণক যা প্রতিটি পশ্চাদগামী পাস প্রতিটি ওজন বৃদ্ধি বা হ্রাস করার মাত্রা নিয়ন্ত্রণ করে। একটি বড় শেখার হার প্রতিটি ওজন একটি ছোট শেখার হারের চেয়ে বেশি বৃদ্ধি বা হ্রাস করবে।

ক্যালকুলাস পদে, ব্যাকপ্রোপগেশন চেইন নিয়ম প্রয়োগ করে। ক্যালকুলাস থেকে অর্থাৎ, ব্যাকপ্রোপগেশন প্রতিটি প্যারামিটারের ক্ষেত্রে ত্রুটির আংশিক ডেরিভেটিভ গণনা করে।

কয়েক বছর আগে, এমএল অনুশীলনকারীদের ব্যাকপ্রোপগেশন বাস্তবায়নের জন্য কোড লিখতে হয়েছিল। কেরাসের মতো আধুনিক ML APIগুলি এখন আপনার জন্য ব্যাকপ্রোপগেশন প্রয়োগ করে৷ ফাউ!

আরও তথ্যের জন্য মেশিন লার্নিং ক্র্যাশ কোর্সে নিউরাল নেটওয়ার্ক দেখুন।

ব্যাগিং

#df

একটি দলকে প্রশিক্ষণ দেওয়ার একটি পদ্ধতি যেখানে প্রতিটি উপাদান মডেল প্রতিস্থাপন সহ নমুনাযুক্ত প্রশিক্ষণ উদাহরণগুলির একটি এলোমেলো উপসেটে প্রশিক্ষণ দেয়। উদাহরণস্বরূপ, একটি এলোমেলো বন হল ব্যাগিংয়ের সাথে প্রশিক্ষিত সিদ্ধান্ত গাছের একটি সংগ্রহ।

ব্যাগিং শব্দটি b ootstrap agg regat ing এর জন্য সংক্ষিপ্ত।

আরও তথ্যের জন্য ডিসিশন ফরেস্ট কোর্সে এলোমেলো বন দেখুন।

শব্দের ব্যাগ

#ভাষা

ক্রম নির্বিশেষে একটি বাক্যাংশ বা প্যাসেজে শব্দের উপস্থাপনা। উদাহরণস্বরূপ, শব্দের ব্যাগ নিম্নলিখিত তিনটি বাক্যাংশকে অভিন্নভাবে উপস্থাপন করে:

  • কুকুর লাফ দেয়
  • কুকুর লাফিয়ে
  • কুকুর লাফ দেয়

প্রতিটি শব্দ একটি স্পার্স ভেক্টরের একটি সূচকে ম্যাপ করা হয়, যেখানে ভেক্টরের শব্দভান্ডারের প্রতিটি শব্দের জন্য একটি সূচক থাকে। উদাহরণস্বরূপ, কুকুরের লাফানো শব্দগুচ্ছটি একটি বৈশিষ্ট্য ভেক্টরে ম্যাপ করা হয়েছে যা , কুকুর এবং লাফ শব্দের সাথে সম্পর্কিত তিনটি সূচকে শূন্য নয়। অ-শূন্য মান নিম্নলিখিত যে কোনো হতে পারে:

  • একটি শব্দের উপস্থিতি বোঝাতে একটি 1।
  • ব্যাগে একটি শব্দ কতবার উপস্থিত হয় তার একটি গণনা। উদাহরণস্বরূপ, যদি বাক্যাংশটি মেরুন কুকুর মেরুন পশমযুক্ত একটি কুকুর হয় , তাহলে মেরুন এবং কুকুর উভয়কেই 2 হিসাবে উপস্থাপন করা হবে, অন্য শব্দগুলিকে 1 হিসাবে উপস্থাপন করা হবে।
  • আরও কিছু মান, যেমন ব্যাগে একটি শব্দ কতবার উপস্থিত হয় তার সংখ্যার লগারিদম।

ভিত্তিরেখা

#মেট্রিক

অন্য মডেল (সাধারণত, একটি আরও জটিল) কতটা ভাল পারফর্ম করছে তা তুলনা করার জন্য একটি রেফারেন্স পয়েন্ট হিসাবে ব্যবহৃত একটি মডেল । উদাহরণস্বরূপ, একটি লজিস্টিক রিগ্রেশন মডেল একটি গভীর মডেলের জন্য একটি ভাল বেসলাইন হিসাবে কাজ করতে পারে।

একটি নির্দিষ্ট সমস্যার জন্য, বেসলাইন মডেল ডেভেলপারদের ন্যূনতম প্রত্যাশিত কর্মক্ষমতা পরিমাপ করতে সাহায্য করে যা একটি নতুন মডেলকে নতুন মডেলের উপযোগী হওয়ার জন্য অর্জন করতে হবে।

ব্যাচ

#মৌলিক

একটি প্রশিক্ষণের পুনরাবৃত্তিতে ব্যবহৃত উদাহরণের সেট। ব্যাচের আকার একটি ব্যাচে উদাহরণের সংখ্যা নির্ধারণ করে।

একটি ব্যাচ কিভাবে একটি যুগের সাথে সম্পর্কিত তার ব্যাখ্যার জন্য epoch দেখুন।

আরও তথ্যের জন্য লিনিয়ার রিগ্রেশন: মেশিন লার্নিং ক্র্যাশ কোর্সে হাইপারপ্যারামিটার দেখুন।

ব্যাচ অনুমান

#টেনসরফ্লো
#GoogleCloud

ছোট সাবসেটে বিভক্ত একাধিক লেবেলবিহীন উদাহরণের পূর্বাভাস অনুমান করার প্রক্রিয়া ("ব্যাচ")।

ব্যাচ ইনফারেন্স অ্যাক্সিলারেটর চিপগুলির সমান্তরাল বৈশিষ্ট্যগুলির সুবিধা নিতে পারে৷ অর্থাৎ, একাধিক অ্যাক্সিলারেটর একই সাথে লেবেলবিহীন উদাহরণের বিভিন্ন ব্যাচে ভবিষ্যদ্বাণী করতে পারে, নাটকীয়ভাবে প্রতি সেকেন্ডে অনুমানের সংখ্যা বৃদ্ধি করে।

আরও তথ্যের জন্য মেশিন লার্নিং ক্র্যাশ কোর্সে প্রোডাকশন এমএল সিস্টেম: স্ট্যাটিক বনাম গতিশীল অনুমান দেখুন।

ব্যাচ স্বাভাবিককরণ

একটি লুকানো স্তরে অ্যাক্টিভেশন ফাংশনের ইনপুট বা আউটপুটকে স্বাভাবিক করা । ব্যাচ স্বাভাবিককরণ নিম্নলিখিত সুবিধা প্রদান করতে পারে:

ব্যাচ আকার

#মৌলিক

একটি ব্যাচে উদাহরণের সংখ্যা। উদাহরণস্বরূপ, যদি ব্যাচের আকার 100 হয়, তাহলে মডেলটি প্রতি পুনরাবৃত্তি 100টি উদাহরণ প্রক্রিয়া করে।

নিম্নলিখিত জনপ্রিয় ব্যাচ আকার কৌশল:

  • স্টোকাস্টিক গ্রেডিয়েন্ট ডিসেন্ট (SGD) , যার ব্যাচের আকার 1।
  • সম্পূর্ণ ব্যাচ, যেখানে ব্যাচের আকার পুরো প্রশিক্ষণ সেটের উদাহরণের সংখ্যা। উদাহরণস্বরূপ, যদি প্রশিক্ষণ সেটে এক মিলিয়ন উদাহরণ থাকে, তাহলে ব্যাচের আকার এক মিলিয়ন উদাহরণ হবে। সম্পূর্ণ ব্যাচ সাধারণত একটি অদক্ষ কৌশল।
  • মিনি-ব্যাচ যেখানে ব্যাচের আকার সাধারণত 10 থেকে 1000 এর মধ্যে হয়। মিনি-ব্যাচ সাধারণত সবচেয়ে কার্যকরী কৌশল।

আরও তথ্যের জন্য নিম্নলিখিত দেখুন:

বায়েসিয়ান নিউরাল নেটওয়ার্ক

একটি সম্ভাব্য নিউরাল নেটওয়ার্ক যা ওজন এবং আউটপুটগুলিতে অনিশ্চয়তার জন্য দায়ী। একটি স্ট্যান্ডার্ড নিউরাল নেটওয়ার্ক রিগ্রেশন মডেল সাধারণত একটি স্কেলার মান ভবিষ্যদ্বাণী করে ; উদাহরণস্বরূপ, একটি আদর্শ মডেল 853,000 একটি বাড়ির দামের পূর্বাভাস দেয়। বিপরীতে, একটি Bayesian নিউরাল নেটওয়ার্ক মান বিতরণের পূর্বাভাস দেয়; উদাহরণস্বরূপ, একটি বায়েসিয়ান মডেল 67,200 এর আদর্শ বিচ্যুতি সহ 853,000 এর একটি বাড়ির মূল্য ভবিষ্যদ্বাণী করে।

একটি Bayesian নিউরাল নেটওয়ার্ক ওজন এবং ভবিষ্যদ্বাণীতে অনিশ্চয়তা গণনা করতে বেইসের উপপাদ্যের উপর নির্ভর করে। একটি Bayesian নিউরাল নেটওয়ার্ক কার্যকর হতে পারে যখন অনিশ্চয়তা পরিমাপ করা গুরুত্বপূর্ণ, যেমন ফার্মাসিউটিক্যালস সম্পর্কিত মডেলগুলিতে। Bayesian নিউরাল নেটওয়ার্ক ওভারফিটিং প্রতিরোধে সাহায্য করতে পারে।

Bayesian অপ্টিমাইজেশান

একটি বেসিয়ান শেখার কৌশল ব্যবহার করে অনিশ্চয়তা পরিমাপ করে এমন একটি সারোগেট অপ্টিমাইজ করে গণনামূলকভাবে ব্যয়বহুল উদ্দেশ্যমূলক ফাংশনগুলিকে অপ্টিমাইজ করার জন্য একটি সম্ভাব্য রিগ্রেশন মডেল কৌশল। যেহেতু Bayesian অপ্টিমাইজেশান নিজেই খুব ব্যয়বহুল, এটি সাধারণত ব্যয়বহুল-টু-মূল্যায়নের কাজগুলিকে অপ্টিমাইজ করতে ব্যবহৃত হয় যেগুলিতে স্বল্প সংখ্যক পরামিতি রয়েছে, যেমন হাইপারপ্যারামিটার নির্বাচন করা।

বেলম্যান সমীকরণ

#আরএল

শক্তিবৃদ্ধি শেখার ক্ষেত্রে, নিম্নোক্ত পরিচয়টি সর্বোত্তম Q-ফাংশন দ্বারা সন্তুষ্ট:

\[Q(s, a) = r(s, a) + \gamma \mathbb{E}_{s'|s,a} \max_{a'} Q(s', a')\]

রিইনফোর্সমেন্ট লার্নিং অ্যালগরিদম নিম্নলিখিত আপডেট নিয়ম ব্যবহার করে Q-লার্নিং তৈরি করতে এই পরিচয়টি প্রয়োগ করে:

\[Q(s,a) \gets Q(s,a) + \alpha \left[r(s,a) + \gamma \displaystyle\max_{\substack{a_1}} Q(s',a') - Q(s,a) \right] \]

শক্তিবৃদ্ধি শেখার বাইরে, বেলম্যান সমীকরণে গতিশীল প্রোগ্রামিং-এর অ্যাপ্লিকেশন রয়েছে। বেলম্যান সমীকরণের জন্য উইকিপিডিয়া এন্ট্রি দেখুন।

BERT (ট্রান্সফরমার থেকে দ্বিমুখী এনকোডার প্রতিনিধিত্ব)

#ভাষা

পাঠ্য উপস্থাপনার জন্য একটি মডেল আর্কিটেকচার। একটি প্রশিক্ষিত BERT মডেল পাঠ্য শ্রেণিবিন্যাস বা অন্যান্য ML কাজের জন্য একটি বড় মডেলের অংশ হিসাবে কাজ করতে পারে।

BERT এর নিম্নলিখিত বৈশিষ্ট্য রয়েছে:

BERT এর ভেরিয়েন্টগুলির মধ্যে রয়েছে:

ওপেন সোর্সিং বিইআরটি দেখুন: বিইআরটি-এর সংক্ষিপ্ত বিবরণের জন্য প্রাকৃতিক ভাষা প্রক্রিয়াকরণের জন্য অত্যাধুনিক প্রাক-প্রশিক্ষণ

পক্ষপাত (নৈতিকতা/ন্যায়)

#দায়িত্বশীল
#মৌলিক

1. কিছু জিনিস, মানুষ বা গোষ্ঠীর প্রতি স্টিরিওটাইপিং, কুসংস্কার বা পক্ষপাতিত্ব। এই পক্ষপাতগুলি ডেটা সংগ্রহ এবং ব্যাখ্যা, একটি সিস্টেমের নকশা এবং ব্যবহারকারীরা কীভাবে একটি সিস্টেমের সাথে যোগাযোগ করে তা প্রভাবিত করতে পারে। এই ধরনের পক্ষপাতের ফর্মগুলির মধ্যে রয়েছে:

2. একটি নমুনা বা রিপোর্টিং পদ্ধতি দ্বারা প্রবর্তিত পদ্ধতিগত ত্রুটি। এই ধরনের পক্ষপাতের ফর্মগুলির মধ্যে রয়েছে:

মেশিন লার্নিং মডেল বা ভবিষ্যদ্বাণী পক্ষপাতিত্ব শব্দের সাথে বিভ্রান্ত হবেন না।

আরও তথ্যের জন্য মেশিন লার্নিং ক্র্যাশ কোর্সে ন্যায্যতা: পক্ষপাতের প্রকারগুলি দেখুন।

পক্ষপাত (গণিত) বা পক্ষপাত শব্দ

#মৌলিক

একটি উত্স থেকে একটি বাধা বা অফসেট. বায়াস হল মেশিন লার্নিং মডেলের একটি প্যারামিটার, যা নিম্নলিখিতগুলির যে কোনো একটি দ্বারা চিহ্নিত করা হয়:

  • w 0

উদাহরণস্বরূপ, নিম্নোক্ত সূত্রে পক্ষপাত হল b :

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

একটি সাধারণ দ্বি-মাত্রিক লাইনে, পক্ষপাত মানে শুধু "y-ইন্টারসেপ্ট।" উদাহরণস্বরূপ, নিম্নলিখিত চিত্রে লাইনের পক্ষপাত হল 2।

0.5 এর ঢাল সহ একটি লাইনের প্লট এবং 2 এর একটি পক্ষপাত (y-ইন্টারসেপ্ট)।

পক্ষপাত বিদ্যমান কারণ সমস্ত মডেল মূল (0,0) থেকে শুরু হয় না। উদাহরণস্বরূপ, ধরুন একটি বিনোদন পার্কে প্রবেশের জন্য 2 ইউরো এবং একজন গ্রাহক থাকার প্রতি ঘন্টার জন্য অতিরিক্ত 0.5 ইউরো। অতএব, মোট খরচ ম্যাপিং একটি মডেল 2 এর পক্ষপাতী কারণ সর্বনিম্ন খরচ হল 2 ইউরো।

নৈতিকতা এবং ন্যায্যতা বা ভবিষ্যদ্বাণী পক্ষপাতের সাথে পক্ষপাতিত্বের সাথে বিভ্রান্ত হওয়া উচিত নয়।

আরও তথ্যের জন্য মেশিন লার্নিং ক্র্যাশ কোর্সে লিনিয়ার রিগ্রেশন দেখুন।

দ্বিমুখী

#ভাষা

এমন একটি শব্দ যা একটি সিস্টেমকে বর্ণনা করতে ব্যবহৃত হয় যা পাঠ্যের একটি লক্ষ্য বিভাগের পূর্ববর্তী এবং অনুসরণ করে এমন পাঠ্যকে মূল্যায়ন করে। বিপরীতে, একটি ইউনিডাইরেকশনাল সিস্টেম শুধুমাত্র পাঠ্যের একটি লক্ষ্য বিভাগের আগে থাকা পাঠ্যকে মূল্যায়ন করে।

উদাহরণস্বরূপ, একটি মুখোশযুক্ত ভাষা মডেল বিবেচনা করুন যা অবশ্যই নিম্নলিখিত প্রশ্নে আন্ডারলাইন প্রতিনিধিত্বকারী শব্দ বা শব্দগুলির সম্ভাব্যতা নির্ধারণ করবে:

আপনার সাথে _____ কি?

একটি একমুখী ভাষা মডেলকে শুধুমাত্র "কী", "is", এবং "the" শব্দ দ্বারা প্রদত্ত প্রেক্ষাপটের উপর ভিত্তি করে তার সম্ভাবনার ভিত্তি করতে হবে। বিপরীতে, একটি দ্বিমুখী ভাষা মডেল "সহ" এবং "আপনি" থেকে প্রসঙ্গ লাভ করতে পারে, যা মডেলটিকে আরও ভাল ভবিষ্যদ্বাণী তৈরি করতে সহায়তা করতে পারে।

দ্বিমুখী ভাষার মডেল

#ভাষা

একটি ভাষা মডেল যা পূর্ববর্তী এবং পরবর্তী পাঠ্যের উপর ভিত্তি করে পাঠ্যের একটি উদ্ধৃতিতে একটি প্রদত্ত টোকেন একটি নির্দিষ্ট স্থানে উপস্থিত থাকার সম্ভাবনা নির্ধারণ করে।

বিগগ্রাম

#সেক
#ভাষা

একটি N-গ্রাম যার মধ্যে N=2।

বাইনারি শ্রেণীবিভাগ

#মৌলিক

এক ধরনের শ্রেণীবিন্যাস টাস্ক যা দুটি পারস্পরিক একচেটিয়া শ্রেণীর একটির পূর্বাভাস দেয়:

উদাহরণস্বরূপ, নিম্নলিখিত দুটি মেশিন লার্নিং মডেল প্রতিটি বাইনারি শ্রেণীবিভাগ সম্পাদন করে:

  • একটি মডেল যা নির্ধারণ করে যে ইমেল বার্তাগুলি স্প্যাম (পজিটিভ ক্লাস) না স্প্যাম (নেতিবাচক ক্লাস)।
  • একটি মডেল যা একজন ব্যক্তির একটি নির্দিষ্ট রোগ (পজিটিভ ক্লাস) আছে কিনা বা সেই রোগ (নেতিবাচক শ্রেণী) নেই কিনা তা নির্ধারণ করতে চিকিৎসা লক্ষণগুলি মূল্যায়ন করে।

বহু-শ্রেণীর শ্রেণীবিভাগের সাথে বৈসাদৃশ্য।

লজিস্টিক রিগ্রেশন এবং শ্রেণীবিভাগ থ্রেশহোল্ড দেখুন।

আরও তথ্যের জন্য মেশিন লার্নিং ক্র্যাশ কোর্সে শ্রেণিবিন্যাস দেখুন।

বাইনারি অবস্থা

#df

একটি সিদ্ধান্ত গাছে , এমন একটি শর্ত যার শুধুমাত্র দুটি সম্ভাব্য ফলাফল রয়েছে, সাধারণত হ্যাঁ বা না । উদাহরণস্বরূপ, নিম্নলিখিত একটি বাইনারি শর্ত:

temperature >= 100

অ-বাইনারি অবস্থার সাথে বৈসাদৃশ্য।

আরও তথ্যের জন্য ডিসিশন ফরেস্ট কোর্সে শর্তের প্রকার দেখুন।

বিনিং

bucketing জন্য সমার্থক.

BLEU (দ্বিভাষিক মূল্যায়ন আন্ডারস্টাডি)

#ভাষা

মেশিন অনুবাদের মূল্যায়নের জন্য 0.0 এবং 1.0 এর মধ্যে একটি মেট্রিক, উদাহরণস্বরূপ, স্প্যানিশ থেকে জাপানি পর্যন্ত।

একটি স্কোর গণনা করার জন্য, BLEU সাধারণত একটি ML মডেলের অনুবাদ ( জেনারেটেড টেক্সট ) একজন মানব বিশেষজ্ঞের অনুবাদের ( রেফারেন্স টেক্সট ) সাথে তুলনা করে। যে ডিগ্রীতে N-গ্রাম জেনারেট করা টেক্সট এবং রেফারেন্স টেক্সট মেলে তা BLEU স্কোর নির্ধারণ করে।

এই মেট্রিকের মূল কাগজটি হল BLEU: মেশিন অনুবাদের স্বয়ংক্রিয় মূল্যায়নের একটি পদ্ধতি

এছাড়াও BLEURT দেখুন।

BLEURT (ট্রান্সফরমার থেকে দ্বিভাষিক মূল্যায়ন আন্ডারস্টাডি)

#ভাষা

এক ভাষা থেকে অন্য ভাষায়, বিশেষ করে ইংরেজিতে এবং থেকে মেশিন অনুবাদের মূল্যায়নের জন্য একটি মেট্রিক।

ইংরেজিতে এবং থেকে অনুবাদের জন্য, BLEURT BLEU এর চেয়ে মানব রেটিংগুলির সাথে আরও ঘনিষ্ঠভাবে সারিবদ্ধ করে। BLEU এর বিপরীতে, BLEURT শব্দার্থগত (অর্থ) মিলের উপর জোর দেয় এবং প্যারাফ্রেজিংকে মিটমাট করতে পারে।

BLEURT একটি প্রাক-প্রশিক্ষিত বৃহৎ ভাষার মডেলের উপর নির্ভর করে ( BERT সঠিক হতে) যেটি মানব অনুবাদকদের পাঠ্যের উপর সূক্ষ্ম সুর করা হয়।

এই মেট্রিকের মূল কাগজটি হল BLEURT: টেক্সট জেনারেশনের জন্য রোবাস্ট মেট্রিক্স শেখা

boosting

একটি মেশিন লার্নিং কৌশল যা পুনরাবৃত্তিমূলকভাবে সহজ এবং খুব নির্ভুল নয় ক্লাসিফায়ারের একটি সেটকে একত্রিত করে (যাকে "দুর্বল" ক্লাসিফায়ার হিসাবে উল্লেখ করা হয়) উচ্চ নির্ভুলতা সহ একটি শ্রেণীবিভাগে (একটি "শক্তিশালী" শ্রেণীবিভাগকারী) মডেলটি বর্তমানে ভুল শ্রেণীবদ্ধ করা হচ্ছে এমন উদাহরণগুলিকে বাড়িয়ে তুলে

গ্রেডিয়েন্ট বুস্টেড সিদ্ধান্ত গাছ দেখুন? আরও তথ্যের জন্য ডিসিশন ফরেস্ট কোর্সে।

আবদ্ধ বাক্স

#ছবি

একটি ছবিতে, ( x , y ) আগ্রহের একটি এলাকার চারপাশে একটি আয়তক্ষেত্রের স্থানাঙ্ক, যেমন নীচের ছবিতে কুকুর।

সোফায় বসে থাকা কুকুরের ছবি। একটি সবুজ আবদ্ধ বাক্স           (275, 1271) এবং নীচে-ডান-এর উপরে-বাম স্থানাঙ্ক সহ           (2954, 2761) এর স্থানাঙ্ক কুকুরের শরীরকে ঘেরাও করে

সম্প্রচার

একটি ম্যাট্রিক্স গণিত অপারেশনে একটি অপারেন্ডের আকারকে সেই ক্রিয়াকলাপের জন্য সামঞ্জস্যপূর্ণ মাত্রায় প্রসারিত করা। উদাহরণস্বরূপ, রৈখিক বীজগণিতের জন্য ম্যাট্রিক্স সংযোজন ক্রিয়াকলাপের দুটি অপারেন্ডের একই মাত্রা থাকতে হবে। ফলস্বরূপ, n দৈর্ঘ্যের ভেক্টরে আপনি আকৃতির ম্যাট্রিক্স (m, n) যোগ করতে পারবেন না। ব্রডকাস্টিং প্রতিটি কলামের নিচে একই মান প্রতিলিপি করে আকৃতির ম্যাট্রিক্স (m, n) দৈর্ঘ্যের ভেক্টরটিকে কার্যত প্রসারিত করে এই ক্রিয়াকলাপটিকে সক্ষম করে।

আরও বিস্তারিত জানার জন্য NumPy-এ সম্প্রচারের নিম্নলিখিত বিবরণ দেখুন।

বালতি

#মৌলিক

একটি একক বৈশিষ্ট্যকে একাধিক বাইনারি বৈশিষ্ট্যে রূপান্তর করা যাকে বলা হয় বালতি বা বিন , সাধারণত একটি মান পরিসরের উপর ভিত্তি করে। কাটা বৈশিষ্ট্যটি সাধারণত একটি অবিচ্ছিন্ন বৈশিষ্ট্য

উদাহরণস্বরূপ, তাপমাত্রাকে একটি অবিচ্ছিন্ন ফ্লোটিং-পয়েন্ট বৈশিষ্ট্য হিসাবে উপস্থাপন করার পরিবর্তে, আপনি তাপমাত্রার রেঞ্জগুলিকে আলাদা বালতিতে কাটতে পারেন, যেমন:

  • <= 10 ডিগ্রি সেলসিয়াস হবে "ঠান্ডা" বালতি।
  • 11 - 24 ডিগ্রি সেলসিয়াস "নাতিশীতোষ্ণ" বালতি হবে।
  • >= 25 ডিগ্রি সেলসিয়াস হবে "উষ্ণ" বালতি।

মডেলটি একই বালতিতে প্রতিটি মানকে অভিন্নভাবে বিবেচনা করবে। উদাহরণস্বরূপ, মান 13 এবং 22 উভয়ই নাতিশীতোষ্ণ বালতিতে রয়েছে, তাই মডেল দুটি মানকে অভিন্নভাবে বিবেচনা করে।

আরও তথ্যের জন্য সংখ্যাসূচক ডেটা দেখুন: মেশিন লার্নিং ক্র্যাশ কোর্সে বিনিং

ক্রমাঙ্কন স্তর

একটি পোস্ট-পূর্বাভাস সমন্বয়, সাধারণত ভবিষ্যদ্বাণী পক্ষপাতের জন্য অ্যাকাউন্ট। সামঞ্জস্যপূর্ণ ভবিষ্যদ্বাণী এবং সম্ভাব্যতাগুলি একটি পর্যবেক্ষণ করা লেবেলের সেটের বিতরণের সাথে মেলে।

প্রার্থী প্রজন্ম

#রিসিস্টেম

একটি সুপারিশ সিস্টেম দ্বারা নির্বাচিত সুপারিশের প্রাথমিক সেট৷ উদাহরণস্বরূপ, একটি বইয়ের দোকান বিবেচনা করুন যা 100,000 শিরোনাম অফার করে। প্রার্থী প্রজন্মের পর্যায় একটি নির্দিষ্ট ব্যবহারকারীর জন্য উপযুক্ত বইয়ের একটি অনেক ছোট তালিকা তৈরি করে, বলুন 500। কিন্তু এমনকি 500টি বইও ব্যবহারকারীর কাছে সুপারিশ করার মতো অনেক বেশি। পরবর্তী, আরও ব্যয়বহুল, একটি সুপারিশ ব্যবস্থার পর্যায়গুলি (যেমন স্কোরিং এবং পুনরায় র‌্যাঙ্কিং ) সেই 500 কে অনেক ছোট, আরও দরকারী সুপারিশের সেটে কমিয়ে দেয়।

আরও তথ্যের জন্য সুপারিশ সিস্টেম কোর্সে প্রার্থী প্রজন্মের ওভারভিউ দেখুন।

প্রার্থীর নমুনা

একটি প্রশিক্ষণ-সময় অপ্টিমাইজেশান যা সমস্ত ইতিবাচক লেবেলের জন্য একটি সম্ভাব্যতা গণনা করে, উদাহরণস্বরূপ, সফটম্যাক্স ব্যবহার করে, কিন্তু শুধুমাত্র নেতিবাচক লেবেলের একটি এলোমেলো নমুনার জন্য। উদাহরণস্বরূপ, বিগল এবং কুকুর লেবেলযুক্ত একটি উদাহরণ দেওয়া হয়েছে, প্রার্থীর স্যাম্পলিং পূর্বাভাসিত সম্ভাব্যতা এবং সংশ্লিষ্ট ক্ষতির শর্তাবলী গণনা করে:

  • বিগল
  • কুকুর
  • অবশিষ্ট নেতিবাচক শ্রেণীর একটি এলোমেলো উপসেট (উদাহরণস্বরূপ, cat , lollipop , fence )।

ধারণাটি হল যে নেতিবাচক শ্রেণীগুলি কম ঘন ঘন নেতিবাচক শক্তিবৃদ্ধি থেকে শিখতে পারে যতক্ষণ না ইতিবাচক শ্রেণীগুলি সর্বদা সঠিক ইতিবাচক শক্তিবৃদ্ধি পায়, এবং এটি বাস্তবিকই পরীক্ষামূলকভাবে পর্যবেক্ষণ করা হয়।

প্রার্থীর নমুনা প্রশিক্ষণের অ্যালগরিদমগুলির তুলনায় গণনাগতভাবে বেশি দক্ষ যা সমস্ত নেতিবাচক শ্রেণীর জন্য পূর্বাভাস গণনা করে, বিশেষ করে যখন নেতিবাচক শ্রেণীর সংখ্যা খুব বেশি হয়।

শ্রেণীবদ্ধ তথ্য

#মৌলিক

সম্ভাব্য মানগুলির একটি নির্দিষ্ট সেট থাকা বৈশিষ্ট্যগুলি ৷ উদাহরণ স্বরূপ, traffic-light-state নামে একটি শ্রেণীবদ্ধ বৈশিষ্ট্য বিবেচনা করুন, যেটিতে শুধুমাত্র নিম্নলিখিত তিনটি সম্ভাব্য মানগুলির মধ্যে একটি থাকতে পারে:

  • red
  • yellow
  • green

traffic-light-state একটি শ্রেণীবদ্ধ বৈশিষ্ট্য হিসাবে উপস্থাপন করে, একটি মডেল চালকের আচরণের উপর red , green এবং yellow বিভিন্ন প্রভাব শিখতে পারে।

শ্রেণীগত বৈশিষ্ট্যগুলিকে কখনও কখনও পৃথক বৈশিষ্ট্য বলা হয়।

সংখ্যাসূচক তথ্যের সাথে বৈসাদৃশ্য।

আরও তথ্যের জন্য মেশিন লার্নিং ক্র্যাশ কোর্সে শ্রেণীবদ্ধ ডেটা নিয়ে কাজ করা দেখুন।

কার্যকারণ ভাষা মডেল

#ভাষা

একমুখী ভাষা মডেলের প্রতিশব্দ।

ভাষা মডেলিংয়ে বিভিন্ন দিকনির্দেশক পদ্ধতির বিপরীতে দ্বিমুখী ভাষার মডেল দেখুন।

কেন্দ্রিক

# ক্লাস্টারিং

একটি k-মান বা k-মিডিয়ান অ্যালগরিদম দ্বারা নির্ধারিত একটি ক্লাস্টারের কেন্দ্র৷ উদাহরণস্বরূপ, k যদি 3 হয়, তাহলে k-মান বা k-মিডিয়ান অ্যালগরিদম 3টি সেন্ট্রোয়েড খুঁজে পায়।

আরও তথ্যের জন্য ক্লাস্টারিং কোর্সে ক্লাস্টারিং অ্যালগরিদম দেখুন।

সেন্ট্রয়েড-ভিত্তিক ক্লাস্টারিং

# ক্লাস্টারিং

ক্লাস্টারিং অ্যালগরিদমের একটি বিভাগ যা ডেটাকে অ-হাইরার্কিকাল ক্লাস্টারে সংগঠিত করে। k- মানে হল সর্বাধিক ব্যবহৃত সেন্ট্রোয়েড-ভিত্তিক ক্লাস্টারিং অ্যালগরিদম।

শ্রেণিবদ্ধ ক্লাস্টারিং অ্যালগরিদমের সাথে বৈসাদৃশ্য।

আরও তথ্যের জন্য ক্লাস্টারিং কোর্সে ক্লাস্টারিং অ্যালগরিদম দেখুন।

চেইন-অফ-থট প্রম্পটিং

#ভাষা
#generativeAI

একটি প্রম্পট ইঞ্জিনিয়ারিং কৌশল যা একটি বৃহৎ ভাষা মডেল (LLM) কে ধাপে ধাপে তার যুক্তি ব্যাখ্যা করতে উৎসাহিত করে। উদাহরণস্বরূপ, দ্বিতীয় বাক্যে বিশেষ মনোযোগ দিয়ে নিম্নলিখিত প্রম্পটটি বিবেচনা করুন:

7 সেকেন্ডে প্রতি ঘন্টায় 0 থেকে 60 মাইল বেগে যাওয়া গাড়িতে একজন চালক কতটি জি ফোর্স অনুভব করবে? উত্তরে, সমস্ত প্রাসঙ্গিক গণনা দেখান।

এলএলএম এর প্রতিক্রিয়া সম্ভবত:

  • উপযুক্ত স্থানে 0, 60, এবং 7 মান প্লাগ করে পদার্থবিজ্ঞানের সূত্রের একটি ক্রম দেখান।
  • ব্যাখ্যা করুন কেন এটি সেই সূত্রগুলি বেছে নিয়েছে এবং বিভিন্ন ভেরিয়েবলের অর্থ কী।

চেইন-অফ-থট প্রম্পটিং এলএলএমকে সমস্ত গণনা সম্পাদন করতে বাধ্য করে, যা আরও সঠিক উত্তরের দিকে নিয়ে যেতে পারে। উপরন্তু, চেইন-অফ-থট প্রম্পটিং ব্যবহারকারীকে LLM-এর পদক্ষেপগুলি পরীক্ষা করতে সক্ষম করে উত্তরটি অর্থপূর্ণ কিনা তা নির্ধারণ করতে।

চ্যাট

#ভাষা
#generativeAI

একটি ML সিস্টেমের সাথে একটি পিছনে এবং সামনে কথোপকথনের বিষয়বস্তু, সাধারণত একটি বড় ভাষা মডেল । একটি চ্যাটে পূর্ববর্তী মিথস্ক্রিয়া (আপনি কী টাইপ করেছেন এবং কীভাবে বৃহৎ ভাষার মডেল প্রতিক্রিয়া জানিয়েছেন) চ্যাটের পরবর্তী অংশগুলির প্রসঙ্গ হয়ে ওঠে।

একটি চ্যাটবট একটি বড় ভাষা মডেলের একটি অ্যাপ্লিকেশন।

চেকপয়েন্ট

প্রশিক্ষণের সময় বা প্রশিক্ষণ শেষ হওয়ার পরে একটি মডেলের প্যারামিটারের অবস্থা ক্যাপচার করে এমন ডেটা। উদাহরণস্বরূপ, প্রশিক্ষণের সময়, আপনি করতে পারেন:

  1. প্রশিক্ষণ বন্ধ করুন, সম্ভবত ইচ্ছাকৃতভাবে বা সম্ভবত কিছু ত্রুটির ফলাফল হিসাবে।
  2. চেকপয়েন্ট দখল করুন।
  3. পরে, চেকপয়েন্টটি পুনরায় লোড করুন, সম্ভবত বিভিন্ন হার্ডওয়্যারে।
  4. প্রশিক্ষণ পুনরায় শুরু করুন।

ক্লাস

#মৌলিক

একটি বিভাগ যা একটি লেবেল অন্তর্গত হতে পারে৷ যেমন:

একটি শ্রেণিবিন্যাস মডেল একটি শ্রেণির পূর্বাভাস দেয়। বিপরীতে, একটি রিগ্রেশন মডেল একটি শ্রেণির পরিবর্তে একটি সংখ্যার পূর্বাভাস দেয়।

আরও তথ্যের জন্য মেশিন লার্নিং ক্র্যাশ কোর্সে শ্রেণিবিন্যাস দেখুন।

শ্রেণিবিন্যাস মডেল

#মৌলিক

একটি মডেল যার ভবিষ্যদ্বাণী একটি ক্লাস । উদাহরণস্বরূপ, নিম্নলিখিত সমস্ত শ্রেণীবিভাগ মডেল:

  • একটি মডেল যা একটি ইনপুট বাক্যের ভাষার ভবিষ্যদ্বাণী করে (ফরাসি? স্প্যানিশ? ইতালীয়?)।
  • একটি মডেল যা গাছের প্রজাতির ভবিষ্যদ্বাণী করে (ম্যাপেল? ওক? বাওবাব?)।
  • একটি মডেল যা একটি নির্দিষ্ট চিকিৎসা অবস্থার জন্য ইতিবাচক বা নেতিবাচক শ্রেণীর পূর্বাভাস দেয়।

বিপরীতে, রিগ্রেশন মডেলগুলি ক্লাসের পরিবর্তে সংখ্যার পূর্বাভাস দেয়।

দুটি সাধারণ ধরনের শ্রেণিবিন্যাস মডেল হল:

শ্রেণীবিভাগ থ্রেশহোল্ড

#মৌলিক

একটি বাইনারি শ্রেণীবিভাগে , 0 এবং 1 এর মধ্যে একটি সংখ্যা যা একটি লজিস্টিক রিগ্রেশন মডেলের কাঁচা আউটপুটকে ধনাত্মক শ্রেণি বা নেতিবাচক শ্রেণির একটি ভবিষ্যদ্বাণীতে রূপান্তর করে। মনে রাখবেন যে শ্রেণীবিন্যাস থ্রেশহোল্ড এমন একটি মান যা একজন মানুষ বেছে নেয়, মডেল প্রশিক্ষণ দ্বারা নির্বাচিত একটি মান নয়।

একটি লজিস্টিক রিগ্রেশন মডেল 0 এবং 1 এর মধ্যে একটি কাঁচা মান আউটপুট করে। তারপর:

  • যদি এই কাঁচা মানটি শ্রেণিবিন্যাসের থ্রেশহোল্ডের চেয়ে বেশি হয়, তাহলে ধনাত্মক শ্রেণির পূর্বাভাস দেওয়া হয়।
  • যদি এই কাঁচা মানটি শ্রেণিবিন্যাসের থ্রেশহোল্ডের চেয়ে কম হয়, তাহলে নেতিবাচক শ্রেণির পূর্বাভাস দেওয়া হয়।

উদাহরণস্বরূপ, ধরুন শ্রেণীবিন্যাস থ্রেশহোল্ড হল 0.8। যদি কাঁচা মান 0.9 হয়, তাহলে মডেলটি ইতিবাচক শ্রেণীর পূর্বাভাস দেয়। যদি কাঁচা মান 0.7 হয়, তাহলে মডেলটি নেতিবাচক শ্রেণীর পূর্বাভাস দেয়।

শ্রেণীবিন্যাস থ্রেশহোল্ডের পছন্দ দৃঢ়ভাবে মিথ্যা ইতিবাচক এবং মিথ্যা নেতিবাচক সংখ্যাকে প্রভাবিত করে।

আরও তথ্যের জন্য মেশিন লার্নিং ক্র্যাশ কোর্সে থ্রেশহোল্ড এবং কনফিউশন ম্যাট্রিক্স দেখুন।

শ্রেণিবিন্যাসকারী

#মৌলিক

একটি শ্রেণিবিন্যাস মডেলের জন্য একটি নৈমিত্তিক শব্দ।

শ্রেণী-ভারসাম্যহীন ডেটাসেট

#মৌলিক

একটি শ্রেণিবিন্যাসের সমস্যার জন্য একটি ডেটাসেট যেখানে প্রতিটি শ্রেণীর লেবেলের মোট সংখ্যা উল্লেখযোগ্যভাবে আলাদা। উদাহরণস্বরূপ, একটি বাইনারি শ্রেণিবিন্যাস ডেটাসেট বিবেচনা করুন যার দুটি লেবেল নিম্নরূপ বিভক্ত:

  • 1,000,000 নেতিবাচক লেবেল
  • 10টি ইতিবাচক লেবেল

নেতিবাচক থেকে ইতিবাচক লেবেলের অনুপাত হল 100,000 থেকে 1, তাই এটি একটি শ্রেণী-ভারসাম্যহীন ডেটাসেট।

বিপরীতে, নিম্নলিখিত ডেটাসেটটি শ্রেণী-ভারসাম্যহীন নয় কারণ নেতিবাচক লেবেলের সাথে ইতিবাচক লেবেলের অনুপাত তুলনামূলকভাবে 1-এর কাছাকাছি:

  • 517 নেতিবাচক লেবেল
  • 483 ইতিবাচক লেবেল

মাল্টি-ক্লাস ডেটাসেটগুলিও শ্রেণী-ভারসাম্যহীন হতে পারে। উদাহরণস্বরূপ, নিম্নলিখিত মাল্টি-ক্লাস ক্লাসিফিকেশন ডেটাসেটটিও শ্রেণী-ভারসাম্যহীন কারণ একটি লেবেলে অন্য দুটির চেয়ে অনেক বেশি উদাহরণ রয়েছে:

  • "সবুজ" শ্রেণী সহ 1,000,000 লেবেল
  • "বেগুনি" ক্লাস সহ 200টি লেবেল
  • "কমলা" ক্লাস সহ 350টি লেবেল

এছাড়াও এনট্রপি , সংখ্যাগরিষ্ঠ শ্রেণী এবং সংখ্যালঘু শ্রেণী দেখুন।

ক্লিপিং

#মৌলিক

নিম্নলিখিত যে কোনো একটি বা উভয়টি করে বহিরাগতদের পরিচালনা করার একটি কৌশল:

  • সর্বাধিক থ্রেশহোল্ডের চেয়ে বেশি বৈশিষ্ট্যের মানগুলিকে সেই সর্বাধিক থ্রেশহোল্ডে হ্রাস করা৷
  • সেই ন্যূনতম থ্রেশহোল্ড পর্যন্ত ন্যূনতম থ্রেশহোল্ডের চেয়ে কম বৈশিষ্ট্যের মানগুলি বৃদ্ধি করা৷

উদাহরণস্বরূপ, ধরুন যে একটি নির্দিষ্ট বৈশিষ্ট্যের <0.5% মান 40-60 রেঞ্জের বাইরে পড়ে। এই ক্ষেত্রে, আপনি নিম্নলিখিত করতে পারেন:

  • 60-এর বেশি (সর্বোচ্চ থ্রেশহোল্ড) সমস্ত মান ঠিক 60 হতে ক্লিপ করুন।
  • 40 এর নিচে সব মান ক্লিপ করুন (সর্বনিম্ন থ্রেশহোল্ড) ঠিক 40 হতে হবে।

বহিরাগতরা মডেলের ক্ষতি করতে পারে, কখনও কখনও প্রশিক্ষণের সময় ওজন উপচে পড়ে। কিছু আউটলিয়ারও নাটকীয়ভাবে নির্ভুলতার মতো মেট্রিক্স নষ্ট করতে পারে। ক্লিপিং ক্ষতি সীমাবদ্ধ করার একটি সাধারণ কৌশল।

গ্রেডিয়েন্ট ক্লিপিং প্রশিক্ষণের সময় একটি নির্দিষ্ট সীমার মধ্যে গ্রেডিয়েন্ট মানগুলিকে জোর করে।

আরও তথ্যের জন্য সংখ্যাসূচক ডেটা দেখুন: মেশিন লার্নিং ক্র্যাশ কোর্সে সাধারণীকরণ

মেঘ TPU

#টেনসরফ্লো
#GoogleCloud

Google ক্লাউডে মেশিন লার্নিং ওয়ার্কলোডের গতি বাড়ানোর জন্য ডিজাইন করা একটি বিশেষ হার্ডওয়্যার অ্যাক্সিলারেটর।

ক্লাস্টারিং

# ক্লাস্টারিং

গ্রুপিং সম্পর্কিত উদাহরণগুলি , বিশেষ করে তত্ত্বাবধানহীন শিক্ষার সময়। একবার সমস্ত উদাহরণ গোষ্ঠীবদ্ধ হয়ে গেলে, একজন মানুষ ঐচ্ছিকভাবে প্রতিটি ক্লাস্টারে অর্থ সরবরাহ করতে পারে।

অনেক ক্লাস্টারিং অ্যালগরিদম বিদ্যমান। উদাহরণস্বরূপ, k-মানে অ্যালগরিদম ক্লাস্টার উদাহরণগুলি একটি সেন্ট্রোয়েডের সাথে তাদের নৈকট্যের উপর ভিত্তি করে, যেমনটি নিম্নলিখিত চিত্রটিতে রয়েছে:

একটি দ্বি-মাত্রিক গ্রাফ যেখানে x-অক্ষকে গাছের প্রস্থ লেবেল করা হয়েছে,           এবং y-অক্ষকে গাছের উচ্চতা লেবেল করা হয়েছে। গ্রাফটিতে দুটি রয়েছে           সেন্ট্রোয়েড এবং কয়েক ডজন ডেটা পয়েন্ট। তথ্য পয়েন্ট হয়           তাদের নৈকট্যের উপর ভিত্তি করে শ্রেণীবদ্ধ করা হয়েছে। অর্থাৎ ডেটা পয়েন্ট           এক সেন্ট্রোয়েডের নিকটতমকে ক্লাস্টার 1 হিসাবে শ্রেণীবদ্ধ করা হয়, যখন সেগুলি           অন্যান্য সেন্ট্রোয়েডের নিকটতমকে ক্লাস্টার 2 হিসাবে শ্রেণীবদ্ধ করা হয়েছে।

একজন মানব গবেষক তখন ক্লাস্টারগুলি পর্যালোচনা করতে পারেন এবং উদাহরণস্বরূপ, ক্লাস্টার 1 কে "বামন গাছ" এবং ক্লাস্টার 2 কে "পূর্ণ আকারের গাছ" হিসাবে লেবেল করতে পারেন।

আরেকটি উদাহরণ হিসাবে, একটি কেন্দ্র বিন্দু থেকে উদাহরণের দূরত্বের উপর ভিত্তি করে একটি ক্লাস্টারিং অ্যালগরিদম বিবেচনা করুন, নিম্নরূপ চিত্রিত:

কয়েক ডজন ডেটা পয়েন্ট প্রায় এককেন্দ্রিক বৃত্তে সাজানো হয়েছে           ডার্ট বোর্ডের কেন্দ্রের চারপাশে গর্তের মতো। সবচেয়ে ভিতরের রিং           ডেটা পয়েন্টের ক্লাস্টার 1, মধ্যম রিং হিসাবে শ্রেণীবদ্ধ করা হয়           ক্লাস্টার 2 হিসাবে শ্রেণীবদ্ধ করা হয়, এবং সবচেয়ে বাইরের রিং হিসাবে           ক্লাস্টার 3।

আরও তথ্যের জন্য ক্লাস্টারিং কোর্স দেখুন।

সহ-অভিযোজন

যখন নিউরন সম্পূর্ণরূপে নেটওয়ার্কের আচরণের উপর নির্ভর করার পরিবর্তে নির্দিষ্ট অন্যান্য নিউরনের আউটপুটগুলির উপর প্রায় একচেটিয়াভাবে নির্ভর করে প্রশিক্ষণের ডেটাতে প্যাটার্নের পূর্বাভাস দেয়। যখন সহ-অভিযোজন ঘটায় যে প্যাটার্নগুলি বৈধকরণ ডেটাতে উপস্থিত থাকে না, তখন সহ-অভিযোজন ওভারফিটিং ঘটায়। ড্রপআউট নিয়মিতকরণ সহ-অভিযোজন হ্রাস করে কারণ ড্রপআউট নিশ্চিত করে যে নিউরনগুলি শুধুমাত্র নির্দিষ্ট অন্যান্য নিউরনের উপর নির্ভর করতে পারে না।

সহযোগী ফিল্টারিং

#রিসিস্টেম

অন্য অনেক ব্যবহারকারীর স্বার্থের উপর ভিত্তি করে একজন ব্যবহারকারীর স্বার্থ সম্পর্কে ভবিষ্যদ্বাণী করা। সহযোগিতামূলক ফিল্টারিং প্রায়ই সুপারিশ সিস্টেমে ব্যবহৃত হয়।

আরও তথ্যের জন্য সুপারিশ সিস্টেম কোর্সে সহযোগী ফিল্টারিং দেখুন।

ধারণা প্রবাহ

বৈশিষ্ট্য এবং লেবেলের মধ্যে সম্পর্কের পরিবর্তন। সময়ের সাথে সাথে, ধারণার প্রবাহ একটি মডেলের গুণমানকে হ্রাস করে।

প্রশিক্ষণের সময়, মডেল প্রশিক্ষণ সেটের বৈশিষ্ট্য এবং তাদের লেবেলের মধ্যে সম্পর্ক শিখে। যদি প্রশিক্ষণ সেটের লেবেলগুলি বাস্তব-জগতের জন্য ভাল প্রক্সি হয়, তাহলে মডেলটিকে বাস্তব জগতের ভাল ভবিষ্যদ্বাণী করা উচিত । যাইহোক, ধারণার প্রবাহের কারণে, মডেলের ভবিষ্যদ্বাণী সময়ের সাথে সাথে অধঃপতন হতে থাকে।

উদাহরণস্বরূপ, একটি বাইনারি শ্রেণিবিন্যাস মডেল বিবেচনা করুন যা ভবিষ্যদ্বাণী করে যে একটি নির্দিষ্ট গাড়ির মডেল "জ্বালানি সাশ্রয়ী" কিনা। অর্থাৎ, বৈশিষ্ট্যগুলি হতে পারে:

  • গাড়ির ওজন
  • ইঞ্জিন সংকোচন
  • সংক্রমণ প্রকার

যখন লেবেলটি হয়:

  • জ্বালানী সাশ্রয়ী
  • জ্বালানী সাশ্রয়ী নয়

যাইহোক, "জ্বালানি সাশ্রয়ী গাড়ি" ধারণাটি পরিবর্তিত হচ্ছে। 1994 সালে জ্বালানি সাশ্রয়ী লেবেলযুক্ত একটি গাড়ির মডেল প্রায় অবশ্যই 2024 সালে জ্বালানী সাশ্রয়ী নয় বলে লেবেল করা হবে। ধারণার প্রবাহে ভুগছেন এমন একটি মডেল সময়ের সাথে সাথে কম এবং কম দরকারী ভবিষ্যদ্বাণী করতে থাকে।

অস্থিরতার সাথে তুলনা এবং বৈসাদৃশ্য।

অবস্থা

#df

একটি ডিসিশন ট্রিতে , যে কোনো নোড যা একটি অভিব্যক্তিকে মূল্যায়ন করে। উদাহরণস্বরূপ, একটি সিদ্ধান্ত গাছের নিম্নলিখিত অংশে দুটি শর্ত রয়েছে:

দুটি শর্ত সমন্বিত একটি সিদ্ধান্ত গাছ: (x > 0) এবং           (y > 0)।

একটি শর্তকে বিভক্ত বা পরীক্ষাও বলা হয়।

পাতার সাথে বৈপরীত্য অবস্থা।

আরও দেখুন:

আরও তথ্যের জন্য ডিসিশন ফরেস্ট কোর্সে শর্তের প্রকার দেখুন।

বিভ্রান্তি

#ভাষা

হ্যালুসিনেশনের প্রতিশব্দ।

কনফ্যাবুলেশন সম্ভবত হ্যালুসিনেশনের চেয়ে প্রযুক্তিগতভাবে আরও সঠিক শব্দ। যাইহোক, হ্যালুসিনেশন প্রথম জনপ্রিয় হয়ে ওঠে।

কনফিগারেশন

একটি মডেলকে প্রশিক্ষণের জন্য ব্যবহৃত প্রাথমিক সম্পত্তি মান নির্ধারণের প্রক্রিয়া, যার মধ্যে রয়েছে:

মেশিন লার্নিং প্রকল্পগুলিতে, কনফিগারেশন একটি বিশেষ কনফিগারেশন ফাইলের মাধ্যমে বা নিম্নলিখিতগুলির মতো কনফিগারেশন লাইব্রেরি ব্যবহার করে করা যেতে পারে:

নিশ্চিতকরণ পক্ষপাত

#দায়িত্বশীল

এমনভাবে তথ্য অনুসন্ধান, ব্যাখ্যা, অনুগ্রহ এবং স্মরণ করার প্রবণতা যা একজনের পূর্ব-বিদ্যমান বিশ্বাস বা অনুমানকে নিশ্চিত করে। মেশিন লার্নিং ডেভেলপাররা অসাবধানতাবশত এমনভাবে ডেটা সংগ্রহ বা লেবেল করতে পারে যা তাদের বিদ্যমান বিশ্বাসকে সমর্থন করে এমন ফলাফলকে প্রভাবিত করে। নিশ্চিতকরণ পক্ষপাত হল অন্তর্নিহিত পক্ষপাতের একটি রূপ।

এক্সপেরিমেন্টারের পক্ষপাত হল এক ধরনের নিশ্চিতকরণ পক্ষপাত যেখানে একজন পরীক্ষক পূর্ব-বিদ্যমান হাইপোথিসিস নিশ্চিত না হওয়া পর্যন্ত মডেলের প্রশিক্ষণ চালিয়ে যান।

বিভ্রান্তি ম্যাট্রিক্স

#মৌলিক

একটি NxN টেবিল যা একটি শ্রেণীবিভাগ মডেল তৈরি করা সঠিক এবং ভুল ভবিষ্যদ্বাণীগুলির সংখ্যা সংক্ষিপ্ত করে। উদাহরণস্বরূপ, একটি বাইনারি শ্রেণীবিভাগ মডেলের জন্য নিম্নলিখিত বিভ্রান্তি ম্যাট্রিক্স বিবেচনা করুন:

টিউমার (ভবিষ্যদ্বাণী করা) অ-টিউমার (ভবিষ্যদ্বাণী করা)
টিউমার (স্থল সত্য) 18 (TP) 1 (FN)
অ-টিউমার (স্থল সত্য) 6 (FP) 452 (TN)

পূর্ববর্তী বিভ্রান্তি ম্যাট্রিক্স নিম্নলিখিত দেখায়:

  • 19টি ভবিষ্যদ্বাণীর মধ্যে যেখানে গ্রাউন্ড ট্রুথ টিউমার ছিল, মডেলটি সঠিকভাবে 18টি এবং ভুলভাবে 1 শ্রেণীবদ্ধ করেছে।
  • 458টি ভবিষ্যদ্বাণীর মধ্যে যেখানে গ্রাউন্ড ট্রুথ ছিল নন-টিউমার, মডেলটি সঠিকভাবে 452টি এবং ভুলভাবে 6টি শ্রেণীবদ্ধ করেছে।

বহু-শ্রেণীর শ্রেণীবিভাগ সমস্যার জন্য বিভ্রান্তি ম্যাট্রিক্স আপনাকে ভুলের ধরণ সনাক্ত করতে সাহায্য করতে পারে। উদাহরণস্বরূপ, একটি 3-শ্রেণীর মাল্টি-ক্লাস ক্লাসিফিকেশন মডেলের জন্য নিম্নলিখিত বিভ্রান্তি ম্যাট্রিক্স বিবেচনা করুন যা তিনটি ভিন্ন আইরিস প্রকার (ভার্জিনিকা, ভার্সিকলার এবং সেটোসা) শ্রেণীবদ্ধ করে। যখন গ্রাউন্ড ট্রুথ ভার্জিনিকা ছিল, তখন কনফিউশন ম্যাট্রিক্স দেখায় যে সেটোসার তুলনায় মডেলটির ভুলভাবে ভার্সিকলার ভবিষ্যদ্বাণী করার সম্ভাবনা অনেক বেশি ছিল:

সেতোসা (ভবিষ্যদ্বাণী করা) ভার্সিকলার (ভবিষ্যদ্বাণী করা) ভার্জিনিকা (ভবিষ্যদ্বাণী করা)
সেতোসা (ভূমি সত্য) ৮৮ 12 0
ভার্সিকলার (ভূমি সত্য) 6 141 7
ভার্জিনিকা (ভূমি সত্য) 2 27 109

আরেকটি উদাহরণ হিসাবে, একটি বিভ্রান্তি ম্যাট্রিক্স প্রকাশ করতে পারে যে হাতে লেখা অঙ্কগুলি চিনতে প্রশিক্ষিত একটি মডেল ভুলভাবে 4 এর পরিবর্তে 9 বা ভুলভাবে 7 এর পরিবর্তে 1 ভবিষ্যদ্বাণী করে।

বিভ্রান্তি ম্যাট্রিক্সে যথার্থতা এবং প্রত্যাহার সহ বিভিন্ন কর্মক্ষমতা মেট্রিক্স গণনা করার জন্য পর্যাপ্ত তথ্য রয়েছে।

নির্বাচনী এলাকা পার্সিং

#ভাষা

একটি বাক্যকে ছোট ব্যাকরণগত কাঠামোতে বিভক্ত করা ("নির্ধারক")। ML সিস্টেমের একটি পরবর্তী অংশ, যেমন একটি প্রাকৃতিক ভাষা বোঝার মডেল, মূল বাক্যের চেয়ে উপাদানগুলিকে আরও সহজে পার্স করতে পারে। উদাহরণস্বরূপ, নিম্নলিখিত বাক্যটি বিবেচনা করুন:

আমার বন্ধু দুটি বিড়াল দত্তক.

একজন নির্বাচনী পার্সার এই বাক্যটিকে নিম্নলিখিত দুটি উপাদানে ভাগ করতে পারেন:

  • আমার বন্ধু একটি বিশেষ্য বাক্যাংশ।
  • গৃহীত দুই বিড়াল একটি ক্রিয়া বাক্যাংশ।

এই উপাদানগুলিকে আরও ছোট উপাদানগুলিতে বিভক্ত করা যেতে পারে। উদাহরণস্বরূপ, ক্রিয়াপদ বাক্যাংশ

দুটি বিড়াল দত্তক

আরও উপবিভক্ত করা যেতে পারে:

  • গৃহীত একটি ক্রিয়া।
  • দুটি বিড়াল আরেকটি বিশেষ্য বাক্যাংশ।

প্রাসঙ্গিক ভাষা এম্বেডিং

#ভাষা
#generativeAI

একটি এমবেডিং যা শব্দ এবং বাক্যাংশগুলিকে "বোঝার" কাছাকাছি আসে যেভাবে সাবলীল মানুষের বক্তারা করতে পারেন। প্রাসঙ্গিক ভাষা এম্বেডিং জটিল বাক্য গঠন, শব্দার্থবিদ্যা এবং প্রসঙ্গ বুঝতে পারে।

উদাহরণস্বরূপ, ইংরেজি শব্দ cow এর এমবেডিং বিবেচনা করুন। পুরানো এম্বেডিং যেমন word2vec ইংরেজি শব্দগুলিকে উপস্থাপন করতে পারে যেমন গাভী থেকে ষাঁড় পর্যন্ত এম্বেড করার স্থানের দূরত্ব ewe (স্ত্রী ভেড়া) থেকে রাম (পুরুষ ভেড়া) বা মহিলা থেকে পুরুষের দূরত্বের সমান। প্রাসঙ্গিক ভাষা এম্বেডিংগুলি স্বীকার করে আরও এক ধাপ এগিয়ে যেতে পারে যে ইংরেজি ভাষাভাষীরা কখনও কখনও গরু বা ষাঁড়ের অর্থ বোঝাতে গরু শব্দটি ব্যবহার করে।

প্রসঙ্গ উইন্ডো

#ভাষা
#generativeAI

প্রদত্ত প্রম্পটে একটি মডেল প্রক্রিয়া করতে পারে এমন টোকেনের সংখ্যা। প্রসঙ্গ উইন্ডো যত বড় হবে, মডেলটি প্রম্পটে সুসংগত এবং সামঞ্জস্যপূর্ণ প্রতিক্রিয়া প্রদান করতে তত বেশি তথ্য ব্যবহার করতে পারে।

ক্রমাগত বৈশিষ্ট্য

#মৌলিক

সম্ভাব্য মানের অসীম পরিসর সহ একটি ভাসমান-বিন্দু বৈশিষ্ট্য , যেমন তাপমাত্রা বা ওজন।

পৃথক বৈশিষ্ট্য সঙ্গে বৈসাদৃশ্য.

সুবিধার নমুনা

দ্রুত পরীক্ষা চালানোর জন্য বৈজ্ঞানিকভাবে সংগ্রহ করা হয়নি এমন ডেটাসেট ব্যবহার করা। পরবর্তীতে, বৈজ্ঞানিকভাবে সংগৃহীত ডেটাসেটে স্যুইচ করা অপরিহার্য।

অভিন্নতা

#মৌলিক

প্রতিটি পুনরাবৃত্তির সাথে ক্ষতির মানগুলি খুব কম বা একেবারেই না পরিবর্তিত হলে এমন একটি অবস্থায় পৌঁছে যায়। উদাহরণস্বরূপ, নিম্নলিখিত ক্ষতির বক্ররেখাটি প্রায় 700 পুনরাবৃত্তিতে একত্রিত হওয়ার পরামর্শ দেয়:

কার্টেসিয়ান প্লট। এক্স-অক্ষ ক্ষতি। Y-অক্ষ হল প্রশিক্ষণের সংখ্যা           পুনরাবৃত্তি প্রথম কয়েক পুনরাবৃত্তির সময় ক্ষতি খুব বেশি, কিন্তু           তীব্রভাবে ড্রপ প্রায় 100 পুনরাবৃত্তির পরে, ক্ষতি এখনও আছে           অবতরণ কিন্তু অনেক বেশি ধীরে ধীরে। প্রায় 700 পুনরাবৃত্তির পরে,           ক্ষতি সমতল থাকে।

একটি মডেল একত্রিত হয় যখন অতিরিক্ত প্রশিক্ষণ মডেল উন্নত করবে না।

গভীর শিক্ষায় , ক্ষতির মান কখনও কখনও স্থির থাকে বা শেষ পর্যন্ত নামার আগে অনেক পুনরাবৃত্তির জন্য প্রায় তাই থাকে। ধ্রুবক ক্ষতির মানগুলির দীর্ঘ সময়ের মধ্যে, আপনি সাময়িকভাবে অভিসারের একটি মিথ্যা ধারণা পেতে পারেন।

তাড়াতাড়ি থামানোও দেখুন।

আরও তথ্যের জন্য মেশিন লার্নিং ক্র্যাশ কোর্সে মডেল কনভারজেন্স এবং লস কার্ভ দেখুন।

উত্তল ফাংশন

একটি ফাংশন যেখানে ফাংশনের গ্রাফের উপরের অঞ্চলটি একটি উত্তল সেট । প্রোটোটাইপিকাল উত্তল ফাংশনটি U অক্ষরের মতো কিছু আকৃতির। উদাহরণস্বরূপ, নিম্নলিখিত সমস্ত উত্তল ফাংশন:

U-আকৃতির বক্ররেখা, প্রতিটি একক ন্যূনতম বিন্দু সহ।

বিপরীতে, নিম্নলিখিত ফাংশন উত্তল নয়। লক্ষ্য করুন কিভাবে গ্রাফের উপরের অঞ্চলটি উত্তল সেট নয়:

দুটি ভিন্ন স্থানীয় ন্যূনতম বিন্দু সহ একটি W- আকৃতির বক্ররেখা।

একটি কঠোরভাবে উত্তল ফাংশনের ঠিক একটি স্থানীয় সর্বনিম্ন বিন্দু থাকে, যা বিশ্বব্যাপী সর্বনিম্ন বিন্দুও। ক্লাসিক U-আকৃতির ফাংশনগুলি কঠোরভাবে উত্তল ফাংশন। যাইহোক, কিছু উত্তল ফাংশন (উদাহরণস্বরূপ, সরলরেখা) U-আকৃতির নয়।

আরও তথ্যের জন্য মেশিন লার্নিং ক্র্যাশ কোর্সে কনভারজেন্স এবং উত্তল ফাংশন দেখুন।

উত্তল অপ্টিমাইজেশান

একটি উত্তল ফাংশনের সর্বনিম্ন খুঁজে পেতে গ্রেডিয়েন্ট ডিসেন্টের মতো গাণিতিক কৌশল ব্যবহার করার প্রক্রিয়া। মেশিন লার্নিংয়ে প্রচুর গবেষণা বিভিন্ন সমস্যাকে উত্তল অপ্টিমাইজেশান সমস্যা হিসাবে প্রণয়ন এবং সেই সমস্যাগুলিকে আরও দক্ষতার সাথে সমাধান করার উপর দৃষ্টি নিবদ্ধ করেছে।

সম্পূর্ণ বিবরণের জন্য, বয়েড এবং ভ্যানডেনবার্গ, উত্তল অপ্টিমাইজেশন দেখুন।

উত্তল সেট

ইউক্লিডীয় স্থানের একটি উপসেট যাতে উপসেটের যেকোনো দুটি বিন্দুর মধ্যে আঁকা একটি রেখা সম্পূর্ণরূপে উপসেটের মধ্যে থাকে। উদাহরণস্বরূপ, নিম্নলিখিত দুটি আকার উত্তল সেট:

একটি আয়তক্ষেত্রের একটি চিত্র। ডিম্বাকৃতির আরেকটি চিত্র।

বিপরীতে, নিম্নলিখিত দুটি আকার উত্তল সেট নয়:

একটি অনুপস্থিত স্লাইস সহ একটি পাই-চার্টের একটি চিত্র৷           একটি বন্য অনিয়মিত বহুভুজের আরেকটি চিত্র।

আবর্তন

#ছবি

গণিতে, আকস্মিকভাবে বলতে গেলে, দুটি ফাংশনের মিশ্রণ। মেশিন লার্নিং-এ, একটি কনভোলিউশন কনভোলিউশনাল ফিল্টার এবং ইনপুট ম্যাট্রিক্সকে মিশ্রিত করে ওজন প্রশিক্ষণের জন্য।

মেশিন লার্নিং-এ "কনভোলিউশন" শব্দটি প্রায়শই কনভোলিউশনাল অপারেশন বা কনভোল্যুশনাল লেয়ারকে বোঝানোর একটি সংক্ষিপ্ত উপায়।

কনভল্যুশন ছাড়া, একটি মেশিন লার্নিং অ্যালগরিদমকে একটি বড় টেনসরের প্রতিটি কোষের জন্য একটি পৃথক ওজন শিখতে হবে। উদাহরণস্বরূপ, 2K x 2K চিত্রগুলিতে একটি মেশিন লার্নিং অ্যালগরিদম প্রশিক্ষণকে 4M পৃথক ওজন খুঁজে বের করতে বাধ্য করা হবে। কনভোল্যুশনের জন্য ধন্যবাদ, একটি মেশিন লার্নিং অ্যালগরিদমকে শুধুমাত্র কনভোলিউশনাল ফিল্টারে প্রতিটি সেলের জন্য ওজন খুঁজে বের করতে হয়, যা মডেলটিকে প্রশিক্ষণের জন্য প্রয়োজনীয় স্মৃতিকে নাটকীয়ভাবে হ্রাস করে। যখন কনভোলিউশনাল ফিল্টার প্রয়োগ করা হয়, তখন এটি কেবল কোষ জুড়ে প্রতিলিপি করা হয় যাতে প্রতিটি ফিল্টার দ্বারা গুণিত হয়।

আরও তথ্যের জন্য ইমেজ ক্লাসিফিকেশন কোর্সে কনভোলিউশনাল নিউরাল নেটওয়ার্কের পরিচয় দেখুন।

convolutional ফিল্টার

#ছবি

দুই অভিনেতার একজন কনভোল্যুশনাল অপারেশনে । (অন্য অভিনেতাটি একটি ইনপুট ম্যাট্রিক্সের একটি স্লাইস।) একটি কনভোলিউশনাল ফিল্টার হল একটি ম্যাট্রিক্স যার র্যাঙ্ক ইনপুট ম্যাট্রিক্সের সমান, কিন্তু একটি ছোট আকার। উদাহরণস্বরূপ, একটি 28x28 ইনপুট ম্যাট্রিক্স দেওয়া হলে, ফিল্টারটি 28x28 এর চেয়ে ছোট যে কোনো 2D ম্যাট্রিক্স হতে পারে।

ফটোগ্রাফিক ম্যানিপুলেশনে, একটি কনভোলিউশনাল ফিল্টারের সমস্ত কোষ সাধারণত এক এবং শূন্যের একটি ধ্রুবক প্যাটার্নে সেট করা হয়। মেশিন লার্নিং-এ, কনভোলিউশনাল ফিল্টারগুলি সাধারণত এলোমেলো সংখ্যার সাথে বীজযুক্ত হয় এবং তারপরে নেটওয়ার্ক আদর্শ মানগুলিকে প্রশিক্ষণ দেয়

আরও তথ্যের জন্য ইমেজ ক্লাসিফিকেশন কোর্সে কনভোলিউশন দেখুন।

আবর্তিত স্তর

#ছবি

একটি গভীর নিউরাল নেটওয়ার্কের একটি স্তর যেখানে একটি কনভোলিউশনাল ফিল্টার একটি ইনপুট ম্যাট্রিক্স বরাবর যায়। উদাহরণস্বরূপ, নিম্নলিখিত 3x3 কনভোলিউশনাল ফিল্টার বিবেচনা করুন:

নিম্নলিখিত মান সহ একটি 3x3 ম্যাট্রিক্স: [[0,1,0], [1,0,1], [0,1,0]]

নিম্নলিখিত অ্যানিমেশনটি 5x5 ইনপুট ম্যাট্রিক্সের সাথে জড়িত 9টি রূপান্তরমূলক ক্রিয়াকলাপ সমন্বিত একটি রূপান্তরমূলক স্তর দেখায়। লক্ষ্য করুন যে প্রতিটি কনভোলিউশনাল অপারেশন ইনপুট ম্যাট্রিক্সের একটি ভিন্ন 3x3 স্লাইসে কাজ করে। ফলস্বরূপ 3x3 ম্যাট্রিক্স (ডানদিকে) 9টি কনভোল্যুশনাল অপারেশনের ফলাফল নিয়ে গঠিত:

দুটি ম্যাট্রিক্স দেখানো একটি অ্যানিমেশন। প্রথম ম্যাট্রিক্স হল 5x5           ম্যাট্রিক্স: [[128,97,53,201,198], [35,22,25,200,195],           [37,24,28,197,182], [33,28,92,195,179], [31,40,100,192,177]]।           দ্বিতীয় ম্যাট্রিক্স হল 3x3 ম্যাট্রিক্স:           [[181,303,618], [115,338,605], [169,351,560]]।           দ্বিতীয় ম্যাট্রিক্সটি কনভোলিউশনাল প্রয়োগ করে গণনা করা হয়           ফিল্টার [[0, 1, 0], [1, 0, 1], [0, 1, 0]] জুড়ে           5x5 ম্যাট্রিক্সের বিভিন্ন 3x3 উপসেট।

আরও তথ্যের জন্য চিত্র শ্রেণীবিভাগ কোর্সে সম্পূর্ণ সংযুক্ত স্তরগুলি দেখুন৷

কনভোল্যুশনাল নিউরাল নেটওয়ার্ক

#ছবি

একটি নিউরাল নেটওয়ার্ক যেখানে অন্তত একটি স্তর একটি কনভোলিউশনাল স্তর । একটি সাধারণ কনভোলিউশনাল নিউরাল নেটওয়ার্ক নিম্নলিখিত স্তরগুলির কিছু সমন্বয় নিয়ে গঠিত:

কনভোল্যুশনাল নিউরাল নেটওয়ার্কগুলি নির্দিষ্ট ধরণের সমস্যা যেমন ইমেজ স্বীকৃতিতে দুর্দান্ত সাফল্য পেয়েছে।

convolutional অপারেশন

#ছবি

নিম্নলিখিত দুই-পদক্ষেপ গাণিতিক অপারেশন:

  1. কনভোলিউশনাল ফিল্টার এবং একটি ইনপুট ম্যাট্রিক্সের একটি স্লাইসের উপাদান-ভিত্তিক গুণ। (ইনপুট ম্যাট্রিক্সের স্লাইসটি কনভোলিউশনাল ফিল্টারের মতো একই র্যাঙ্ক এবং আকার রয়েছে।)
  2. ফলিত পণ্য ম্যাট্রিক্সে সমস্ত মানের সমষ্টি।

উদাহরণস্বরূপ, নিম্নলিখিত 5x5 ইনপুট ম্যাট্রিক্স বিবেচনা করুন:

5x5 ম্যাট্রিক্স: [[128,97,53,201,198], [35,22,25,200,195],           [37,24,28,197,182], [33,28,92,195,179], [31,40,100,192,177]]।

এখন নিম্নলিখিত 2x2 কনভোলিউশনাল ফিল্টারটি কল্পনা করুন:

2x2 ম্যাট্রিক্স: [[1, 0], [0, 1]]

প্রতিটি কনভোলিউশনাল অপারেশন ইনপুট ম্যাট্রিক্সের একটি একক 2x2 স্লাইস জড়িত। উদাহরণস্বরূপ, ধরুন আমরা ইনপুট ম্যাট্রিক্সের উপরের-বাম দিকে 2x2 স্লাইস ব্যবহার করি। সুতরাং, এই স্লাইসে কনভল্যুশন অপারেশনটি নিম্নরূপ দেখায়:

কনভোলিউশনাল ফিল্টার [[1, 0], [0, 1]] উপরে-বামে প্রয়োগ করা হচ্ছে           ইনপুট ম্যাট্রিক্সের 2x2 বিভাগ, যা [[128,97], [35,22]]।           কনভোলিউশনাল ফিল্টার 128 এবং 22 কে অক্ষত রাখে, কিন্তু শূন্য           97 এবং 35 এর বাইরে। ফলস্বরূপ, কনভোলিউশন অপারেশন ফল দেয়           মান 150 (128+22)।

একটি কনভোলিউশনাল লেয়ারে কনভোলিউশনাল ক্রিয়াকলাপগুলির একটি সিরিজ থাকে, প্রতিটি ইনপুট ম্যাট্রিক্সের একটি আলাদা স্লাইসে কাজ করে।

খরচ

#মেট্রিক

ক্ষতির প্রতিশব্দ।

সহ-প্রশিক্ষণ

একটি আধা-তত্ত্বাবধানে শেখার পদ্ধতি বিশেষভাবে উপযোগী যখন নিম্নলিখিত সমস্ত শর্ত সত্য হয়:

সহ-প্রশিক্ষণ মূলত স্বাধীন সংকেতকে একটি শক্তিশালী সংকেতে পরিবর্ধন করে। উদাহরণস্বরূপ, একটি শ্রেণিবিন্যাস মডেল বিবেচনা করুন যা পৃথক ব্যবহৃত গাড়িগুলিকে ভাল বা খারাপ হিসাবে শ্রেণীবদ্ধ করে৷ ভবিষ্যদ্বাণীমূলক বৈশিষ্ট্যগুলির একটি সেট গাড়ির বছর, তৈরি এবং মডেলের মতো সামগ্রিক বৈশিষ্ট্যগুলিতে ফোকাস করতে পারে; ভবিষ্যদ্বাণীমূলক বৈশিষ্ট্যগুলির আরেকটি সেট পূর্ববর্তী মালিকের ড্রাইভিং রেকর্ড এবং গাড়ির রক্ষণাবেক্ষণের ইতিহাসের উপর ফোকাস করতে পারে।

সহ-প্রশিক্ষণের মূল গবেষণাপত্রটি ব্লাম এবং মিচেলের সহ-প্রশিক্ষণের সাথে লেবেলযুক্ত এবং লেবেলবিহীন ডেটা একত্রিত করা

বিপরীত ন্যায্যতা

#দায়িত্বশীল
#মেট্রিক

একটি ন্যায্যতা মেট্রিক যা পরীক্ষা করে যে একটি শ্রেণীবিন্যাস মডেল একজন ব্যক্তির জন্য একই ফলাফল দেয় কি না এটি অন্য ব্যক্তির জন্য একই ফলাফল দেয় যা প্রথমটির সাথে অভিন্ন, এক বা একাধিক সংবেদনশীল বৈশিষ্ট্যের ক্ষেত্রে। কাউন্টারফ্যাকচুয়াল ন্যায্যতার জন্য একটি শ্রেণীবিভাগ মডেলের মূল্যায়ন একটি মডেলের পক্ষপাতের সম্ভাব্য উত্সগুলিকে সারফেস করার একটি পদ্ধতি।

আরও তথ্যের জন্য নিচের যেকোনো একটি দেখুন:

কভারেজ পক্ষপাত

#দায়িত্বশীল

নির্বাচনের পক্ষপাত দেখুন।

ক্র্যাশ ব্লসম

#ভাষা

একটি অস্পষ্ট অর্থ সহ একটি বাক্য বা বাক্যাংশ। ক্র্যাশ ফুল প্রাকৃতিক ভাষা বোঝার ক্ষেত্রে একটি উল্লেখযোগ্য সমস্যা উপস্থাপন করে। উদাহরণস্বরূপ, শিরোনাম রেড টেপ হোল্ডস আপ স্কাইস্ক্র্যাপার একটি ক্র্যাশ ব্লসম কারণ একটি NLU মডেল শিরোনামটিকে আক্ষরিক বা রূপকভাবে ব্যাখ্যা করতে পারে।

সমালোচক

#আরএল

ডিপ কিউ-নেটওয়ার্কের প্রতিশব্দ।

ক্রস-এনট্রপি

#মেট্রিক

মাল্টি-ক্লাস ক্লাসিফিকেশন সমস্যায় লগ লসের সাধারণীকরণ। ক্রস-এনট্রপি দুটি সম্ভাব্যতা বন্টনের মধ্যে পার্থক্য পরিমাপ করে। বিভ্রান্তিও দেখুন।

ক্রস-বৈধকরণ

প্রশিক্ষণ সেট থেকে আটকে রাখা এক বা একাধিক নন-ওভারল্যাপিং ডেটা সাবসেটের বিপরীতে মডেল পরীক্ষা করে একটি মডেল নতুন ডেটাতে কতটা ভালোভাবে সাধারণীকরণ করবে তা অনুমান করার একটি প্রক্রিয়া।

ক্রমবর্ধমান বিতরণ ফাংশন (CDF)

#মেট্রিক

একটি ফাংশন যা লক্ষ্য মানের থেকে কম বা সমান নমুনার ফ্রিকোয়েন্সি নির্ধারণ করে। উদাহরণস্বরূপ, ক্রমাগত মানগুলির একটি স্বাভাবিক বন্টন বিবেচনা করুন। একটি CDF আপনাকে বলে যে আনুমানিক 50% নমুনা গড় থেকে কম বা সমান হওয়া উচিত এবং আনুমানিক 84% নমুনা গড় থেকে উপরে একটি আদর্শ বিচ্যুতির চেয়ে কম বা সমান হওয়া উচিত।

ডি

তথ্য বিশ্লেষণ

নমুনা, পরিমাপ এবং ভিজ্যুয়ালাইজেশন বিবেচনা করে ডেটা বোঝার প্রাপ্তি। ডেটা বিশ্লেষণ বিশেষভাবে উপযোগী হতে পারে যখন একটি ডেটাসেট প্রথম প্রাপ্ত হয়, কেউ প্রথম মডেল তৈরি করার আগে। সিস্টেমের সাথে পরীক্ষাগুলি এবং ডিবাগিং সমস্যাগুলি বোঝার ক্ষেত্রেও এটি অত্যন্ত গুরুত্বপূর্ণ৷

তথ্য বৃদ্ধি

#ছবি

কৃত্রিমভাবে অতিরিক্ত উদাহরণ তৈরি করতে বিদ্যমান উদাহরণগুলিকে রূপান্তর করে প্রশিক্ষণের উদাহরণের পরিসর এবং সংখ্যা বৃদ্ধি করা। উদাহরণ স্বরূপ, ধরুন ছবিগুলি আপনার বৈশিষ্ট্যগুলির মধ্যে একটি, কিন্তু আপনার ডেটাসেটে মডেলটির জন্য প্রয়োজনীয় অ্যাসোসিয়েশন শেখার জন্য যথেষ্ট ইমেজ উদাহরণ নেই৷ আদর্শভাবে, আপনার মডেলকে সঠিকভাবে প্রশিক্ষণ দিতে সক্ষম করার জন্য আপনি আপনার ডেটাসেটে পর্যাপ্ত লেবেলযুক্ত ছবি যুক্ত করবেন। যদি এটি সম্ভব না হয়, তবে ডেটা বর্ধন প্রতিটি চিত্রকে ঘোরাতে, প্রসারিত করতে এবং প্রতিফলিত করে মূল ছবির অনেকগুলি রূপ তৈরি করতে পারে, সম্ভবত চমৎকার প্রশিক্ষণ সক্ষম করার জন্য যথেষ্ট লেবেলযুক্ত ডেটা প্রদান করে।

ডেটাফ্রেম

#মৌলিক

মেমরিতে ডেটাসেট উপস্থাপনের জন্য একটি জনপ্রিয় পান্ডা ডেটা টাইপ।

একটি ডেটাফ্রেম একটি টেবিল বা স্প্রেডশীটের সাথে সাদৃশ্যপূর্ণ। একটি ডেটাফ্রেমের প্রতিটি কলামের একটি নাম (একটি শিরোনাম) থাকে এবং প্রতিটি সারি একটি অনন্য সংখ্যা দ্বারা চিহ্নিত করা হয়।

একটি ডেটাফ্রেমের প্রতিটি কলাম একটি 2D অ্যারের মতো গঠন করা হয়, প্রতিটি কলামের নিজস্ব ডেটা টাইপ বরাদ্দ করা যেতে পারে।

অফিসিয়াল pandas.DataFrame রেফারেন্স পৃষ্ঠাও দেখুন।

ডেটা সমান্তরালতা

প্রশিক্ষণ বা অনুমান স্কেলিং করার একটি উপায় যা একটি সম্পূর্ণ মডেলকে একাধিক ডিভাইসে প্রতিলিপি করে এবং তারপর প্রতিটি ডিভাইসে ইনপুট ডেটার একটি উপসেট পাস করে। ডেটা সমান্তরালতা খুব বড় ব্যাচের মাপের প্রশিক্ষণ এবং অনুমান সক্ষম করতে পারে; যাইহোক, ডেটা সমান্তরালতার জন্য মডেলটি সমস্ত ডিভাইসে ফিট করার জন্য যথেষ্ট ছোট হওয়া প্রয়োজন।

ডেটা সমান্তরালতা সাধারণত প্রশিক্ষণ এবং অনুমানকে গতি দেয়।

এছাড়াও মডেল সমান্তরাল দেখুন.

ডেটাসেট API (tf.data)

#টেনসরফ্লো

একটি উচ্চ-স্তরের TensorFlow API ডেটা পড়ার জন্য এবং এটিকে একটি ফর্মে রূপান্তরিত করার জন্য যা একটি মেশিন লার্নিং অ্যালগরিদমের প্রয়োজন। একটি tf.data.Dataset অবজেক্ট উপাদানগুলির একটি ক্রম প্রতিনিধিত্ব করে, যার প্রতিটি উপাদানে এক বা একাধিক Tensors থাকে। একটি tf.data.Iterator অবজেক্ট একটি Dataset উপাদানগুলিতে অ্যাক্সেস প্রদান করে।

ডেটা সেট বা ডেটাসেট

#মৌলিক

নিম্নোক্ত বিন্যাসগুলির মধ্যে একটিতে সাধারণত (কিন্তু একচেটিয়াভাবে নয়) সংগঠিত কাঁচা ডেটার একটি সংগ্রহ:

  • একটি স্প্রেডশীট
  • CSV (কমা-বিভক্ত মান) বিন্যাসে একটি ফাইল

সিদ্ধান্তের সীমানা

একটি বাইনারি শ্রেণী বা বহু-শ্রেণীর শ্রেণীবিভাগ সমস্যায় মডেল দ্বারা শেখা ক্লাসের মধ্যে বিভাজক। উদাহরণস্বরূপ, একটি বাইনারি শ্রেণীবিভাগের সমস্যাকে উপস্থাপন করে নিম্নলিখিত চিত্রটিতে, সিদ্ধান্তের সীমানা হল কমলা শ্রেণি এবং নীল শ্রেণির মধ্যে সীমান্ত:

একটি শ্রেণী এবং অন্য শ্রেণীর মধ্যে একটি সু-সংজ্ঞায়িত সীমানা।

সিদ্ধান্ত বন

#df

একাধিক সিদ্ধান্ত গাছ থেকে তৈরি একটি মডেল। একটি সিদ্ধান্ত বন তার সিদ্ধান্ত গাছের পূর্বাভাস একত্রিত করে একটি ভবিষ্যদ্বাণী করে। জনপ্রিয় ধরনের সিদ্ধান্ত বনের মধ্যে রয়েছে এলোমেলো বন এবং গ্রেডিয়েন্ট বুস্টেড গাছ

আরও তথ্যের জন্য ডিসিশন ফরেস্ট কোর্সের সিদ্ধান্ত বন বিভাগটি দেখুন।

সিদ্ধান্ত থ্রেশহোল্ড

শ্রেণীবিভাগ থ্রেশহোল্ডের প্রতিশব্দ।

সিদ্ধান্ত গাছ

#df

ক্রমানুসারে সংগঠিত শর্ত এবং পাতার একটি সেটের সমন্বয়ে একটি তত্ত্বাবধানে শিক্ষার মডেল। উদাহরণস্বরূপ, নিম্নলিখিত একটি সিদ্ধান্ত গাছ:

চারটি শর্তের সমন্বয়ে একটি সিদ্ধান্ত গাছ সাজানো হয়েছে           অনুক্রমিকভাবে, যা পাঁচটি পাতার দিকে নিয়ে যায়।

ডিকোডার

#ভাষা

সাধারণভাবে, যে কোনো ML সিস্টেম যা একটি প্রক্রিয়াকৃত, ঘন বা অভ্যন্তরীণ উপস্থাপনা থেকে আরও কাঁচা, বিক্ষিপ্ত বা বাহ্যিক উপস্থাপনায় রূপান্তরিত হয়।

ডিকোডারগুলি প্রায়শই একটি বড় মডেলের একটি উপাদান, যেখানে তারা প্রায়শই একটি এনকোডারের সাথে যুক্ত হয়।

সিকোয়েন্স-টু-সিকোয়েন্স কাজগুলিতে , একটি ডিকোডার পরবর্তী ক্রম অনুমান করার জন্য এনকোডার দ্বারা তৈরি অভ্যন্তরীণ অবস্থা দিয়ে শুরু হয়।

ট্রান্সফরমার আর্কিটেকচারের মধ্যে একটি ডিকোডারের সংজ্ঞার জন্য ট্রান্সফরমার পড়ুন।

আরও তথ্যের জন্য মেশিন লার্নিং ক্র্যাশ কোর্সে বড় ভাষার মডেলগুলি দেখুন।

গভীর মডেল

#মৌলিক

একটি নিউরাল নেটওয়ার্ক যাতে একাধিক লুকানো স্তর থাকে।

একটি গভীর মডেলকে গভীর নিউরাল নেটওয়ার্কও বলা হয়।

প্রশস্ত মডেলের সাথে বৈসাদৃশ্য।

গভীর নিউরাল নেটওয়ার্ক

গভীর মডেলের প্রতিশব্দ।

গভীর Q-নেটওয়ার্ক (DQN)

#আরএল

কিউ-লার্নিং- এ, একটি গভীর নিউরাল নেটওয়ার্ক যা কিউ-ফাংশনগুলির পূর্বাভাস দেয়।

সমালোচক ডিপ কিউ-নেটওয়ার্কের প্রতিশব্দ।

জনসংখ্যাগত সমতা

#দায়িত্বশীল
#মেট্রিক

একটি ন্যায্যতা মেট্রিক যা একটি মডেলের শ্রেণীবিভাগের ফলাফল একটি প্রদত্ত সংবেদনশীল বৈশিষ্ট্যের উপর নির্ভরশীল না হলে সন্তুষ্ট হয়৷

উদাহরণস্বরূপ, যদি লিলিপুটিয়ান এবং ব্রোবডিংনাগিয়ান উভয়ই গ্লুবডুবড্রিব বিশ্ববিদ্যালয়ে আবেদন করে, তাহলে জনসংখ্যাগত সমতা অর্জন করা হয় যদি লিলিপুটিয়ানদের ভর্তির শতাংশ ব্রোবডিংনাগিয়ানদের ভর্তির শতাংশের সমান হয়, তা নির্বিশেষে যে একটি গোষ্ঠী অন্যের তুলনায় গড়ে বেশি যোগ্য কিনা।

সমতাপূর্ণ প্রতিকূলতা এবং সুযোগের সমতার সাথে বৈসাদৃশ্য, যা শ্রেণীবিভাগের ফলাফলকে সংবেদনশীল বৈশিষ্ট্যের উপর নির্ভর করার অনুমতি দেয়, কিন্তু নির্দিষ্ট নির্দিষ্ট গ্রাউন্ড ট্রুথ লেবেলগুলির জন্য সংবেদনশীল বৈশিষ্ট্যের উপর নির্ভর করার জন্য শ্রেণীবিভাগের ফলাফলকে অনুমতি দেয় না। ডেমোগ্রাফিক সমতা অপ্টিমাইজ করার সময় ট্রেডঅফ অন্বেষণ করার একটি ভিজ্যুয়ালাইজেশনের জন্য "স্মার্ট মেশিন লার্নিং দিয়ে বৈষম্যের আক্রমণ" দেখুন।

আরও তথ্যের জন্য মেশিন লার্নিং ক্র্যাশ কোর্সে ফেয়ারনেস: ডেমোগ্রাফিক প্যারিটি দেখুন।

denoising

#ভাষা

স্ব-তত্ত্বাবধানে শিক্ষার একটি সাধারণ পদ্ধতি যার মধ্যে:

  1. গোলমাল কৃত্রিমভাবে ডেটাসেটে যোগ করা হয়।
  2. মডেল গোলমাল অপসারণ করার চেষ্টা করে।

Denoising লেবেলবিহীন উদাহরণ থেকে শেখার সক্ষম করে। মূল ডেটাসেট লক্ষ্য বা লেবেল হিসাবে কাজ করে এবং কোলাহলপূর্ণ ডেটা ইনপুট হিসাবে কাজ করে।

কিছু মুখোশযুক্ত ভাষা মডেল নিম্নরূপ denoising ব্যবহার করে:

  1. কিছু টোকেন মাস্ক করে লেবেলবিহীন বাক্যে কৃত্রিমভাবে নয়েজ যোগ করা হয়।
  2. মডেল মূল টোকেন ভবিষ্যদ্বাণী করার চেষ্টা করে।

ঘন বৈশিষ্ট্য

#মৌলিক

একটি বৈশিষ্ট্য যেখানে বেশিরভাগ বা সমস্ত মান অশূন্য, সাধারণত ফ্লোটিং-পয়েন্ট মানগুলির একটি টেনসর ৷ উদাহরণস্বরূপ, নিম্নলিখিত 10-উপাদান টেনসরটি ঘন কারণ এর 9টি মান অশূন্য:

8 3 7 5 2 4 0 4 9 6

স্পার্স বৈশিষ্ট্যের সাথে বৈসাদৃশ্য।

ঘন স্তর

সম্পূর্ণভাবে সংযুক্ত স্তরের সমার্থক।

গভীরতা

#মৌলিক

একটি নিউরাল নেটওয়ার্কে নিম্নলিখিতগুলির সমষ্টি:

উদাহরণস্বরূপ, পাঁচটি লুকানো স্তর এবং একটি আউটপুট স্তর সহ একটি নিউরাল নেটওয়ার্কের গভীরতা 6।

লক্ষ্য করুন যে ইনপুট স্তর গভীরতা প্রভাবিত করে না।

গভীরভাবে বিভাজ্য কনভোলিউশনাল নিউরাল নেটওয়ার্ক (sepCNN)

#ছবি

ইনসেপশনের উপর ভিত্তি করে একটি কনভোল্যুশনাল নিউরাল নেটওয়ার্ক আর্কিটেকচার, কিন্তু যেখানে ইনসেপশন মডিউলগুলি গভীরভাবে বিভাজ্য কনভোলিউশন দিয়ে প্রতিস্থাপিত হয়। Xception নামেও পরিচিত।

একটি গভীরতা অনুসারে বিভাজ্য কনভোলিউশন (এছাড়াও বিভাজ্য কনভোলিউশন হিসাবে সংক্ষিপ্ত) একটি স্ট্যান্ডার্ড 3D কনভোলিউশনকে দুটি পৃথক কনভোলিউশন অপারেশনে পরিণত করে যেগুলি গণনাগতভাবে আরও দক্ষ: প্রথমত, একটি গভীরতার দিক দিয়ে কনভোলিউশন, যার গভীরতা 1 (n ✕ n ✕ 1), এবং তারপরে দ্বিতীয়, একটি বিন্দু অনুযায়ী 1-এর দৈর্ঘ্য এবং 1-এর দৈর্ঘ্যের সঙ্গে ✕ n)।

আরও জানতে, দেখুন এক্সসেপশন: ডিপ লার্নিং উইথ ডেপথওয়াইজ সেপারেবল কনভোলিউশন

প্রাপ্ত লেবেল

প্রক্সি লেবেলের প্রতিশব্দ।

ডিভাইস

#টেনসরফ্লো
#GoogleCloud

নিম্নলিখিত দুটি সম্ভাব্য সংজ্ঞা সহ একটি ওভারলোড শব্দ:

  1. হার্ডওয়্যারের একটি বিভাগ যা CPUs, GPUs, এবং TPUs সহ একটি TensorFlow সেশন চালাতে পারে।
  2. যখন অ্যাক্সিলারেটর চিপস (GPUs বা TPUs) তে একটি ML মডেলকে প্রশিক্ষণ দেওয়া হয়, তখন সিস্টেমের সেই অংশ যা আসলে টেনসর এবং এম্বেডিংগুলিকে ম্যানিপুলেট করে। ডিভাইসটি অ্যাক্সিলারেটর চিপগুলিতে চলে। বিপরীতে, হোস্ট সাধারণত একটি CPU-তে চলে।

ডিফারেনশিয়াল গোপনীয়তা

মেশিন লার্নিং-এ, কোনো সংবেদনশীল ডেটা (উদাহরণস্বরূপ, একজন ব্যক্তির ব্যক্তিগত তথ্য) সুরক্ষিত করার জন্য একটি বেনামী পদ্ধতি যা একটি মডেলের প্রশিক্ষণ সেটে অন্তর্ভূক্ত হয়। এই পদ্ধতি নিশ্চিত করে যে মডেলটি একটি নির্দিষ্ট ব্যক্তির সম্পর্কে অনেক কিছু শিখতে বা মনে রাখে না। সংবেদনশীল প্রশিক্ষণ ডেটা প্রকাশের ঝুঁকি হ্রাস করে পৃথক ডেটা পয়েন্টগুলিকে অস্পষ্ট করতে মডেল প্রশিক্ষণের সময় নমুনা এবং শব্দ যোগ করার মাধ্যমে এটি সম্পন্ন করা হয়।

মেশিন লার্নিংয়ের বাইরেও ডিফারেনশিয়াল প্রাইভেসি ব্যবহার করা হয়। উদাহরণস্বরূপ, বিভিন্ন জনসংখ্যার জন্য পণ্য ব্যবহারের পরিসংখ্যান গণনা করার সময় ডেটা বিজ্ঞানীরা কখনও কখনও পৃথক গোপনীয়তা রক্ষা করতে ডিফারেনশিয়াল গোপনীয়তা ব্যবহার করেন।

মাত্রা হ্রাস

একটি বৈশিষ্ট্য ভেক্টরে একটি নির্দিষ্ট বৈশিষ্ট্য উপস্থাপন করতে ব্যবহৃত মাত্রার সংখ্যা হ্রাস করা, সাধারণত একটি এমবেডিং ভেক্টরে রূপান্তর করে।

মাত্রা

ওভারলোড করা শব্দের নিম্নলিখিত সংজ্ঞাগুলির যেকোনো একটি আছে:

  • একটি টেনসরে স্থানাঙ্কের স্তরের সংখ্যা। যেমন:

    • একটি স্কেলার শূন্য মাত্রা আছে; উদাহরণস্বরূপ, ["Hello"]
    • একটি ভেক্টর একটি মাত্রা আছে; উদাহরণস্বরূপ, [3, 5, 7, 11]
    • একটি ম্যাট্রিক্সের দুটি মাত্রা আছে; উদাহরণস্বরূপ, [[2, 4, 18], [5, 7, 14]] । আপনি একটি স্থানাঙ্ক সহ একটি এক-মাত্রিক ভেক্টরে একটি নির্দিষ্ট ঘরকে অনন্যভাবে নির্দিষ্ট করতে পারেন; একটি দ্বি-মাত্রিক ম্যাট্রিক্সে একটি নির্দিষ্ট ঘরকে স্বতন্ত্রভাবে নির্দিষ্ট করতে আপনার দুটি স্থানাঙ্কের প্রয়োজন।
  • একটি বৈশিষ্ট্য ভেক্টরে এন্ট্রির সংখ্যা।

  • একটি এম্বেডিং স্তরে উপাদানের সংখ্যা।

সরাসরি প্রম্পটিং

#ভাষা
#generativeAI

জিরো-শট প্রম্পটিং- এর প্রতিশব্দ।

পৃথক বৈশিষ্ট্য

#মৌলিক

সম্ভাব্য মানগুলির একটি সীমিত সেট সহ একটি বৈশিষ্ট্য । উদাহরণস্বরূপ, একটি বৈশিষ্ট্য যার মান শুধুমাত্র প্রাণী , উদ্ভিজ্জ বা খনিজ হতে পারে একটি পৃথক (বা শ্রেণীবদ্ধ) বৈশিষ্ট্য।

ক্রমাগত বৈশিষ্ট্য সঙ্গে বৈসাদৃশ্য.

বৈষম্যমূলক মডেল

একটি মডেল যা এক বা একাধিক বৈশিষ্ট্যের একটি সেট থেকে লেবেলগুলির পূর্বাভাস দেয়৷ আরও আনুষ্ঠানিকভাবে, বৈষম্যমূলক মডেলগুলি বৈশিষ্ট্য এবং ওজন প্রদত্ত একটি আউটপুটের শর্তসাপেক্ষ সম্ভাব্যতা সংজ্ঞায়িত করে; সেটা হল:

p(output | features, weights)

উদাহরণস্বরূপ, একটি মডেল যা ভবিষ্যদ্বাণী করে যে একটি ইমেল বৈশিষ্ট্য এবং ওজন থেকে স্প্যাম কিনা তা একটি বৈষম্যমূলক মডেল।

শ্রেণীবিভাগ এবং রিগ্রেশন মডেল সহ তত্ত্বাবধান করা শেখার মডেলগুলির বেশিরভাগই বৈষম্যমূলক মডেল।

জেনারেটিভ মডেলের সাথে বৈসাদৃশ্য।

বৈষম্যকারী

একটি সিস্টেম যা নির্ধারণ করে যে উদাহরণগুলি আসল নাকি নকল।

বিকল্পভাবে, একটি জেনারেটিভ অ্যাডভারসারিয়াল নেটওয়ার্কের মধ্যে থাকা সাবসিস্টেম যা নির্ধারণ করে যে জেনারেটরের দ্বারা তৈরি উদাহরণগুলি আসল নাকি নকল।

আরও তথ্যের জন্য GAN কোর্সে বৈষম্যকারী দেখুন।

ভিন্ন প্রভাব

#দায়িত্বশীল

বিভিন্ন জনসংখ্যার উপগোষ্ঠীকে অসমভাবে প্রভাবিত করে এমন লোকদের সম্পর্কে সিদ্ধান্ত নেওয়া। এটি সাধারণত এমন পরিস্থিতিতে বোঝায় যেখানে একটি অ্যালগরিদমিক সিদ্ধান্ত নেওয়ার প্রক্রিয়া কিছু উপগোষ্ঠীকে অন্যদের তুলনায় বেশি ক্ষতি বা উপকার করে।

উদাহরণস্বরূপ, ধরুন একটি অ্যালগরিদম যা একটি ক্ষুদ্র-গৃহঋণের জন্য একটি লিলিপুটিয়ানের যোগ্যতা নির্ধারণ করে তাদের মেইলিং ঠিকানায় একটি নির্দিষ্ট পোস্টাল কোড থাকলে তাদের "অযোগ্য" হিসাবে শ্রেণীবদ্ধ করার সম্ভাবনা বেশি। লিটল-এন্ডিয়ান লিলিপুটিয়ানদের তুলনায় যদি বিগ-এন্ডিয়ান লিলিপুটিয়ানদের এই পোস্টাল কোড সহ মেইলিং ঠিকানার সম্ভাবনা বেশি থাকে, তাহলে এই অ্যালগরিদমটি ভিন্ন প্রভাব ফেলতে পারে।

বৈষম্যপূর্ণ চিকিত্সার সাথে বৈপরীত্য, যা বৈষম্যের উপর দৃষ্টি নিবদ্ধ করে যার ফলস্বরূপ যখন উপগোষ্ঠীর বৈশিষ্ট্যগুলি একটি অ্যালগরিদমিক সিদ্ধান্ত গ্রহণের প্রক্রিয়ার সুস্পষ্ট ইনপুট হয়।

পৃথক চিকিত্সা

#দায়িত্বশীল

একটি অ্যালগরিদমিক সিদ্ধান্ত গ্রহণের প্রক্রিয়ার মধ্যে বিষয়গুলির সংবেদনশীল বৈশিষ্ট্যগুলিকে ফ্যাক্টরিং করা যাতে মানুষের বিভিন্ন উপগোষ্ঠীকে আলাদাভাবে বিবেচনা করা হয়।

উদাহরণস্বরূপ, একটি অ্যালগরিদম বিবেচনা করুন যা লিলিপুটিয়ানদের তাদের ঋণের আবেদনে দেওয়া তথ্যের ভিত্তিতে একটি ক্ষুদ্র-গৃহঋণের জন্য যোগ্যতা নির্ধারণ করে। যদি অ্যালগরিদম একটি ইনপুট হিসাবে বিগ-এন্ডিয়ান বা লিটল-এন্ডিয়ান হিসাবে একটি লিলিপুটিয়ানের অধিভুক্তি ব্যবহার করে, তবে এটি সেই মাত্রার সাথে বৈষম্যমূলক চিকিত্সা কার্যকর করছে।

বৈষম্যমূলক প্রভাবের সাথে বৈসাদৃশ্য, যা উপগোষ্ঠীর উপর অ্যালগরিদমিক সিদ্ধান্তের সামাজিক প্রভাবগুলিতে বৈষম্যের উপর দৃষ্টি নিবদ্ধ করে, সেই উপগোষ্ঠীগুলি মডেলের ইনপুট কিনা তা নির্বিশেষে।

পাতন

#generativeAI

একটি মডেলের আকার ( শিক্ষক হিসাবে পরিচিত) একটি ছোট মডেলে (যা ছাত্র হিসাবে পরিচিত) হ্রাস করার প্রক্রিয়া যা যথাসম্ভব বিশ্বস্ততার সাথে আসল মডেলের ভবিষ্যদ্বাণীগুলিকে অনুকরণ করে৷ পাতন কার্যকর কারণ ছোট মডেলের বড় মডেলের (শিক্ষক) তুলনায় দুটি মূল সুবিধা রয়েছে:

  • দ্রুত অনুমান সময়
  • স্মৃতিশক্তি এবং শক্তির ব্যবহার হ্রাস

যাইহোক, ছাত্রের ভবিষ্যদ্বাণীগুলি সাধারণত শিক্ষকের ভবিষ্যদ্বাণীগুলির মতো ভাল হয় না।

ডিস্টিলেশন শিক্ষার্থী এবং শিক্ষক মডেলের ভবিষ্যদ্বাণীগুলির আউটপুটগুলির মধ্যে পার্থক্যের উপর ভিত্তি করে ক্ষতির কার্যকারিতা কমাতে ছাত্র মডেলকে প্রশিক্ষণ দেয়।

নিম্নোক্ত পদগুলির সাথে পাতনের তুলনা করুন এবং বৈসাদৃশ্য করুন:

আরও তথ্যের জন্য এলএলএম দেখুন: মেশিন লার্নিং ক্র্যাশ কোর্সে ফাইন-টিউনিং, ডিস্টিলেশন এবং প্রম্পট ইঞ্জিনিয়ারিং

বিতরণ

প্রদত্ত বৈশিষ্ট্য বা লেবেলের জন্য বিভিন্ন মানের ফ্রিকোয়েন্সি এবং পরিসর। একটি ডিস্ট্রিবিউশন ক্যাপচার করে যে একটি নির্দিষ্ট মান কতটা সম্ভব।

নিম্নলিখিত চিত্র দুটি ভিন্ন বিতরণের হিস্টোগ্রাম দেখায়:

  • বাম দিকে, সম্পদের একটি ক্ষমতা আইন বন্টন বনাম সেই সম্পদের অধিকারী লোকের সংখ্যা।
  • ডানদিকে, উচ্চতার একটি স্বাভাবিক বন্টন বনাম সেই উচ্চতার অধিকারী লোকের সংখ্যা।

দুটি হিস্টোগ্রাম। একটি হিস্টোগ্রাম এর সাথে একটি পাওয়ার আইন বন্টন দেখায়           x-অক্ষে সম্পদ এবং সেই সম্পদে থাকা লোকের সংখ্যা           y-অক্ষ। বেশির ভাগ লোকেরই খুব কম সম্পদ আছে, আর কিছু লোকের আছে           অনেক সম্পদ। অন্য হিস্টোগ্রাম একটি স্বাভাবিক বন্টন দেখায়           x-অক্ষের উচ্চতা এবং সেই উচ্চতার লোকের সংখ্যা সহ           y-অক্ষের উপর। অধিকাংশ মানুষ গড় কাছাকাছি কোথাও ক্লাস্টার হয়.

প্রতিটি বৈশিষ্ট্য এবং লেবেলের ডিস্ট্রিবিউশন বোঝা আপনাকে কীভাবে মানগুলিকে স্বাভাবিক করতে হবে এবং আউটলায়ারগুলি সনাক্ত করতে হবে তা নির্ধারণ করতে সহায়তা করতে পারে।

বিতরণের বাইরে শব্দগুচ্ছ এমন একটি মানকে বোঝায় যা ডেটাসেটে প্রদর্শিত হয় না বা খুব বিরল। উদাহরণস্বরূপ, বিড়ালের ছবি সমন্বিত ডেটাসেটের জন্য শনি গ্রহের একটি চিত্র বিতরণের বাইরে বিবেচিত হবে।

বিভাজক ক্লাস্টারিং

# ক্লাস্টারিং

অনুক্রমিক ক্লাস্টারিং দেখুন।

ডাউনস্যাম্পলিং

#ছবি

ওভারলোড করা শব্দ যার অর্থ নিম্নলিখিত যেকোন একটি হতে পারে:

  • একটি মডেলকে আরও দক্ষতার সাথে প্রশিক্ষণ দেওয়ার জন্য একটি বৈশিষ্ট্যে তথ্যের পরিমাণ হ্রাস করা। উদাহরণস্বরূপ, একটি চিত্র সনাক্তকরণ মডেল প্রশিক্ষণের আগে, উচ্চ-রেজোলিউশনের চিত্রগুলিকে নিম্ন-রেজোলিউশন বিন্যাসে নামিয়ে আনা।
  • কম-প্রতিনিধিত্বশীল ক্লাসের মডেল প্রশিক্ষণ উন্নত করার জন্য ওভার-রিপ্রেজেন্টেড ক্লাসের উদাহরণগুলির একটি অসামঞ্জস্যপূর্ণভাবে কম শতাংশের উপর প্রশিক্ষণ। উদাহরণস্বরূপ, একটি শ্রেণী-ভারসাম্যহীন ডেটাসেটে , মডেলগুলি সংখ্যাগরিষ্ঠ শ্রেণী সম্পর্কে অনেক কিছু শিখতে থাকে এবং সংখ্যালঘু শ্রেণী সম্পর্কে যথেষ্ট নয়। ডাউনস্যাম্পলিং সংখ্যাগরিষ্ঠ এবং সংখ্যালঘু শ্রেণীর প্রশিক্ষণের পরিমাণের ভারসাম্য বজায় রাখতে সাহায্য করে।

আরও তথ্যের জন্য ডেটাসেট দেখুন: মেশিন লার্নিং ক্র্যাশ কোর্সে ভারসাম্যহীন ডেটাসেট

ডিকিউএন

#আরএল

ডিপ কিউ-নেটওয়ার্কের সংক্ষিপ্ত রূপ।

ড্রপআউট নিয়মিতকরণ

নিয়মিতকরণের একটি ফর্ম যা নিউরাল নেটওয়ার্কের প্রশিক্ষণে কার্যকর। ড্রপআউট নিয়মিতকরণ একটি একক গ্রেডিয়েন্ট ধাপের জন্য একটি নেটওয়ার্ক স্তরে একটি নির্দিষ্ট সংখ্যক ইউনিটের র্যান্ডম নির্বাচনকে সরিয়ে দেয়। যত বেশি ইউনিট বাদ পড়বে, নিয়মিতকরণ তত শক্তিশালী হবে। এটি ছোট নেটওয়ার্কগুলির একটি দ্রুতগতিপূর্ণভাবে বৃহৎ সংযোজন অনুকরণ করার জন্য নেটওয়ার্ককে প্রশিক্ষণের অনুরূপ। সম্পূর্ণ বিশদ বিবরণের জন্য, ড্রপআউট দেখুন: ওভারফিটিং থেকে নিউরাল নেটওয়ার্ক প্রতিরোধ করার একটি সহজ উপায়

গতিশীল

#মৌলিক

ঘন ঘন বা ক্রমাগত কিছু করা। গতিশীল এবং অনলাইন শব্দগুলি মেশিন লার্নিং এর সমার্থক শব্দ। নিম্নলিখিতগুলি মেশিন লার্নিংয়ে গতিশীল এবং অনলাইনের সাধারণ ব্যবহার:

  • একটি গতিশীল মডেল (বা অনলাইন মডেল ) হল একটি মডেল যা ঘন ঘন বা ক্রমাগত পুনরায় প্রশিক্ষণ দেওয়া হয়।
  • ডায়নামিক ট্রেনিং (বা অনলাইন ট্রেনিং ) হল ঘন ঘন বা একটানা প্রশিক্ষণের প্রক্রিয়া।
  • গতিশীল অনুমান (বা অনলাইন অনুমান ) হল চাহিদার উপর পূর্বাভাস তৈরি করার প্রক্রিয়া।

গতিশীল মডেল

#মৌলিক

একটি মডেল যা ঘন ঘন (সম্ভবত এমনকি ক্রমাগত) পুনরায় প্রশিক্ষিত হয়। একটি গতিশীল মডেল হল একটি "আজীবন শিক্ষার্থী" যা ক্রমাগত বিকশিত ডেটার সাথে খাপ খায়। একটি গতিশীল মডেল একটি অনলাইন মডেল হিসাবেও পরিচিত।

স্ট্যাটিক মডেলের সাথে বৈসাদৃশ্য।

উদগ্রীব মৃত্যুদন্ড

#টেনসরফ্লো

একটি টেনসরফ্লো প্রোগ্রামিং পরিবেশ যেখানে অপারেশনগুলি অবিলম্বে চলে। বিপরীতে, গ্রাফ এক্সিকিউশনে বলা ক্রিয়াকলাপগুলি স্পষ্টভাবে মূল্যায়ন না হওয়া পর্যন্ত চলবে না। Aager execution হল একটি অপরিহার্য ইন্টারফেস , অনেকটা প্রোগ্রামিং ভাষার কোডের মত। গ্রাফ এক্সিকিউশন প্রোগ্রামের চেয়ে আগ্রহী এক্সিকিউশন প্রোগ্রামগুলি সাধারণত ডিবাগ করা অনেক সহজ।

তাড়াতাড়ি থামানো

#মৌলিক

নিয়মিতকরণের একটি পদ্ধতি যা প্রশিক্ষণের ক্ষতি কমানোর আগে প্রশিক্ষণ শেষ করে। প্রারম্ভিক বন্ধে, আপনি ইচ্ছাকৃতভাবে মডেলের প্রশিক্ষণ বন্ধ করে দেন যখন একটি বৈধতা ডেটাসেটের ক্ষতি বাড়তে থাকে; যে, যখন সাধারণীকরণ কর্মক্ষমতা খারাপ হয়.

আর্থ মুভারের দূরত্ব (EMD)

#মেট্রিক

দুটি বিতরণের আপেক্ষিক মিলের একটি পরিমাপ। আর্থ মুভারের দূরত্ব যত কম হবে, বন্টন তত বেশি হবে।

দূরত্ব সম্পাদনা করুন

#ভাষা
#মেট্রিক

দুটি টেক্সট স্ট্রিং একে অপরের সাথে কতটা অনুরূপ তার একটি পরিমাপ। মেশিন লার্নিং-এ, দূরত্ব সম্পাদনা নিম্নলিখিত কারণগুলির জন্য দরকারী:

  • সম্পাদনা দূরত্ব গণনা করা সহজ।
  • দূরত্ব সম্পাদনা দুটি স্ট্রিং একে অপরের অনুরূপ বলে পরিচিত তুলনা করতে পারে।
  • দূরত্ব সম্পাদনা করুন বিভিন্ন স্ট্রিং একটি প্রদত্ত স্ট্রিং অনুরূপ ডিগ্রী নির্ধারণ করতে পারে.

সম্পাদনা দূরত্বের বেশ কয়েকটি সংজ্ঞা রয়েছে, প্রতিটি ভিন্ন স্ট্রিং অপারেশন ব্যবহার করে। একটি উদাহরণের জন্য Levenshtein দূরত্ব দেখুন।

Einsum স্বরলিপি

কিভাবে দুটি টেনসরকে একত্রিত করা হবে তা বর্ণনা করার জন্য একটি দক্ষ স্বরলিপি। একটি টেনসরের উপাদানগুলিকে অন্য টেনসরের উপাদানগুলির দ্বারা গুণ করে এবং তারপর পণ্যগুলির সমষ্টি করে টেনসরগুলিকে একত্রিত করা হয়। Einsum স্বরলিপি প্রতিটি টেনসরের অক্ষ চিহ্নিত করতে চিহ্ন ব্যবহার করে, এবং সেই একই চিহ্নগুলিকে নতুন ফলস্বরূপ টেনসরের আকৃতি নির্দিষ্ট করার জন্য পুনর্বিন্যাস করা হয়।

NumPy একটি সাধারণ Einsum বাস্তবায়ন প্রদান করে।

এম্বেডিং স্তর

#ভাষা
#মৌলিক

একটি বিশেষ লুকানো স্তর যা একটি উচ্চ-মাত্রিক শ্রেণীগত বৈশিষ্ট্যের উপর প্রশিক্ষণ দেয় যা ধীরে ধীরে একটি নিম্ন মাত্রার এম্বেডিং ভেক্টর শিখতে পারে। একটি এম্বেডিং স্তর একটি নিউরাল নেটওয়ার্ককে শুধুমাত্র উচ্চ-মাত্রিক শ্রেণীগত বৈশিষ্ট্যের উপর প্রশিক্ষণের চেয়ে অনেক বেশি দক্ষতার সাথে প্রশিক্ষণ দিতে সক্ষম করে।

উদাহরণস্বরূপ, পৃথিবী বর্তমানে প্রায় 73,000 গাছের প্রজাতিকে সমর্থন করে। ধরুন গাছের প্রজাতি আপনার মডেলের একটি বৈশিষ্ট্য , তাই আপনার মডেলের ইনপুট স্তরে একটি এক-হট ভেক্টর 73,000 উপাদান রয়েছে। উদাহরণস্বরূপ, সম্ভবত baobab এই মত কিছু প্রতিনিধিত্ব করা হবে:

73,000 উপাদানের একটি অ্যারে। প্রথম 6,232 উপাদান মান ধরে রাখে      0. পরবর্তী উপাদান মান 1 ধারণ করে। চূড়ান্ত 66,767 উপাদান ধারণ করে      মান শূন্য।

একটি 73,000-এলিমেন্ট অ্যারে খুব দীর্ঘ। আপনি যদি মডেলটিতে একটি এম্বেডিং স্তর যোগ না করেন, তাহলে 72,999 শূন্য গুণ করার কারণে প্রশিক্ষণটি খুব সময়সাপেক্ষ হতে চলেছে। সম্ভবত আপনি 12টি মাত্রা সমন্বিত করার জন্য এম্বেডিং স্তরটি বেছে নিন। ফলস্বরূপ, এম্বেডিং স্তরটি ধীরে ধীরে প্রতিটি গাছের প্রজাতির জন্য একটি নতুন এমবেডিং ভেক্টর শিখবে।

কিছু পরিস্থিতিতে, হ্যাশিং একটি এম্বেডিং স্তরের একটি যুক্তিসঙ্গত বিকল্প।

আরও তথ্যের জন্য মেশিন লার্নিং ক্র্যাশ কোর্সে এমবেডিং দেখুন।

এম্বেডিং স্থান

#ভাষা

উচ্চ-মাত্রিক ভেক্টর স্থান থেকে বৈশিষ্ট্যযুক্ত ডি-ডাইমেনশনাল ভেক্টর স্পেস ম্যাপ করা হয়। এমবেডিং স্পেসকে স্ট্রাকচার ক্যাপচার করার জন্য প্রশিক্ষিত করা হয় যা উদ্দেশ্যপ্রণোদিত অ্যাপ্লিকেশনের জন্য অর্থপূর্ণ।

দুটি এমবেডিংয়ের ডট পণ্য তাদের সাদৃশ্যের একটি পরিমাপ।

এমবেডিং ভেক্টর

#ভাষা

বিস্তৃতভাবে বলতে গেলে, কোনো লুকানো স্তর থেকে নেওয়া ফ্লোটিং-পয়েন্ট সংখ্যার একটি অ্যারে যা সেই লুকানো স্তরের ইনপুটগুলিকে বর্ণনা করে। প্রায়শই, একটি এমবেডিং ভেক্টর হল একটি এমবেডিং স্তরে প্রশিক্ষিত ফ্লোটিং-পয়েন্ট সংখ্যার অ্যারে। উদাহরণস্বরূপ, ধরুন একটি এম্বেডিং স্তরকে অবশ্যই পৃথিবীতে 73,000টি গাছের প্রজাতির জন্য একটি এমবেডিং ভেক্টর শিখতে হবে। সম্ভবত নিম্নলিখিত অ্যারেটি একটি বাওবাব গাছের জন্য এমবেডিং ভেক্টর:

12টি উপাদানের একটি অ্যারে, প্রতিটিতে একটি ফ্লোটিং-পয়েন্ট নম্বর রয়েছে           0.0 এবং 1.0 এর মধ্যে।

একটি এম্বেডিং ভেক্টর এলোমেলো সংখ্যার একটি গুচ্ছ নয়। একটি এমবেডিং স্তর প্রশিক্ষণের মাধ্যমে এই মানগুলি নির্ধারণ করে, যেভাবে একটি নিউরাল নেটওয়ার্ক প্রশিক্ষণের সময় অন্যান্য ওজন শেখে। অ্যারের প্রতিটি উপাদান একটি গাছের প্রজাতির কিছু বৈশিষ্ট্য বরাবর একটি রেটিং। কোন উপাদান কোন গাছের প্রজাতির বৈশিষ্ট্য উপস্থাপন করে? এটা মানুষের জন্য নির্ধারণ করা খুব কঠিন।

একটি এমবেডিং ভেক্টরের গাণিতিকভাবে উল্লেখযোগ্য অংশ হল যে অনুরূপ আইটেমগুলিতে ভাসমান-বিন্দু সংখ্যার অনুরূপ সেট রয়েছে। উদাহরণ স্বরূপ, অনুরূপ গাছের প্রজাতির ভিন্ন ভিন্ন বৃক্ষের প্রজাতির তুলনায় ভাসমান-বিন্দু সংখ্যার আরও অনুরূপ সেট রয়েছে। রেডউডস এবং সিকোইয়াস গাছের প্রজাতি সম্পর্কিত, তাই তাদের রেডউডস এবং নারকেল পামের তুলনায় ভাসমান-পয়েন্টিং সংখ্যার আরও অনুরূপ সেট থাকবে। এমবেডিং ভেক্টরের সংখ্যাগুলি আপনি প্রতিবার মডেলটিকে পুনরায় প্রশিক্ষণ দেওয়ার সময় পরিবর্তিত হবে, এমনকি যদি আপনি অভিন্ন ইনপুট দিয়ে মডেলটিকে পুনরায় প্রশিক্ষণ দেন।

অভিজ্ঞতামূলক ক্রমবর্ধমান বিতরণ ফাংশন (eCDF বা EDF)

#মেট্রিক

একটি বাস্তব ডেটাসেট থেকে পরীক্ষামূলক পরিমাপের উপর ভিত্তি করে একটি ক্রমবর্ধমান বিতরণ ফাংশন । x-অক্ষ বরাবর যেকোনো বিন্দুতে ফাংশনের মান হল ডেটাসেটে পর্যবেক্ষণের ভগ্নাংশ যা নির্দিষ্ট মানের থেকে কম বা সমান।

অভিজ্ঞতামূলক ঝুঁকি হ্রাস (ERM)

প্রশিক্ষণ সেটে ক্ষতি কম করে এমন ফাংশন নির্বাচন করা। কাঠামোগত ঝুঁকি কমানোর সাথে বৈসাদৃশ্য।

এনকোডার

#ভাষা

সাধারণভাবে, যে কোনো ML সিস্টেম যা একটি কাঁচা, বিক্ষিপ্ত, বা বাহ্যিক উপস্থাপনা থেকে আরও প্রক্রিয়াকৃত, ঘন বা আরও অভ্যন্তরীণ উপস্থাপনায় রূপান্তরিত হয়।

এনকোডারগুলি প্রায়শই একটি বড় মডেলের একটি উপাদান, যেখানে তারা প্রায়শই একটি ডিকোডারের সাথে যুক্ত হয়। কিছু ট্রান্সফরমার ডিকোডারের সাথে এনকোডার যুক্ত করে, যদিও অন্যান্য ট্রান্সফরমার শুধুমাত্র এনকোডার বা শুধুমাত্র ডিকোডার ব্যবহার করে।

কিছু সিস্টেম শ্রেণীবিভাগ বা রিগ্রেশন নেটওয়ার্কে ইনপুট হিসাবে এনকোডারের আউটপুট ব্যবহার করে।

সিকোয়েন্স-টু-সিকোয়েন্স কাজগুলিতে , একটি এনকোডার একটি ইনপুট সিকোয়েন্স নেয় এবং একটি অভ্যন্তরীণ অবস্থা (একটি ভেক্টর) প্রদান করে। তারপর, ডিকোডার পরবর্তী ক্রম অনুমান করতে সেই অভ্যন্তরীণ অবস্থা ব্যবহার করে।

ট্রান্সফরমার আর্কিটেকচারে একটি এনকোডারের সংজ্ঞার জন্য ট্রান্সফরমার পড়ুন।

আরও তথ্যের জন্য LLMs দেখুন: মেশিন লার্নিং ক্র্যাশ কোর্সে একটি বড় ভাষা মডেল কী

ensemble

স্বাধীনভাবে প্রশিক্ষিত মডেলের একটি সংগ্রহ যার ভবিষ্যদ্বাণী গড় বা একত্রিত। অনেক ক্ষেত্রে, একটি দল একটি একক মডেলের চেয়ে ভাল ভবিষ্যদ্বাণী তৈরি করে। উদাহরণ স্বরূপ, একটি এলোমেলো বন হল একাধিক সিদ্ধান্ত গাছ থেকে তৈরি একটি দল। নোট করুন যে সমস্ত সিদ্ধান্ত বন ensembles হয় না.

আরও তথ্যের জন্য মেশিন লার্নিং ক্র্যাশ কোর্সে র্যান্ডম ফরেস্ট দেখুন।

এনট্রপি

#df
#মেট্রিক

তথ্য তত্ত্বে , সম্ভাব্যতা বন্টন কতটা অপ্রত্যাশিত তার বর্ণনা। বিকল্পভাবে, প্রতিটি উদাহরণে কতটা তথ্য রয়েছে তা হিসাবে এনট্রপিকেও সংজ্ঞায়িত করা হয়। একটি ডিস্ট্রিবিউশনের সর্বোচ্চ সম্ভাব্য এনট্রপি থাকে যখন একটি র্যান্ডম ভেরিয়েবলের সমস্ত মান সমানভাবে সম্ভব হয়।

দুটি সম্ভাব্য মান "0" এবং "1" সহ একটি সেটের এনট্রপি (উদাহরণস্বরূপ, একটি বাইনারি শ্রেণিবিন্যাস সমস্যায় লেবেল) নিম্নলিখিত সূত্র রয়েছে:

H = -p লগ p - q লগ q = -p লগ p - (1-p) * লগ (1-p)

কোথায়:

  • H হল এনট্রপি।
  • p হল "1" উদাহরণের ভগ্নাংশ।
  • q হল "0" উদাহরণের ভগ্নাংশ। উল্লেখ্য যে q = (1 - p)
  • লগ সাধারণত লগ 2 হয়। এই ক্ষেত্রে, এনট্রপি ইউনিট একটি বিট।

উদাহরণস্বরূপ, নিম্নলিখিত অনুমান করুন:

  • 100টি উদাহরণে "1" মান রয়েছে
  • 300টি উদাহরণে "0" মান রয়েছে

অতএব, এনট্রপি মান হল:

  • p = 0.25
  • q = 0.75
  • H = (-0.25) লগ 2 (0.25) - (0.75) লগ 2 (0.75) = 0.81 বিট প্রতি উদাহরণ

একটি সেট যা পুরোপুরি ভারসাম্যপূর্ণ (উদাহরণস্বরূপ, 200 "0" s এবং 200 "1"s) প্রতি উদাহরণে 1.0 বিট এনট্রপি থাকবে। একটি সেট আরও ভারসাম্যহীন হওয়ার সাথে সাথে এর এনট্রপি 0.0 এর দিকে চলে যায়।

ডিসিশন ট্রিতে , এনট্রপি শ্রেণীবিভাগের সিদ্ধান্ত গাছের বৃদ্ধির সময় বিভাজনকারীকে শর্ত নির্বাচন করতে সাহায্য করার জন্য তথ্য অর্জন করতে সাহায্য করে।

এনট্রপির সাথে তুলনা করুন:

এনট্রপিকে প্রায়শই শ্যাননের এনট্রপি বলা হয়।

আরও তথ্যের জন্য ডিসিশন ফরেস্ট কোর্সে সংখ্যাসূচক বৈশিষ্ট্য সহ বাইনারি শ্রেণীবিভাগের জন্য সঠিক স্প্লিটার দেখুন।

পরিবেশ

#আরএল

শক্তিবৃদ্ধি শেখার ক্ষেত্রে, যে বিশ্বে এজেন্ট থাকে এবং এজেন্টকে সেই বিশ্বের অবস্থা পর্যবেক্ষণ করতে দেয়। উদাহরণস্বরূপ, প্রতিনিধিত্ব করা বিশ্ব দাবার মত একটি খেলা, অথবা একটি গোলকধাঁধা মত একটি শারীরিক জগত হতে পারে। যখন এজেন্ট পরিবেশে একটি ক্রিয়া প্রয়োগ করে, তখন পরিবেশ রাজ্যগুলির মধ্যে রূপান্তরিত হয়।

পর্ব

#আরএল

শক্তিবৃদ্ধি শেখার মধ্যে, এজেন্ট দ্বারা বারবার চেষ্টা প্রতিটি একটি পরিবেশ শিখতে.

যুগ

#মৌলিক

পুরো প্রশিক্ষণ সেটের উপর একটি সম্পূর্ণ প্রশিক্ষণ পাস যাতে প্রতিটি উদাহরণ একবার প্রক্রিয়া করা হয়েছে।

একটি যুগ N / ব্যাচ আকারের প্রশিক্ষণের পুনরাবৃত্তির প্রতিনিধিত্ব করে, যেখানে N হল মোট উদাহরণের সংখ্যা।

উদাহরণস্বরূপ, নিম্নলিখিতটি ধরুন:

  • ডেটাসেটটিতে 1,000টি উদাহরণ রয়েছে।
  • ব্যাচ আকার 50 উদাহরণ.

অতএব, একটি একক যুগের জন্য 20টি পুনরাবৃত্তি প্রয়োজন:

1 epoch = (N/batch size) = (1,000 / 50) = 20 iterations

আরও তথ্যের জন্য লিনিয়ার রিগ্রেশন: মেশিন লার্নিং ক্র্যাশ কোর্সে হাইপারপ্যারামিটার দেখুন।

epsilon লোভী নীতি

#আরএল

শক্তিবৃদ্ধি শেখার ক্ষেত্রে, এমন একটি নীতি যা হয় এপসিলন সম্ভাবনার সাথে একটি এলোমেলো নীতি অনুসরণ করে বা অন্যথায় একটি লোভী নীতি অনুসরণ করে। উদাহরণস্বরূপ, যদি এপিসিলন 0.9 হয়, তাহলে নীতিটি 90% সময় একটি এলোমেলো নীতি এবং 10% সময় একটি লোভী নীতি অনুসরণ করে।

ধারাবাহিক পর্বে, অ্যালগরিদম এপসিলনের মান হ্রাস করে যাতে একটি এলোমেলো নীতি অনুসরণ করা থেকে একটি লোভী নীতি অনুসরণ করে। নীতি পরিবর্তন করে, এজেন্ট প্রথমে এলোমেলোভাবে পরিবেশ অন্বেষণ করে এবং তারপর লোভের সাথে এলোমেলো অনুসন্ধানের ফলাফলগুলিকে কাজে লাগায়।

সুযোগের সমতা

#দায়িত্বশীল
#মেট্রিক

একটি মডেল একটি সংবেদনশীল বৈশিষ্ট্যের সমস্ত মানগুলির জন্য সমানভাবে পছন্দসই ফলাফলের পূর্বাভাস দিচ্ছে কিনা তা মূল্যায়ন করার জন্য একটি ন্যায্যতা মেট্রিক ৷ অন্য কথায়, যদি একটি মডেলের জন্য আকাঙ্খিত ফলাফল ইতিবাচক শ্রেণী হয়, তাহলে লক্ষ্য হবে প্রকৃত ইতিবাচক হার সব দলের জন্য একই।

সুযোগের সমতা সমান মতভেদের সাথে সম্পর্কিত, যার জন্য সত্য ইতিবাচক হার এবং মিথ্যা ধনাত্মক হার উভয়ই সকল দলের জন্য একই হওয়া প্রয়োজন।

ধরুন Glubbdubdrib ইউনিভার্সিটি লিলিপুটিয়ান এবং ব্রবডিংনাগিয়ান উভয়কেই একটি কঠোর গণিত প্রোগ্রামে ভর্তি করেছে। লিলিপুটিয়ানদের মাধ্যমিক বিদ্যালয়গুলি গণিত ক্লাসের একটি শক্তিশালী পাঠ্যক্রম অফার করে এবং বেশিরভাগ শিক্ষার্থীই বিশ্ববিদ্যালয়ের প্রোগ্রামের জন্য যোগ্য। ব্রবডিংনাগিয়ানদের মাধ্যমিক বিদ্যালয়গুলি মোটেও গণিতের ক্লাস অফার করে না এবং ফলস্বরূপ, তাদের অনেক কম শিক্ষার্থীই যোগ্য। সুযোগের সমতা জাতীয়তা (লিলিপুটিয়ান বা ব্রোবডিংনাগিয়ান) এর ক্ষেত্রে "ভর্তি" এর পছন্দের লেবেলের জন্য সন্তুষ্ট হয় যদি যোগ্য শিক্ষার্থীরা লিলিপুটিয়ান বা ব্রোবডিংনাগিয়ান নির্বিশেষে ভর্তি হওয়ার সমান সম্ভাবনা থাকে।

উদাহরণস্বরূপ, ধরুন 100 জন লিলিপুটিয়ান এবং 100 জন ব্রোবডিংনাগিয়ান Glubbdubdrib বিশ্ববিদ্যালয়ে আবেদন করেন এবং ভর্তির সিদ্ধান্ত নিম্নরূপ নেওয়া হয়:

সারণী 1. লিলিপুটিয়ান আবেদনকারীরা (90% যোগ্য)

যোগ্য অযোগ্য
ভর্তি হয়েছে 45 3
প্রত্যাখ্যাত 45 7
মোট 90 10
ভর্তিকৃত যোগ্য শিক্ষার্থীর শতাংশ: 45/90 = 50%
প্রত্যাখ্যাত অযোগ্য ছাত্রদের শতাংশ: 7/10 = 70%
ভর্তিকৃত লিলিপুটিয়ান ছাত্রদের মোট শতাংশ: (45+3)/100 = 48%

সারণী 2. ব্রোবডিংনাগিয়ান আবেদনকারীরা (10% যোগ্য):

যোগ্য অযোগ্য
ভর্তি হয়েছে 5 9
প্রত্যাখ্যাত 5 81
মোট 10 90
ভর্তিকৃত যোগ্য শিক্ষার্থীর শতাংশ: 5/10 = 50%
প্রত্যাখ্যাত অযোগ্য ছাত্রদের শতাংশ: 81/90 = 90%
ভর্তিকৃত ব্রোবডিংনাগিয়ান ছাত্রদের মোট শতাংশ: (5+9)/100 = 14%

পূর্বের উদাহরণগুলি যোগ্য ছাত্রদের গ্রহণের সুযোগের সমতাকে সন্তুষ্ট করে কারণ যোগ্য লিলিপুটিয়ান এবং ব্রবডিংনাগিয়ান উভয়েরই ভর্তি হওয়ার 50% সম্ভাবনা রয়েছে।

সুযোগের সমতা সন্তুষ্ট হলেও, নিম্নলিখিত দুটি ন্যায্যতা মেট্রিক সন্তুষ্ট নয়:

  • জনসংখ্যাগত সমতা : লিলিপুটিয়ান এবং ব্রবডিংনাগিয়ানরা বিভিন্ন হারে বিশ্ববিদ্যালয়ে ভর্তি হয়; 48% লিলিপুটিয়ান ছাত্র ভর্তি করা হয়, কিন্তু ব্রবডিংনাগিয়ান ছাত্রদের মাত্র 14% ভর্তি হয়।
  • সমান প্রতিক্রিয়া : যোগ্য লিলিপুটিয়ান এবং ব্রোবডিংনাগিয়ান শিক্ষার্থীরা উভয়ই ভর্তি হওয়ার একই সম্ভাবনা রয়েছে, তবে অযোগ্য লিলিপুটিয়ান এবং ব্রোবডিংনাগিয়ানদের উভয়কেই প্রত্যাখ্যান করার একই সম্ভাবনা রয়েছে তা সন্তুষ্ট নয়। অযোগ্য লিলিপুটিয়ানদের একটি 70% প্রত্যাখ্যানের হার রয়েছে, যেখানে অযোগ্য ব্রোবডিংনাগিয়ানদের 90% প্রত্যাখ্যানের হার রয়েছে।

ন্যায্যতা দেখুন: আরও তথ্যের জন্য মেশিন লার্নিং ক্র্যাশ কোর্সে সুযোগের সাম্যতা

সমান প্রতিকূলতা

#বিভাগীয়
#মেট্রিক

কোনও মডেল ইতিবাচক শ্রেণি এবং নেতিবাচক শ্রেণি উভয়ের ক্ষেত্রে সংবেদনশীল বৈশিষ্ট্যের সমস্ত মানের জন্য সমানভাবে ফলাফলের পূর্বাভাস দিচ্ছে কিনা তা নির্ধারণের জন্য একটি ন্যায্যতা মেট্রিক - কেবল একটি শ্রেণি বা অন্য একচেটিয়াভাবে নয়। অন্য কথায়, সত্যিকারের ইতিবাচক হার এবং মিথ্যা নেতিবাচক হার উভয়ই সমস্ত গ্রুপের জন্য একই হওয়া উচিত।

সমান প্রতিক্রিয়াগুলি সুযোগের সাম্যের সাথে সম্পর্কিত, যা কেবল একটি একক শ্রেণীর (ইতিবাচক বা নেতিবাচক) ত্রুটির হারের উপর দৃষ্টি নিবদ্ধ করে।

উদাহরণস্বরূপ, ধরুন গ্লুববডুবড্রিব বিশ্ববিদ্যালয় লিলিপুটিয়ান এবং ব্রবডিংনাগিয়ান উভয়কেই একটি কঠোর গণিত প্রোগ্রামে স্বীকার করেছে। লিলিপুটিয়ানদের মাধ্যমিক বিদ্যালয়গুলি গণিতের ক্লাসগুলির একটি শক্তিশালী পাঠ্যক্রম সরবরাহ করে এবং বিপুল সংখ্যক শিক্ষার্থী বিশ্ববিদ্যালয় প্রোগ্রামের জন্য যোগ্য। ব্রবডিংগানগিয়ানদের মাধ্যমিক বিদ্যালয়গুলি মোটেও গণিতের ক্লাস সরবরাহ করে না এবং ফলস্বরূপ, তাদের শিক্ষার্থীদের মধ্যে খুব কমই যোগ্য। সমতুল্য প্রতিক্রিয়াগুলি সন্তুষ্ট হয় যে কোনও আবেদনকারী লিলিপুটিয়ান বা ব্রোবডিংনাগিয়ান, যদি তারা যোগ্য হন তবে তারা প্রোগ্রামে ভর্তি হওয়ার সম্ভাবনা সমানভাবে সমানভাবেই রয়েছেন, এবং যদি তারা যোগ্য না হন তবে তারা সমানভাবে প্রত্যাখাত হওয়ার সম্ভাবনা সমান।

ধরুন, 100 লিলিপুটিয়ান এবং 100 ব্রোবডিংনাগিয়ানরা গ্লুববডুবড্রিব বিশ্ববিদ্যালয়ে প্রয়োগ করেন এবং ভর্তির সিদ্ধান্তগুলি নিম্নরূপ করা হয়:

সারণী 3। লিলিপুটিয়ান আবেদনকারীরা (90% যোগ্য)

যোগ্য অযোগ্য
ভর্তি হয়েছে 45 2
প্রত্যাখ্যাত 45 8
মোট 90 10
যোগ্য শিক্ষার্থীদের শতাংশ ভর্তি: 45/90 = 50%
অযোগ্য শিক্ষার্থীদের শতাংশ প্রত্যাখ্যান: 8/10 = 80%
লিলিপুটিয়ান শিক্ষার্থীদের মোট শতাংশ ভর্তি: (45+2)/100 = 47%

সারণী 4। ব্রোবডিংনাগিয়ান আবেদনকারীরা (10% যোগ্য):

যোগ্য অযোগ্য
ভর্তি হয়েছে 5 18
প্রত্যাখ্যাত 5 72
মোট 10 90
যোগ্য শিক্ষার্থীদের শতাংশ ভর্তি: 5/10 = 50%
অযোগ্য শিক্ষার্থীদের শতাংশ প্রত্যাখ্যান: 72/90 = 80%
ব্রোবডিংনাগিয়ান শিক্ষার্থীদের মোট শতাংশ ভর্তি: (5+18)/100 = 23%

সমান প্রতিক্রিয়াগুলি সন্তুষ্ট কারণ যোগ্য লিলিপুটিয়ান এবং ব্রবডিংনাগিয়ান শিক্ষার্থীরা উভয়েরই ভর্তির 50% সম্ভাবনা রয়েছে এবং অযোগ্য লিলিপুটিয়ান এবং ব্রোবডিংনাগিয়ানকে প্রত্যাখ্যান করার 80% সম্ভাবনা রয়েছে।

সমমানের প্রতিকূলতাকে "তত্ত্বাবধানে শিক্ষার ক্ষেত্রে সুযোগের সমতা" নিম্নরূপে সংজ্ঞায়িত করা হয়: "ভবিষ্যদ্বাণীকারী the সুরক্ষিত বৈশিষ্ট্য এ এবং ফলাফলের y এর সাথে সম্মতিযুক্ত সমতুল্য প্রতিকূলতাকে সন্তুষ্ট করে ŷ এবং এ স্বতন্ত্র, ওয়াইয়ের শর্তসাপেক্ষে,"

অনুমানকারী

#টেনসরফ্লো

একটি অবমূল্যায়িত টেনসরফ্লো এপিআই। অনুমানকারীদের পরিবর্তে tf.keras ব্যবহার করুন।

evas

#ভাষা
#generativeAI
#মেট্রিক

প্রাথমিকভাবে এলএলএম মূল্যায়নের জন্য সংক্ষিপ্তসার হিসাবে ব্যবহৃত হয়। আরও বিস্তৃতভাবে, এভালস যে কোনও ধরণের মূল্যায়নের সংক্ষিপ্তসার।

মূল্যায়ন

#ভাষা
#generativeAI
#মেট্রিক

কোনও মডেলের গুণমান পরিমাপ বা একে অপরের বিরুদ্ধে বিভিন্ন মডেল তুলনা করার প্রক্রিয়া।

তদারকি করা মেশিন লার্নিং মডেলটি মূল্যায়ন করতে, আপনি সাধারণত এটি একটি বৈধতা সেট এবং একটি পরীক্ষার সেটের বিরুদ্ধে বিচার করেন। একটি এলএলএম মূল্যায়ন সাধারণত বিস্তৃত মানের এবং সুরক্ষা মূল্যায়ন জড়িত।

উদাহরণ

#মৌলিক

বৈশিষ্ট্যগুলির এক সারির মান এবং সম্ভবত একটি লেবেলতত্ত্বাবধানে শেখার উদাহরণ দুটি সাধারণ বিভাগে পড়ে:

  • একটি লেবেলযুক্ত উদাহরণে এক বা একাধিক বৈশিষ্ট্য এবং একটি লেবেল থাকে। প্রশিক্ষণের সময় লেবেলযুক্ত উদাহরণগুলি ব্যবহৃত হয়।
  • একটি লেবেলযুক্ত উদাহরণে এক বা একাধিক বৈশিষ্ট্য রয়েছে তবে কোনও লেবেল নেই। লেবেলযুক্ত উদাহরণগুলি অনুমানের সময় ব্যবহৃত হয়।

উদাহরণস্বরূপ, ধরুন আপনি শিক্ষার্থীদের পরীক্ষার স্কোরগুলিতে আবহাওয়ার অবস্থার প্রভাব নির্ধারণের জন্য একটি মডেল প্রশিক্ষণ দিচ্ছেন। এখানে তিনটি লেবেলযুক্ত উদাহরণ রয়েছে:

বৈশিষ্ট্য লেবেল
তাপমাত্রা আর্দ্রতা চাপ টেস্ট স্কোর
15 47 998 ভাল
19 34 1020 চমৎকার
18 92 1012 দরিদ্র

এখানে তিনটি লেবেলযুক্ত উদাহরণ রয়েছে:

তাপমাত্রা আর্দ্রতা চাপ
12 62 1014
21 47 1017
19 41 1021

একটি ডেটাসেটের সারি সাধারণত উদাহরণের জন্য কাঁচা উত্স। এটি হ'ল একটি উদাহরণ সাধারণত ডেটাসেটের কলামগুলির একটি উপসেট নিয়ে গঠিত। তদ্ব্যতীত, একটি উদাহরণের বৈশিষ্ট্যগুলিতে সিন্থেটিক বৈশিষ্ট্যগুলি যেমন বৈশিষ্ট্য ক্রসগুলিও অন্তর্ভুক্ত থাকতে পারে।

আরও তথ্যের জন্য মেশিন লার্নিং কোর্সে পরিচিতিতে তদারকি করা পড়াশোনা দেখুন।

অভিজ্ঞতা রিপ্লে

#আরএল

শক্তিবৃদ্ধি শেখার ক্ষেত্রে, প্রশিক্ষণের ডেটাতে অস্থায়ী পারস্পরিক সম্পর্কগুলি হ্রাস করতে ব্যবহৃত একটি ডিকিউএন কৌশল। এজেন্ট একটি রিপ্লে বাফারে রাষ্ট্রীয় রূপান্তর সঞ্চয় করে এবং তারপরে প্রশিক্ষণ ডেটা তৈরি করতে রিপ্লে বাফার থেকে নমুনাগুলি স্থানান্তর করে।

পরীক্ষকের পক্ষপাত

#বিভাগীয়

নিশ্চিতকরণ পক্ষপাত দেখুন।

বিস্ফোরিত গ্রেডিয়েন্ট সমস্যা

#সেক

গভীর নিউরাল নেটওয়ার্কগুলিতে (বিশেষত পুনরাবৃত্ত নিউরাল নেটওয়ার্কগুলি ) গ্রেডিয়েন্টগুলির প্রবণতা আশ্চর্যজনকভাবে খাড়া (উচ্চ) হয়ে ওঠার প্রবণতা। খাড়া গ্রেডিয়েন্টগুলি প্রায়শই একটি গভীর নিউরাল নেটওয়ার্কে প্রতিটি নোডের ওজনে খুব বড় আপডেট করে।

বিস্ফোরিত গ্রেডিয়েন্ট সমস্যা থেকে ভুগছে এমন মডেলগুলি প্রশিক্ষণ দেওয়া কঠিন বা অসম্ভব হয়ে ওঠে। গ্রেডিয়েন্ট ক্লিপিং এই সমস্যাটি প্রশমিত করতে পারে।

বিলুপ্ত গ্রেডিয়েন্ট সমস্যাটির সাথে তুলনা করুন।

#মেট্রিক

একটি "রোল-আপ" বাইনারি শ্রেণিবদ্ধকরণ মেট্রিক যা যথার্থতা এবং প্রত্যাহার উভয়ের উপর নির্ভর করে। এখানে সূত্র আছে:

$$F{_1} = \frac{\text{2 * precision * recall}} {\text{precision + recall}}$$

বাস্তবতা

#generativeAI

এমএল ওয়ার্ল্ডের মধ্যে, এমন একটি সম্পত্তি যা এমন একটি মডেল বর্ণনা করে যার আউটপুট বাস্তবতার উপর ভিত্তি করে। সত্যতা একটি মেট্রিকের চেয়ে একটি ধারণা। উদাহরণস্বরূপ, ধরুন আপনি একটি বৃহত ভাষার মডেলটিতে নিম্নলিখিত প্রম্পটটি প্রেরণ করেছেন:

টেবিল লবণের রাসায়নিক সূত্র কি?

সত্যবাদীতার অনুকূলকরণের একটি মডেল প্রতিক্রিয়া জানাবে:

NaCl

এটি ধরে নেওয়া লোভনীয় যে সমস্ত মডেল সত্যতার উপর ভিত্তি করে হওয়া উচিত। যাইহোক, কিছু প্রম্পট, যেমন নিম্নলিখিতগুলি, একটি জেনারেটর এআই মডেলকে সত্যতার চেয়ে সৃজনশীলতাকে অনুকূল করতে হবে।

আমাকে একজন নভোচারী এবং একটি শুঁয়োপোকা সম্পর্কে একটি লিমেরিক বলুন।

ফলস্বরূপ লিমেরিক বাস্তবতার উপর ভিত্তি করে তৈরি হওয়ার সম্ভাবনা কম।

ভিত্তিহীনতার সাথে বৈপরীত্য।

ন্যায্যতা সীমাবদ্ধতা

#বিভাগীয়
ন্যায্যতার এক বা একাধিক সংজ্ঞা সন্তুষ্ট তা নিশ্চিত করার জন্য একটি অ্যালগরিদমে একটি বাধা প্রয়োগ করা। ন্যায্যতা সীমাবদ্ধতার উদাহরণগুলির মধ্যে রয়েছে:

ন্যায্যতা মেট্রিক

#বিভাগীয়
#মেট্রিক

"ন্যায্যতা" এর একটি গাণিতিক সংজ্ঞা যা পরিমাপযোগ্য। কিছু সাধারণত ব্যবহৃত ন্যায্যতা মেট্রিকগুলির মধ্যে রয়েছে:

অনেক ন্যায্যতা মেট্রিক পারস্পরিক একচেটিয়া; ন্যায্যতা মেট্রিকের অসঙ্গতি দেখুন।

মিথ্যা নেতিবাচক (এফএন)

#মৌলিক
#মেট্রিক

একটি উদাহরণ যেখানে মডেলটি ভুল করে নেতিবাচক শ্রেণীর পূর্বাভাস দেয়। উদাহরণস্বরূপ, মডেলটি ভবিষ্যদ্বাণী করে যে একটি নির্দিষ্ট ইমেল বার্তা স্প্যাম (নেতিবাচক শ্রেণি) নয় , তবে সেই ইমেল বার্তাটি আসলে স্প্যাম

মিথ্যা নেতিবাচক হার

#মেট্রিক

প্রকৃত ইতিবাচক উদাহরণগুলির অনুপাত যার জন্য মডেলটি ভুল করে নেতিবাচক শ্রেণীর পূর্বাভাস দিয়েছে। নিম্নলিখিত সূত্রটি মিথ্যা নেতিবাচক হার গণনা করে:

$$\text{false negative rate} = \frac{\text{false negatives}}{\text{false negatives} + \text{true positives}}$$

আরও তথ্যের জন্য মেশিন লার্নিং ক্র্যাশ কোর্সে থ্রেশহোল্ড এবং কনফিউশন ম্যাট্রিক্স দেখুন।

মিথ্যা ইতিবাচক (এফপি)

#মৌলিক
#মেট্রিক

একটি উদাহরণ যেখানে মডেলটি ভুল করে ইতিবাচক শ্রেণীর পূর্বাভাস দেয়। উদাহরণস্বরূপ, মডেলটি ভবিষ্যদ্বাণী করে যে একটি নির্দিষ্ট ইমেল বার্তা স্প্যাম (ইতিবাচক শ্রেণি), তবে সেই ইমেল বার্তাটি আসলে স্প্যাম নয়

আরও তথ্যের জন্য মেশিন লার্নিং ক্র্যাশ কোর্সে থ্রেশহোল্ড এবং কনফিউশন ম্যাট্রিক্স দেখুন।

মিথ্যা ইতিবাচক হার (এফপিআর)

#মৌলিক
#মেট্রিক

প্রকৃত নেতিবাচক উদাহরণগুলির অনুপাত যার জন্য মডেলটি ভুলভাবে ইতিবাচক শ্রেণীর পূর্বাভাস দিয়েছে। নিম্নলিখিত সূত্রটি মিথ্যা ইতিবাচক হার গণনা করে:

$$\text{false positive rate} = \frac{\text{false positives}}{\text{false positives} + \text{true negatives}}$$

মিথ্যা পজিটিভ রেট হ'ল একটি আরওসি বক্ররেখার এক্স-অক্ষ।

আরও তথ্যের জন্য শ্রেণীবিভাগ দেখুন: মেশিন লার্নিং ক্র্যাশ কোর্সে ROC এবং AUC

বৈশিষ্ট্য

#মৌলিক

একটি মেশিন লার্নিং মডেলের জন্য একটি ইনপুট পরিবর্তনশীল। একটি উদাহরণ এক বা একাধিক বৈশিষ্ট্য নিয়ে গঠিত। উদাহরণস্বরূপ, ধরুন আপনি শিক্ষার্থীদের পরীক্ষার স্কোরগুলিতে আবহাওয়ার অবস্থার প্রভাব নির্ধারণের জন্য একটি মডেল প্রশিক্ষণ দিচ্ছেন। নিম্নলিখিত টেবিলটিতে তিনটি উদাহরণ দেখায়, যার প্রতিটিতে তিনটি বৈশিষ্ট্য এবং একটি লেবেল রয়েছে:

বৈশিষ্ট্য লেবেল
তাপমাত্রা আর্দ্রতা চাপ টেস্ট স্কোর
15 47 998 92
19 34 1020 84
18 92 1012 87

লেবেলের সাথে বিপরীতে।

আরও তথ্যের জন্য মেশিন লার্নিং কোর্সে পরিচিতিতে তদারকি করা পড়াশোনা দেখুন।

বৈশিষ্ট্য ক্রস

#মৌলিক

"ক্রসিং" শ্রেণিবদ্ধ বা বালতিযুক্ত বৈশিষ্ট্যগুলি দ্বারা গঠিত একটি সিন্থেটিক বৈশিষ্ট্য

উদাহরণস্বরূপ, একটি "মেজাজ পূর্বাভাস" মডেল বিবেচনা করুন যা নিম্নলিখিত চারটি বালতিগুলির মধ্যে একটিতে তাপমাত্রা উপস্থাপন করে:

  • freezing
  • chilly
  • temperate
  • warm

এবং নিম্নলিখিত তিনটি বালতিগুলির মধ্যে একটিতে বাতাসের গতি উপস্থাপন করে:

  • still
  • light
  • windy

বৈশিষ্ট্য ক্রস ছাড়াই, লিনিয়ার মডেল পূর্ববর্তী সাতটি বিভিন্ন বালতিগুলির প্রত্যেকটিতে স্বাধীনভাবে প্রশিক্ষণ দেয়। সুতরাং, মডেলটি প্রশিক্ষণ দেয়, উদাহরণস্বরূপ, প্রশিক্ষণ থেকে স্বাধীনভাবে freezing , উদাহরণস্বরূপ, windy

বিকল্পভাবে, আপনি তাপমাত্রা এবং বাতাসের গতির একটি বৈশিষ্ট্য ক্রস তৈরি করতে পারেন। এই সিন্থেটিক বৈশিষ্ট্যটির নিম্নলিখিত 12 টি সম্ভাব্য মান থাকবে:

  • freezing-still
  • freezing-light
  • freezing-windy
  • chilly-still
  • chilly-light
  • chilly-windy
  • temperate-still
  • temperate-light
  • temperate-windy
  • warm-still
  • warm-light
  • warm-windy

ফিচার ক্রসকে ধন্যবাদ, মডেলটি freezing-windy দিন এবং একটি freezing-still দিনের মধ্যে মেজাজের পার্থক্যগুলি শিখতে পারে।

আপনি যদি দুটি বৈশিষ্ট্য থেকে একটি সিন্থেটিক বৈশিষ্ট্য তৈরি করেন যা প্রত্যেকের অনেকগুলি বিভিন্ন বালতি থাকে তবে ফলস্বরূপ বৈশিষ্ট্য ক্রসটিতে সম্ভাব্য সংমিশ্রণগুলির একটি বিশাল সংখ্যক সংমিশ্রণ থাকবে। উদাহরণস্বরূপ, যদি একটি বৈশিষ্ট্যের 1000 টি বালতি থাকে এবং অন্য বৈশিষ্ট্যটিতে 2,000 বালতি থাকে তবে ফলস্বরূপ বৈশিষ্ট্য ক্রসটিতে 2,000,000 বালতি রয়েছে।

আনুষ্ঠানিকভাবে, একটি ক্রস একটি কার্টেসিয়ান পণ্য

বৈশিষ্ট্য ক্রসগুলি বেশিরভাগ লিনিয়ার মডেলগুলির সাথে ব্যবহৃত হয় এবং খুব কমই নিউরাল নেটওয়ার্কগুলির সাথে ব্যবহৃত হয়।

শ্রেণীবদ্ধ ডেটা দেখুন: আরও তথ্যের জন্য মেশিন লার্নিং ক্র্যাশ কোর্সে বৈশিষ্ট্য ক্রস

বৈশিষ্ট্য প্রকৌশল

#মৌলিক
#টেনসরফ্লো

একটি প্রক্রিয়া যা নিম্নলিখিত পদক্ষেপগুলি জড়িত:

  1. কোন বৈশিষ্ট্যগুলি কোনও মডেল প্রশিক্ষণে কার্যকর হতে পারে তা নির্ধারণ করা।
  2. ডেটাসেট থেকে কাঁচা ডেটাগুলিকে সেই বৈশিষ্ট্যগুলির দক্ষ সংস্করণগুলিতে রূপান্তর করা।

উদাহরণস্বরূপ, আপনি নির্ধারণ করতে পারেন যে temperature একটি দরকারী বৈশিষ্ট্য হতে পারে। তারপরে, আপনি বিভিন্ন temperature ব্যাপ্তি থেকে মডেলটি কী শিখতে পারে তা অনুকূল করতে আপনি বালতি নিয়ে পরীক্ষা করতে পারেন।

বৈশিষ্ট্য ইঞ্জিনিয়ারিং কখনও কখনও বৈশিষ্ট্য নিষ্কাশন বা বৈশিষ্ট্য বলা হয়।

সংখ্যার ডেটা দেখুন: আরও তথ্যের জন্য মেশিন লার্নিং ক্র্যাশ কোর্সে বৈশিষ্ট্য ভেক্টর ব্যবহার করে কোনও মডেল কীভাবে ডেটা ইনজেস্ট করে

বৈশিষ্ট্য নিষ্কাশন

নিম্নলিখিত সংজ্ঞাগুলির মধ্যে যে কোনও একটি অতিরিক্ত বোঝা শব্দ:

বৈশিষ্ট্যের গুরুত্ব

#df
#মেট্রিক

পরিবর্তনশীল আমদানির জন্য প্রতিশব্দ।

বৈশিষ্ট্য সেট

#মৌলিক

আপনার মেশিন লার্নিং মডেল ট্রেনগুলি বৈশিষ্ট্যযুক্ত বৈশিষ্ট্যগুলির গ্রুপ। উদাহরণস্বরূপ, এমন একটি মডেলের জন্য একটি সাধারণ বৈশিষ্ট্য সেট যা আবাসন দামের পূর্বাভাস দেয় ডাক কোড, সম্পত্তির আকার এবং সম্পত্তি শর্ত থাকতে পারে।

বৈশিষ্ট্য অনুমান

#টেনসরফ্লো

TF.EXAME প্রোটোকল বাফার থেকে ডেটা বৈশিষ্ট্যগুলি আহরণের জন্য প্রয়োজনীয় তথ্যগুলি বর্ণনা করে। যেহেতু tf.example প্রোটোকল বাফার ডেটার জন্য কেবল একটি ধারক, আপনাকে অবশ্যই নিম্নলিখিতগুলি নির্দিষ্ট করতে হবে:

  • নিষ্কাশনের ডেটা (এটি বৈশিষ্ট্যগুলির কীগুলি)
  • ডেটা টাইপ (উদাহরণস্বরূপ, ভাসমান বা ইনট)
  • দৈর্ঘ্য (স্থির বা পরিবর্তনশীল)

বৈশিষ্ট্য ভেক্টর

#মৌলিক

একটি উদাহরণ সমন্বিত বৈশিষ্ট্য মানগুলির অ্যারে। বৈশিষ্ট্য ভেক্টর প্রশিক্ষণের সময় এবং অনুমানের সময় ইনপুট হয়। উদাহরণস্বরূপ, দুটি পৃথক বৈশিষ্ট্যযুক্ত একটি মডেলের জন্য বৈশিষ্ট্য ভেক্টর হতে পারে:

[0.92, 0.56]

চারটি স্তর: একটি ইনপুট স্তর, দুটি লুকানো স্তর এবং একটি আউটপুট স্তর।           ইনপুট স্তরটিতে দুটি নোড রয়েছে, একটিতে মান রয়েছে           0.92 এবং অন্যটিতে মান 0.56 রয়েছে।

প্রতিটি উদাহরণ বৈশিষ্ট্য ভেক্টরের জন্য বিভিন্ন মান সরবরাহ করে, তাই পরবর্তী উদাহরণের জন্য বৈশিষ্ট্য ভেক্টরটি এমন কিছু হতে পারে:

[0.73, 0.49]

বৈশিষ্ট্য ইঞ্জিনিয়ারিং বৈশিষ্ট্য ভেক্টরে বৈশিষ্ট্যগুলি কীভাবে উপস্থাপন করবেন তা নির্ধারণ করে। উদাহরণস্বরূপ, পাঁচটি সম্ভাব্য মান সহ একটি বাইনারি শ্রেণিবদ্ধ বৈশিষ্ট্যটি এক-হট এনকোডিংয়ের সাথে প্রতিনিধিত্ব করা যেতে পারে। এই ক্ষেত্রে, একটি নির্দিষ্ট উদাহরণের জন্য বৈশিষ্ট্য ভেক্টরের অংশটি চারটি শূন্য এবং তৃতীয় অবস্থানে একটি একক 1.0 সমন্বয়ে গঠিত, নিম্নরূপ:

[0.0, 0.0, 1.0, 0.0, 0.0]

অন্য উদাহরণ হিসাবে, ধরুন আপনার মডেলটিতে তিনটি বৈশিষ্ট্য রয়েছে:

  • এক-হট এনকোডিংয়ের সাথে প্রতিনিধিত্ব করা পাঁচটি সম্ভাব্য মান সহ একটি বাইনারি শ্রেণিবদ্ধ বৈশিষ্ট্য; উদাহরণস্বরূপ: [0.0, 1.0, 0.0, 0.0, 0.0]
  • এক-হট এনকোডিংয়ের সাথে প্রতিনিধিত্ব করা তিনটি সম্ভাব্য মান সহ আরও একটি বাইনারি শ্রেণিবদ্ধ বৈশিষ্ট্য; উদাহরণস্বরূপ: [0.0, 0.0, 1.0]
  • একটি ভাসমান-পয়েন্ট বৈশিষ্ট্য; উদাহরণস্বরূপ: 8.3

এই ক্ষেত্রে, প্রতিটি উদাহরণের জন্য বৈশিষ্ট্য ভেক্টরটি নয়টি মান দ্বারা প্রতিনিধিত্ব করা হবে। পূর্ববর্তী তালিকায় উদাহরণ মানগুলি দেওয়া, বৈশিষ্ট্য ভেক্টরটি হবে:

0.0
1.0
0.0
0.0
0.0
0.0
0.0
1.0
8.3

সংখ্যার ডেটা দেখুন: আরও তথ্যের জন্য মেশিন লার্নিং ক্র্যাশ কোর্সে বৈশিষ্ট্য ভেক্টর ব্যবহার করে কোনও মডেল কীভাবে ডেটা ইনজেস্ট করে

বৈশিষ্ট্য

কোনও ডকুমেন্ট বা ভিডিওর মতো ইনপুট উত্স থেকে বৈশিষ্ট্যগুলি আহরণের প্রক্রিয়া এবং সেই বৈশিষ্ট্যগুলি কোনও বৈশিষ্ট্য ভেক্টরে ম্যাপিং করে।

কিছু এমএল বিশেষজ্ঞ বৈশিষ্ট্য ইঞ্জিনিয়ারিং বা বৈশিষ্ট্য নিষ্কাশনের প্রতিশব্দ হিসাবে বৈশিষ্ট্যগুলি ব্যবহার করেন।

ফেডারেটেড লার্নিং

একটি বিতরণ করা মেশিন লার্নিং পদ্ধতির যা স্মার্টফোনের মতো ডিভাইসে বসবাসকারী বিকেন্দ্রীভূত উদাহরণগুলি ব্যবহার করে মেশিন লার্নিং মডেলগুলিকে প্রশিক্ষণ দেয় । ফেডারেটেড লার্নিংয়ে, ডিভাইসের একটি উপসেট একটি কেন্দ্রীয় সমন্বয়কারী সার্ভার থেকে বর্তমান মডেলটি ডাউনলোড করে। ডিভাইসগুলি মডেলটিতে উন্নতি করতে ডিভাইসগুলিতে সঞ্চিত উদাহরণগুলি ব্যবহার করে। ডিভাইসগুলি তখন সমন্বয় সার্ভারে মডেল উন্নতিগুলি (তবে প্রশিক্ষণের উদাহরণ নয়) আপলোড করে, যেখানে তারা উন্নত গ্লোবাল মডেল উত্পাদন করতে অন্যান্য আপডেটের সাথে একত্রিত হয়। সংহতকরণের পরে, ডিভাইসগুলির দ্বারা গণনা করা মডেল আপডেটগুলি আর প্রয়োজন হয় না এবং এটি বাতিল করা যেতে পারে।

যেহেতু প্রশিক্ষণের উদাহরণগুলি কখনই আপলোড করা হয় না, ফেডারেটেড লার্নিং ফোকাসযুক্ত ডেটা সংগ্রহ এবং ডেটা মিনিমাইজেশনের গোপনীয়তা নীতিগুলি অনুসরণ করে।

আরও তথ্যের জন্য ফেডারেটেড লার্নিং কমিক (হ্যাঁ, একটি কমিক) দেখুন।

প্রতিক্রিয়া লুপ

#মৌলিক

মেশিন লার্নিংয়ে, এমন একটি পরিস্থিতিতে যেখানে কোনও মডেলের ভবিষ্যদ্বাণী একই মডেল বা অন্য কোনও মডেলের প্রশিক্ষণের ডেটা প্রভাবিত করে। উদাহরণস্বরূপ, এমন একটি মডেল যা চলচ্চিত্রের প্রস্তাব দেয় তারা সিনেমাগুলিকে প্রভাবিত করবে যা লোকেরা দেখবে, যা পরবর্তীকালে চলচ্চিত্রের সুপারিশ মডেলগুলিকে প্রভাবিত করবে।

প্রোডাকশন এমএল সিস্টেমগুলি দেখুন: আরও তথ্যের জন্য মেশিন লার্নিং ক্র্যাশ কোর্সে জিজ্ঞাসা করার প্রশ্নগুলি

ফিডফোরওয়ার্ড নিউরাল নেটওয়ার্ক (এফএফএন)

চক্রীয় বা পুনরাবৃত্ত সংযোগ ছাড়াই একটি নিউরাল নেটওয়ার্ক। উদাহরণস্বরূপ, traditional তিহ্যবাহী গভীর নিউরাল নেটওয়ার্কগুলি হ'ল ফিডফোরওয়ার্ড নিউরাল নেটওয়ার্ক। পুনরাবৃত্ত নিউরাল নেটওয়ার্কগুলির সাথে বৈপরীত্য, যা চক্রীয়।

কয়েক শট শেখার

একটি মেশিন লার্নিং পদ্ধতির প্রায়শই অবজেক্ট শ্রেণিবিন্যাসের জন্য ব্যবহৃত হয়, কেবলমাত্র অল্প সংখ্যক প্রশিক্ষণের উদাহরণ থেকে কার্যকর শ্রেণিবদ্ধকরণ মডেলগুলি প্রশিক্ষণের জন্য ডিজাইন করা।

ওয়ান-শট লার্নিং এবং জিরো-শট লার্নিংও দেখুন।

কয়েকটি শট অনুরোধ

#ভাষা
#generativeAI

একটি প্রম্পট যাতে একাধিক (একটি "কয়েকটি") উদাহরণ রয়েছে যা বৃহত্তর ভাষার মডেলটির প্রতিক্রিয়া জানানো উচিত তা প্রদর্শন করে। উদাহরণস্বরূপ, নিম্নলিখিত দীর্ঘ প্রম্পটে দুটি উদাহরণ রয়েছে যা একটি বৃহত ভাষার মডেল দেখায় কীভাবে একটি প্রশ্নের উত্তর দিতে হয়।

একটি প্রম্পটের অংশ নোট
নির্দিষ্ট দেশের সরকারী মুদ্রা কী? আপনি যে প্রশ্নের উত্তর চান তা প্রশ্নের উত্তর দিন।
ফ্রান্স: ইউরো একটি উদাহরণ.
যুক্তরাজ্য: জিবিপি আরেকটি উদাহরণ।
ভারত: আসল ক্যোয়ারী।

কয়েকটি শট প্রম্পটিং সাধারণত শূন্য-শট প্রম্পটিং এবং এক-শট প্রম্পটিংয়ের চেয়ে বেশি পছন্দসই ফলাফল তৈরি করে। তবে কয়েকটি শট প্রম্পটিংয়ের জন্য আরও দীর্ঘতর প্রম্পট প্রয়োজন।

কয়েকটি শট প্রম্পটিং হ'ল প্রম্পট-ভিত্তিক শিক্ষার জন্য প্রয়োগ করা কয়েকটি শট শেখার একটি ফর্ম।

আরও তথ্যের জন্য মেশিন লার্নিং ক্র্যাশ কোর্সে প্রম্পট ইঞ্জিনিয়ারিং দেখুন।

বেহালা

#ভাষা

একটি পাইথন-প্রথম কনফিগারেশন লাইব্রেরি যা আক্রমণাত্মক কোড বা অবকাঠামো ছাড়াই ফাংশন এবং শ্রেণীর মান নির্ধারণ করে। প্যাক্স -এবং অন্যান্য এমএল কোডবেসগুলির ক্ষেত্রে - এই ফাংশন এবং ক্লাসগুলি মডেল এবং প্রশিক্ষণ হাইপারপ্যারামিটারগুলি উপস্থাপন করে।

ফিডল ধরে নেয় যে মেশিন লার্নিং কোডব্যাসগুলি সাধারণত বিভক্ত হয়:

  • গ্রন্থাগার কোড, যা স্তর এবং অপ্টিমাইজারগুলি সংজ্ঞায়িত করে।
  • ডেটাসেট "আঠালো" কোড, যা লাইব্রেরিগুলিকে কল করে এবং সমস্ত কিছু একসাথে কল করে।

ফিডল একটি অযোগ্য এবং পরিবর্তনীয় আকারে আঠালো কোডের কল কাঠামো ক্যাপচার করে।

ফাইন-টিউনিং

#ভাষা
#ছবি
#generativeAI

একটি দ্বিতীয়, টাস্ক-নির্দিষ্ট প্রশিক্ষণ পাস একটি নির্দিষ্ট ব্যবহারের ক্ষেত্রে এর পরামিতিগুলি পরিমার্জন করতে প্রাক-প্রশিক্ষিত মডেলটিতে সম্পাদিত। উদাহরণস্বরূপ, কিছু বড় ভাষার মডেলগুলির জন্য সম্পূর্ণ প্রশিক্ষণের ক্রমটি নিম্নরূপ:

  1. প্রাক-প্রশিক্ষণ: একটি বিশাল সাধারণ ডেটাসেটে একটি বৃহত ভাষার মডেল প্রশিক্ষণ দিন, যেমন সমস্ত ইংরেজি ভাষার উইকিপিডিয়া পৃষ্ঠাগুলি।
  2. সূক্ষ্ম-টিউনিং: প্রাক-প্রশিক্ষিত মডেলটিকে একটি নির্দিষ্ট কাজ সম্পাদনের জন্য প্রশিক্ষণ দিন, যেমন মেডিকেল প্রশ্নের প্রতিক্রিয়া জানানো। ফাইন-টিউনিংয়ে সাধারণত নির্দিষ্ট কার্যের উপর দৃষ্টি নিবদ্ধ করে কয়েকশো বা হাজার হাজার উদাহরণ জড়িত।

অন্য উদাহরণ হিসাবে, একটি বৃহত চিত্র মডেলের সম্পূর্ণ প্রশিক্ষণ ক্রমটি নিম্নরূপ:

  1. প্রাক-প্রশিক্ষণ: উইকিমিডিয়া কমন্সের সমস্ত চিত্রের মতো একটি বিশাল সাধারণ চিত্র ডেটাসেটে একটি বৃহত চিত্রের মডেল প্রশিক্ষণ দিন।
  2. সূক্ষ্ম-টিউনিং: অর্কাসের চিত্র তৈরি করার মতো একটি নির্দিষ্ট কাজ সম্পাদনের জন্য প্রাক-প্রশিক্ষিত মডেলটিকে প্রশিক্ষণ দিন।

সূক্ষ্ম-টিউনিং নিম্নলিখিত কৌশলগুলির যে কোনও সংমিশ্রণকে জড়িত করতে পারে:

  • প্রাক-প্রশিক্ষিত মডেলের বিদ্যমান সমস্ত পরামিতিগুলি সংশোধন করা। এটিকে কখনও কখনও পুরো সূক্ষ্ম-টিউনিং বলা হয়।
  • অন্যান্য বিদ্যমান প্যারামিটারগুলি অপরিবর্তিত রাখার সময় (সাধারণত, আউটপুট স্তরটির নিকটতম স্তরগুলি) প্রাক-প্রশিক্ষিত মডেলের বিদ্যমান কিছু পরামিতিগুলি সংশোধন করা হয় (সাধারণত, ইনপুট স্তরের নিকটতম স্তরগুলি)। প্যারামিটার-দক্ষ টিউনিং দেখুন।
  • আরও স্তর যুক্ত করা, সাধারণত আউটপুট স্তরটির নিকটতম বিদ্যমান স্তরগুলির শীর্ষে।

ফাইন-টিউনিং হ'ল ট্রান্সফার লার্নিংয়ের একটি ফর্ম। যেমন, সূক্ষ্ম-টিউনিং প্রাক-প্রশিক্ষিত মডেলটিকে প্রশিক্ষণের জন্য ব্যবহৃত তুলনায় আলাদা লোকসান ফাংশন বা আলাদা মডেল টাইপ ব্যবহার করতে পারে। উদাহরণস্বরূপ, আপনি একটি রিগ্রেশন মডেল তৈরি করতে একটি প্রাক-প্রশিক্ষিত বৃহত চিত্রের মডেলটি সূক্ষ্ম-সুর করতে পারেন যা একটি ইনপুট চিত্রটিতে পাখির সংখ্যা প্রদান করে।

নিম্নলিখিত শর্তগুলির সাথে তুলনা করুন এবং তুলনা করুন:

আরও তথ্যের জন্য মেশিন লার্নিং ক্র্যাশ কোর্সে ফাইন-টিউনিং দেখুন।

শণ

#ভাষা

জ্যাক্সের শীর্ষে নির্মিত গভীর শিক্ষার জন্য একটি উচ্চ-পারফরম্যান্স ওপেন-সোর্স লাইব্রেরি । ফ্ল্যাক্স নিউরাল নেটওয়ার্কগুলির প্রশিক্ষণের জন্য ফাংশন সরবরাহ করে, পাশাপাশি তাদের কার্যকারিতা মূল্যায়নের পদ্ধতিগুলিও সরবরাহ করে।

ফ্ল্যাক্সফর্মার

#ভাষা

একটি ওপেন-সোর্স ট্রান্সফর্মার লাইব্রেরি , যা শ্ল্যাক্সের উপর নির্মিত, মূলত প্রাকৃতিক ভাষা প্রক্রিয়াকরণ এবং মাল্টিমোডাল গবেষণার জন্য ডিজাইন করা।

গেট ভুলে যান

#সেক

একটি দীর্ঘ স্বল্প-মেয়াদী মেমরি কোষের অংশ যা ঘরের মাধ্যমে তথ্যের প্রবাহকে নিয়ন্ত্রণ করে। সেল রাজ্য থেকে কোন তথ্য বাতিল করতে হবে তা সিদ্ধান্ত নিয়ে গেটগুলি ভুলে যান।

সাফল্যের ভগ্নাংশ

#generativeAI
#মেট্রিক

এমএল মডেলের উত্পন্ন পাঠ্য মূল্যায়নের জন্য একটি মেট্রিক। সাফল্যের ভগ্নাংশ হ'ল উত্পন্ন পাঠ্য আউটপুটগুলির মোট সংখ্যা দ্বারা বিভক্ত "সফল" উত্পন্ন পাঠ্য আউটপুটগুলির সংখ্যা। উদাহরণস্বরূপ, যদি একটি বৃহত ভাষার মডেল 10 টি ব্লক কোড তৈরি করে, যার মধ্যে পাঁচটি সফল হয়েছিল, তবে সাফল্যের ভগ্নাংশটি 50%হবে।

যদিও সাফল্যের ভগ্নাংশটি পরিসংখ্যান জুড়ে ব্যাপকভাবে কার্যকর, এমএল এর মধ্যে, এই মেট্রিকটি মূলত কোড জেনারেশন বা গণিত সমস্যার মতো যাচাইযোগ্য কাজগুলি পরিমাপ করার জন্য কার্যকর।

সম্পূর্ণ সফটম্যাক্স

সফটম্যাক্সের প্রতিশব্দ।

প্রার্থী নমুনা সঙ্গে বৈপরীত্য।

নিউরাল নেটওয়ার্কগুলি দেখুন: আরও তথ্যের জন্য মেশিন লার্নিং ক্র্যাশ কোর্সে মাল্টি-ক্লাসের শ্রেণিবিন্যাস

সম্পূর্ণ সংযুক্ত স্তর

একটি লুকানো স্তর যাতে প্রতিটি নোড পরবর্তী লুকানো স্তরটির প্রতিটি নোডের সাথে সংযুক্ত থাকে।

একটি সম্পূর্ণ সংযুক্ত স্তর একটি ঘন স্তর হিসাবেও পরিচিত।

ফাংশন রূপান্তর

একটি ফাংশন যা ইনপুট হিসাবে একটি ফাংশন নেয় এবং আউটপুট হিসাবে একটি রূপান্তরিত ফাংশন প্রদান করে। জ্যাক্স ফাংশন রূপান্তর ব্যবহার করে।

জি

GAN

জেনারেটর অ্যাডভারসিয়াল নেটওয়ার্কের জন্য সংক্ষেপণ।

মিথুন

#ভাষা
#ছবি
#generativeAI

গুগলের সর্বাধিক উন্নত এআই সমন্বিত বাস্তুতন্ত্র। এই বাস্তুতন্ত্রের উপাদানগুলির মধ্যে রয়েছে:

  • বিভিন্ন মিথুন মডেল
  • মিথুনের মডেলটিতে ইন্টারেক্টিভ কথোপকথন ইন্টারফেস। ব্যবহারকারীদের টাইপ প্রম্পটগুলি এবং মিথুনগুলি সেই অনুরোধগুলিতে সাড়া দেয়।
  • বিভিন্ন জেমিনি এপিআই।
  • মিথুন মডেলগুলির উপর ভিত্তি করে বিভিন্ন ব্যবসায়িক পণ্য; উদাহরণস্বরূপ, গুগল ক্লাউডের জন্য মিথুন

মিথুন মডেল

#ভাষা
#ছবি
#generativeAI

গুগলের অত্যাধুনিক ট্রান্সফর্মার ভিত্তিক মাল্টিমোডাল মডেল । মিথুন মডেলগুলি বিশেষত এজেন্টদের সাথে সংহত করার জন্য ডিজাইন করা হয়েছে।

ব্যবহারকারীরা ইন্টারেক্টিভ ডায়ালগ ইন্টারফেসের মাধ্যমে এবং এসডিকেগুলির মাধ্যমে বিভিন্ন উপায়ে মিথুনের মডেলগুলির সাথে ইন্টারঅ্যাক্ট করতে পারেন।

সাধারণীকরণ

#মৌলিক

নতুন, পূর্বে অদেখা ডেটা সম্পর্কে সঠিক ভবিষ্যদ্বাণী করার জন্য একটি মডেলের ক্ষমতা। এমন একটি মডেল যা সাধারণীকরণ করতে পারে তা হ'ল এমন একটি মডেলের বিপরীত যা অত্যধিক ফিটিং হয়।

আরও তথ্যের জন্য মেশিন লার্নিং ক্র্যাশ কোর্সে জেনারালাইজেশন দেখুন।

সাধারণীকরণ বক্ররেখা

#মৌলিক

পুনরাবৃত্তির সংখ্যার ফাংশন হিসাবে প্রশিক্ষণ ক্ষতি এবং বৈধতা ক্ষতির উভয়ের একটি প্লট।

একটি সাধারণীকরণ বক্ররেখা আপনাকে সম্ভাব্য ওভারফিটিং সনাক্ত করতে সহায়তা করতে পারে। উদাহরণস্বরূপ, নিম্নলিখিত সাধারণীকরণের বক্ররেখা ওভারফিটিংয়ের পরামর্শ দেয় কারণ বৈধতা হ্রাস শেষ পর্যন্ত প্রশিক্ষণ ক্ষতির চেয়ে উল্লেখযোগ্যভাবে বেশি হয়ে যায়।

একটি কার্টেসিয়ান গ্রাফ যাতে ওয়াই-অক্ষকে ক্ষতি এবং এক্স-অক্ষ হিসাবে চিহ্নিত করা হয়           পুনরাবৃত্তি লেবেল করা হয়। দুটি প্লট উপস্থিত। একটি প্লট দেখায়           প্রশিক্ষণ ক্ষতি এবং অন্যান্য বৈধতা ক্ষতি দেখায়।           দুটি প্লট একইভাবে শুরু হয়, তবে শেষ পর্যন্ত প্রশিক্ষণের ক্ষতি           বৈধতা ক্ষতির চেয়ে অনেক কম ডিপস।

আরও তথ্যের জন্য মেশিন লার্নিং ক্র্যাশ কোর্সে জেনারালাইজেশন দেখুন।

সাধারণ রৈখিক মডেল

অন্তত স্কোয়ার রিগ্রেশন মডেলগুলির একটি সাধারণীকরণ, যা গাউসিয়ান শব্দের উপর ভিত্তি করে, অন্যান্য ধরণের শব্দের উপর ভিত্তি করে অন্যান্য ধরণের মডেলগুলিতে যেমন পোইসন শব্দ বা শ্রেণিবদ্ধ শব্দের উপর ভিত্তি করে। জেনারালাইজড লিনিয়ার মডেলের উদাহরণগুলির মধ্যে রয়েছে:

একটি জেনারেলাইজড লিনিয়ার মডেলের পরামিতিগুলি উত্তল অপ্টিমাইজেশনের মাধ্যমে পাওয়া যাবে।

জেনারালাইজড লিনিয়ার মডেলগুলি নিম্নলিখিত বৈশিষ্ট্যগুলি প্রদর্শন করে:

  • অনুকূল সর্বনিম্ন স্কোয়ার রিগ্রেশন মডেলের গড় ভবিষ্যদ্বাণী প্রশিক্ষণের ডেটার গড় লেবেলের সমান।
  • অনুকূল লজিস্টিক রিগ্রেশন মডেল দ্বারা পূর্বাভাসিত গড় সম্ভাব্যতা প্রশিক্ষণের ডেটার গড় লেবেলের সমান।

একটি জেনারেলাইজড লিনিয়ার মডেলের শক্তি এর বৈশিষ্ট্যগুলি দ্বারা সীমাবদ্ধ। একটি গভীর মডেলের বিপরীতে, একটি সাধারণীকরণযুক্ত লিনিয়ার মডেল "নতুন বৈশিষ্ট্যগুলি শিখতে পারে না"।

তৈরি করা পাঠ্য

#ভাষা
#generativeAI

সাধারণভাবে, একটি এমএল মডেল আউটপুট দেয় এমন পাঠ্য। বড় ভাষার মডেলগুলি মূল্যায়ন করার সময়, কিছু মেট্রিকগুলি রেফারেন্স পাঠ্যের সাথে উত্পন্ন পাঠ্যের তুলনা করে। উদাহরণস্বরূপ, ধরুন আপনি কোনও এমএল মডেল ফরাসি থেকে ডাচগুলিতে কীভাবে কার্যকরভাবে অনুবাদ করে তা নির্ধারণ করার চেষ্টা করছেন। এই ক্ষেত্রে:

  • উত্পন্ন পাঠ্যটি হ'ল ডাচ অনুবাদ যা এমএল মডেল আউটপুট দেয়।
  • রেফারেন্স পাঠ্যটি হ'ল ডাচ অনুবাদ যা কোনও মানব অনুবাদক (বা সফ্টওয়্যার) তৈরি করে।

নোট করুন যে কিছু মূল্যায়ন কৌশলগুলি রেফারেন্স পাঠ্য জড়িত না।

জেনারেটিভ অ্যাডভারসারিয়াল নেটওয়ার্ক (GAN)

নতুন ডেটা তৈরি করার জন্য একটি সিস্টেম যাতে কোনও জেনারেটর ডেটা তৈরি করে এবং একটি বৈষম্যমূলক নির্ধারণ করে যে তৈরি করা ডেটা বৈধ বা অবৈধ কিনা।

আরও তথ্যের জন্য জেনারেটরি অ্যাডভারসিয়াল নেটওয়ার্ক কোর্স দেখুন।

জেনারেটিভ এআই

#ভাষা
#ছবি
#generativeAI

কোনও আনুষ্ঠানিক সংজ্ঞা ছাড়াই একটি উদীয়মান রূপান্তরকারী ক্ষেত্র। এটি বলেছিল, বেশিরভাগ বিশেষজ্ঞরা সম্মত হন যে জেনারেটর এআই মডেলগুলি নিম্নলিখিতগুলির মধ্যে থাকা সমস্ত সামগ্রী তৈরি করতে পারে ("উত্পন্ন"):

  • জটিল
  • সুসঙ্গত
  • মূল

উদাহরণস্বরূপ, একটি জেনারেটর এআই মডেল পরিশীলিত প্রবন্ধ বা চিত্র তৈরি করতে পারে।

এলএসটিএমএস এবং আরএনএন সহ কিছু পূর্ববর্তী প্রযুক্তিগুলি মূল এবং সুসংগত সামগ্রীও তৈরি করতে পারে। কিছু বিশেষজ্ঞরা এই পূর্ববর্তী প্রযুক্তিগুলিকে জেনারেটর এআই হিসাবে দেখেন, আবার অন্যরা মনে করেন যে সত্যিকারের জেনারেটরি এআইয়ের আগের প্রযুক্তিগুলি উত্পাদন করতে পারে তার চেয়ে আরও জটিল আউটপুট প্রয়োজন।

ভবিষ্যদ্বাণীমূলক এমএল এর সাথে বিপরীতে।

জেনারেটর মডেল

ব্যবহারিকভাবে বলতে গেলে, এমন একটি মডেল যা নিম্নলিখিতগুলির মধ্যে একটি করে:

  • প্রশিক্ষণ ডেটাসেট থেকে নতুন উদাহরণ তৈরি করে (উত্পন্ন)। উদাহরণস্বরূপ, একটি জেনারেটিভ মডেল কবিতার ডেটাসেটের প্রশিক্ষণের পরে কবিতা তৈরি করতে পারে। একটি জেনারেটিভ অ্যাডভারসারিয়াল নেটওয়ার্কের জেনারেটর অংশ এই বিভাগে পড়ে।
  • প্রশিক্ষণ সেট থেকে একটি নতুন উদাহরণ এসেছে, বা প্রশিক্ষণ সেট তৈরি করা একই প্রক্রিয়া থেকে তৈরি হয়েছিল এমন সম্ভাবনা নির্ধারণ করে। উদাহরণস্বরূপ, ইংরেজি বাক্য সমন্বিত একটি ডেটাসেটে প্রশিক্ষণের পর, একটি উৎপাদক মডেল সম্ভাব্যতা নির্ধারণ করতে পারে যে নতুন ইনপুট একটি বৈধ ইংরেজি বাক্য।

একটি জেনারেটর মডেল তাত্ত্বিকভাবে কোনও ডেটাসেটে উদাহরণ বা নির্দিষ্ট বৈশিষ্ট্যগুলির বিতরণকে সনাক্ত করতে পারে। অর্থাৎ:

p(examples)

অপ্রচলিত শেখার মডেলগুলি জেনারেটর।

বৈষম্যমূলক মডেলগুলির সাথে বৈপরীত্য।

জেনারেটর

একটি জেনারেটর অ্যাডভারসিয়াল নেটওয়ার্কের মধ্যে সাবসিস্টেমটি যা নতুন উদাহরণ তৈরি করে।

বৈষম্যমূলক মডেলের সাথে বৈপরীত্য।

জিনি অপবিত্রতা

#df
#মেট্রিক

এনট্রপির অনুরূপ একটি মেট্রিক। স্প্লিটটারগুলি শ্রেণিবিন্যাসের সিদ্ধান্ত গাছগুলির জন্য শর্ত রচনা করতে গিনি অপরিষ্কার বা এনট্রপি থেকে প্রাপ্ত মানগুলি ব্যবহার করে। তথ্য লাভ এনট্রপি থেকে নেওয়া হয়। গিনি অপরিষ্কার থেকে প্রাপ্ত মেট্রিকের জন্য সর্বজনীনভাবে গৃহীত সমতুল্য শব্দ নেই; তবে এই নামবিহীন মেট্রিক তথ্য লাভের মতোই গুরুত্বপূর্ণ।

গিনি অপরিষ্কারকে গিনি সূচক বা কেবল গিনিও বলা হয়।

গোল্ডেন ডেটাসেট

ম্যানুয়ালি কিউরেটেড ডেটার একটি সেট যা স্থল সত্যকে ক্যাপচার করে। দলগুলি কোনও মডেলের মানের মূল্যায়ন করতে এক বা একাধিক সোনার ডেটাসেট ব্যবহার করতে পারে।

কিছু সোনার ডেটাসেটগুলি গ্রাউন্ড ট্রুথের বিভিন্ন সাবডোমেনগুলি ক্যাপচার করে। উদাহরণস্বরূপ, চিত্রের শ্রেণিবিন্যাসের জন্য একটি সোনার ডেটাসেট আলোক শর্ত এবং চিত্র রেজোলিউশন ক্যাপচার করতে পারে।

সোনার প্রতিক্রিয়া

#ভাষা
#generativeAI

একটি উত্তর ভাল হিসাবে পরিচিত। উদাহরণস্বরূপ, নিম্নলিখিত প্রম্পট দেওয়া:

2 + 2

সোনার প্রতিক্রিয়া আশা করি:

4

জিপিটি (জেনারেটিভ প্রাক-প্রশিক্ষিত ট্রান্সফরমার)

#ভাষা

ট্রান্সফর্মার -ভিত্তিক বড় ভাষার মডেলগুলির একটি পরিবার ওপেনএআই দ্বারা বিকাশিত।

জিপিটি বৈকল্পিকগুলি একাধিক পদ্ধতিতে প্রয়োগ করতে পারে, সহ:

  • চিত্র জেনারেশন (উদাহরণস্বরূপ, ইমেজজিপিটি)
  • পাঠ্য-থেকে-ইমেজ জেনারেশন (উদাহরণস্বরূপ, ডাল-ই )।

গ্রেডিয়েন্ট

সমস্ত স্বাধীন ভেরিয়েবলের সাথে সম্পর্কিত আংশিক ডেরাইভেটিভসের ভেক্টর। মেশিন লার্নিংয়ে, গ্রেডিয়েন্ট হ'ল মডেল ফাংশনের আংশিক ডেরাইভেটিভগুলির ভেক্টর। খাড়া আরোহণের দিকের গ্রেডিয়েন্ট পয়েন্টগুলি।

গ্রেডিয়েন্ট জমে

একটি ব্যাকপ্রপ্যাগেশন কৌশল যা পুনরাবৃত্তির প্রতি একবারের পরিবর্তে প্যারোক প্রতি একবারে প্যারামিটারগুলি আপডেট করে। প্রতিটি মিনি-ব্যাচ প্রক্রিয়াজাতকরণের পরে, গ্রেডিয়েন্ট জমে থাকা কেবলমাত্র চলমান মোট গ্রেডিয়েন্টগুলি আপডেট করে। তারপরে, যুগের শেষ মিনি-ব্যাচটি প্রক্রিয়া করার পরে, সিস্টেমটি শেষ পর্যন্ত সমস্ত গ্রেডিয়েন্ট পরিবর্তনের উপর ভিত্তি করে প্যারামিটারগুলি আপডেট করে।

প্রশিক্ষণের জন্য উপলব্ধ মেমরির পরিমাণের তুলনায় ব্যাচের আকার খুব বড় হলে গ্রেডিয়েন্ট জমে থাকা কার্যকর। যখন স্মৃতি একটি সমস্যা হয়, তখন প্রাকৃতিক প্রবণতা হ'ল ব্যাচের আকার হ্রাস করা। যাইহোক, সাধারণ ব্যাকপ্রোপাজেশনে ব্যাচের আকার হ্রাস করা প্যারামিটার আপডেটের সংখ্যা বাড়িয়ে তোলে । গ্রেডিয়েন্ট জমে থাকা মডেলটিকে মেমরির সমস্যাগুলি এড়াতে সক্ষম করে তবে এখনও দক্ষতার সাথে প্রশিক্ষণ দেয়।

গ্রেডিয়েন্ট বুস্টেড (সিদ্ধান্ত) গাছ (জিবিটি)

#df

এক ধরণের সিদ্ধান্তের বন যা:

আরও তথ্যের জন্য সিদ্ধান্ত ফরেস্ট কোর্সে গ্রেডিয়েন্ট বুস্টেড সিদ্ধান্ত গাছগুলি দেখুন।

গ্রেডিয়েন্ট বুস্টিং

#df

একটি প্রশিক্ষণ অ্যালগরিদম যেখানে দুর্বল মডেলগুলি একটি শক্তিশালী মডেলের গুণমানকে (ক্ষতি হ্রাস) উন্নত করতে প্রশিক্ষিত হয়। উদাহরণস্বরূপ, একটি দুর্বল মডেল একটি লিনিয়ার বা ছোট সিদ্ধান্ত ট্রি মডেল হতে পারে। শক্তিশালী মডেল পূর্বে প্রশিক্ষিত সমস্ত দুর্বল মডেলের যোগফল হয়ে যায়।

গ্রেডিয়েন্ট বুস্টিংয়ের সহজতম আকারে, প্রতিটি পুনরাবৃত্তিতে, একটি দুর্বল মডেলকে শক্তিশালী মডেলের ক্ষতির গ্রেডিয়েন্টের পূর্বাভাস দেওয়ার জন্য প্রশিক্ষণ দেওয়া হয়। তারপরে, শক্তিশালী মডেলের আউটপুটটি গ্রেডিয়েন্ট বংশোদ্ভূত হিসাবে অনুরূপ পূর্বাভাসযুক্ত গ্রেডিয়েন্টকে বিয়োগ করে আপডেট করা হয়।

$$F_{0} = 0$$$$F_{i+1} = F_i - \xi f_i $$

কোথায়:

  • $ F_ {0} $ হ'ল প্রারম্ভিক শক্তিশালী মডেল।
  • $ F_ {i+1} $ হ'ল পরবর্তী শক্তিশালী মডেল।
  • $ F_ {i} $ হ'ল বর্তমান শক্তিশালী মডেল।
  • $ \ xi $ হ'ল 0.0 এবং 1.0 এর মধ্যে একটি মান যা সঙ্কুচিত হয়, যা গ্রেডিয়েন্ট বংশোদ্ভূত শিক্ষার হারের সাথে সাদৃশ্যপূর্ণ।
  • $ f_ {i} $ হ'ল দুর্বল মডেল যা $ f_ {i} $ এর ক্ষতির গ্রেডিয়েন্টের পূর্বাভাস দেওয়ার জন্য প্রশিক্ষিত $

গ্রেডিয়েন্ট বুস্টিংয়ের আধুনিক প্রকরণগুলির মধ্যে তাদের গণনায় ক্ষতির দ্বিতীয় ডেরাইভেটিভ (হেসিয়ান) অন্তর্ভুক্ত রয়েছে।

সিদ্ধান্ত গাছগুলি সাধারণত গ্রেডিয়েন্ট বুস্টিংয়ে দুর্বল মডেল হিসাবে ব্যবহৃত হয়। গ্রেডিয়েন্ট বুস্টেড (সিদ্ধান্ত) গাছ দেখুন।

গ্রেডিয়েন্ট ক্লিপিং

#সেক

কোনও মডেল প্রশিক্ষণের জন্য গ্রেডিয়েন্ট বংশোদ্ভূত ব্যবহার করার সময় গ্রেডিয়েন্টগুলির সর্বাধিক মান কৃত্রিমভাবে সীমাবদ্ধ করে (ক্লিপিং) দ্বারা বিস্ফোরক গ্রেডিয়েন্ট সমস্যা হ্রাস করার জন্য একটি সাধারণভাবে ব্যবহৃত প্রক্রিয়া।

গ্রেডিয়েন্ট ডিসেন্ট

#মৌলিক

ক্ষতি হ্রাস করার জন্য একটি গাণিতিক কৌশল। গ্রেডিয়েন্ট বংশোদ্ভূত পুনরাবৃত্তভাবে ওজন এবং পক্ষপাতিত্বগুলি সামঞ্জস্য করে, ধীরে ধীরে ক্ষতি হ্রাস করার জন্য সেরা সংমিশ্রণটি সন্ধান করে।

গ্রেডিয়েন্ট বংশোদ্ভূত মেশিন লার্নিংয়ের চেয়ে অনেক বেশি, অনেক বেশি বয়স্ক।

লিনিয়ার রিগ্রেশন দেখুন: আরও তথ্যের জন্য মেশিন লার্নিং ক্র্যাশ কোর্সে গ্রেডিয়েন্ট বংশোদ্ভূত

গ্রাফ

#টেনসরফ্লো

টেনসরফ্লোতে, একটি গণনার স্পেসিফিকেশন। গ্রাফের নোডগুলি অপারেশনগুলির প্রতিনিধিত্ব করে। প্রান্তগুলি নির্দেশিত হয় এবং অন্য অপারেশনের অপারেন্ড হিসাবে কোনও অপারেশন (একটি টেনসর ) এর ফলাফল পাস করার প্রতিনিধিত্ব করে। একটি গ্রাফ ভিজ্যুয়ালাইজ করতে টেনসরবোর্ড ব্যবহার করুন।

গ্রাফ এক্সিকিউশন

#টেনসরফ্লো

একটি টেনসরফ্লো প্রোগ্রামিং পরিবেশ যেখানে প্রোগ্রামটি প্রথমে একটি গ্রাফ তৈরি করে এবং তারপরে সেই গ্রাফের সমস্ত বা অংশ কার্যকর করে। গ্রাফ এক্সিকিউশন হ'ল টেনসরফ্লো 1.x এ ডিফল্ট এক্সিকিউশন মোড।

আগ্রহী নির্বাহের সাথে বৈপরীত্য।

লোভী নীতি

#আরএল

শক্তিবৃদ্ধি শেখার ক্ষেত্রে, এমন একটি নীতি যা সর্বদা সর্বোচ্চ প্রত্যাশিত রিটার্ন সহ ক্রিয়াটি বেছে নেয়।

ভিত্তি

এমন কোনও মডেলের একটি সম্পত্তি যার আউটপুট ("গ্রাউন্ডেড অন") নির্দিষ্ট উত্স উপাদানের উপর ভিত্তি করে। For example, suppose you provide an entire physics textbook as input ("context") to a large language model . Then, you prompt that large language model with a physics question. If the model's response reflects information in that textbook, then that model is grounded on that textbook.

Note that a grounded model is not always a factual model. For example, the input physics textbook could contain mistakes.

স্থল সত্য

#মৌলিক

বাস্তবতা।

The thing that actually happened.

For example, consider a binary classification model that predicts whether a student in their first year of university will graduate within six years. Ground truth for this model is whether or not that student actually graduated within six years.

গ্রুপ অ্যাট্রিবিউশন পক্ষপাত

#responsible

Assuming that what is true for an individual is also true for everyone in that group. The effects of group attribution bias can be exacerbated if a convenience sampling is used for data collection. In a non-representative sample, attributions may be made that don't reflect reality.

See also out-group homogeneity bias and in-group bias . Also, see Fairness: Types of bias in Machine Learning Crash Course for more information.

এইচ

হ্যালুসিনেশন

#language

The production of plausible-seeming but factually incorrect output by a generative AI model that purports to be making an assertion about the real world. For example, a generative AI model that claims that Barack Obama died in 1865 is hallucinating .

হ্যাশিং

In machine learning, a mechanism for bucketing categorical data , particularly when the number of categories is large, but the number of categories actually appearing in the dataset is comparatively small.

For example, Earth is home to about 73,000 tree species. You could represent each of the 73,000 tree species in 73,000 separate categorical buckets. Alternatively, if only 200 of those tree species actually appear in a dataset, you could use hashing to divide tree species into perhaps 500 buckets.

A single bucket could contain multiple tree species. For example, hashing could place baobab and red maple —two genetically dissimilar species—into the same bucket. Regardless, hashing is still a good way to map large categorical sets into the selected number of buckets. Hashing turns a categorical feature having a large number of possible values into a much smaller number of values by grouping values in a deterministic way.

See Categorical data: Vocabulary and one-hot encoding in Machine Learning Crash Course for more information.

হিউরিস্টিক

A simple and quickly implemented solution to a problem. For example, "With a heuristic, we achieved 86% accuracy. When we switched to a deep neural network, accuracy went up to 98%."

লুকানো স্তর

#মৌলিক

A layer in a neural network between the input layer (the features) and the output layer (the prediction). Each hidden layer consists of one or more neurons . For example, the following neural network contains two hidden layers, the first with three neurons and the second with two neurons:

চার স্তর। The first layer is an input layer containing two           বৈশিষ্ট্য The second layer is a hidden layer containing three           নিউরন The third layer is a hidden layer containing two           নিউরন The fourth layer is an output layer. প্রতিটি বৈশিষ্ট্য           contains three edges, each of which points to a different neuron           in the second layer. Each of the neurons in the second layer           contains two edges, each of which points to a different neuron           তৃতীয় স্তরে। Each of the neurons in the third layer contain           one edge, each pointing to the output layer.

A deep neural network contains more than one hidden layer. For example, the preceding illustration is a deep neural network because the model contains two hidden layers.

See Neural networks: Nodes and hidden layers in Machine Learning Crash Course for more information.

hierarchical clustering

# ক্লাস্টারিং

A category of clustering algorithms that create a tree of clusters. Hierarchical clustering is well-suited to hierarchical data, such as botanical taxonomies. দুটি ধরণের শ্রেণিবদ্ধ ক্লাস্টারিং অ্যালগরিদম রয়েছে:

  • Agglomerative clustering first assigns every example to its own cluster, and iteratively merges the closest clusters to create a hierarchical tree.
  • Divisive clustering first groups all examples into one cluster and then iteratively divides the cluster into a hierarchical tree.

Contrast with centroid-based clustering .

আরও তথ্যের জন্য ক্লাস্টারিং কোর্সে ক্লাস্টারিং অ্যালগরিদম দেখুন।

পাহাড়ে আরোহণ

An algorithm for iteratively improving ("walking uphill") an ML model until the model stops improving ("reaches the top of a hill"). The general form of the algorithm is as follows:

  1. Build a starting model.
  2. Create new candidate models by making small adjustments to the way you train or fine-tune . This might entail working with a slightly different training set or different hyperparameters.
  3. Evaluate the new candidate models and take one of the following actions:
    • If a candidate model outperforms the starting model, then that candidate model becomes the new starting model. In this case, repeat Steps 1, 2, and 3.
    • If no model outperforms the starting model, then you've reached the top of the hill and should stop iterating.

See Deep Learning Tuning Playbook for guidance on hyperparameter tuning. See the Data modules of Machine Learning Crash Course for guidance on feature engineering.

hinge loss

#মেট্রিক

A family of loss functions for classification designed to find the decision boundary as distant as possible from each training example, thus maximizing the margin between examples and the boundary. KSVMs use hinge loss (or a related function, such as squared hinge loss). For binary classification, the hinge loss function is defined as follows:

$$\text{loss} = \text{max}(0, 1 - (y * y'))$$

where y is the true label, either -1 or +1, and y' is the raw output of the classification model :

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

Consequently, a plot of hinge loss versus (y * y') looks as follows:

A Cartesian plot consisting of two joined line segments. প্রথম           line segment starts at (-3, 4) and ends at (1, 0). দ্বিতীয় লাইন           segment begins at (1, 0) and continues indefinitely with a slope           0 এর

historical bias

#responsible

A type of bias that already exists in the world and has made its way into a dataset. These biases have a tendency to reflect existing cultural stereotypes, demographic inequalities, and prejudices against certain social groups.

For example, consider a classification model that predicts whether or not a loan applicant will default on their loan, which was trained on historical loan-default data from the 1980s from local banks in two different communities. If past applicants from Community A were six times more likely to default on their loans than applicants from Community B, the model might learn a historical bias resulting in the model being less likely to approve loans in Community A, even if the historical conditions that resulted in that community's higher default rates were no longer relevant.

আরও তথ্যের জন্য মেশিন লার্নিং ক্র্যাশ কোর্সে ন্যায্যতা: পক্ষপাতের প্রকারগুলি দেখুন।

holdout data

Examples intentionally not used ("held out") during training. The validation dataset and test dataset are examples of holdout data. Holdout data helps evaluate your model's ability to generalize to data other than the data it was trained on. The loss on the holdout set provides a better estimate of the loss on an unseen dataset than does the loss on the training set.

হোস্ট

#টেনসরফ্লো
#GoogleCloud

When training an ML model on accelerator chips (GPUs or TPUs ), the part of the system that controls both of the following:

  • The overall flow of the code.
  • The extraction and transformation of the input pipeline.

The host typically runs on a CPU, not on an accelerator chip; the device manipulates tensors on the accelerator chips.

মানুষের মূল্যায়ন

#language
#generativeAI

A process in which people judge the quality of an ML model's output; for example, having bilingual people judge the quality of an ML translation model. Human evaluation is particularly useful for judging models that have no one right answer .

Contrast with automatic evaluation and autorater evaluation .

human in the loop (HITL)

#generativeAI

A loosely-defined idiom that could mean either of the following:

  • A policy of viewing Generative AI output critically or skeptically. For example, the humans who write this ML Glossary are amazed by what large language models can do but are mindful of the mistakes large language models make.
  • A strategy or system for ensuring that people help shape, evaluate, and refine a model's behavior. Keeping a human in the loop enables an AI to benefit from both machine intelligence and human intelligence. For example, a system in which an AI generates code which software engineers then review is a human-in-the-loop system.

হাইপারপ্যারামিটার

#মৌলিক

The variables that you or a hyperparameter tuning serviceadjust during successive runs of training a model. For example, learning rate is a hyperparameter. You could set the learning rate to 0.01 before one training session. If you determine that 0.01 is too high, you could perhaps set the learning rate to 0.003 for the next training session.

In contrast, parameters are the various weights and bias that the model learns during training.

আরও তথ্যের জন্য লিনিয়ার রিগ্রেশন: মেশিন লার্নিং ক্র্যাশ কোর্সে হাইপারপ্যারামিটার দেখুন।

হাইপারপ্লেন

A boundary that separates a space into two subspaces. For example, a line is a hyperplane in two dimensions and a plane is a hyperplane in three dimensions. More typically in machine learning, a hyperplane is the boundary separating a high-dimensional space. Kernel Support Vector Machines use hyperplanes to separate positive classes from negative classes, often in a very high-dimensional space.

আমি

আইআইডি

Abbreviation for independently and identically distributed .

ইমেজ স্বীকৃতি

#ছবি

A process that classifies object(s), pattern(s), or concept(s) in an image. Image recognition is also known as image classification .

For more information, see ML Practicum: Image Classification .

See the ML Practicum: Image Classification course for more information.

imbalanced dataset

Synonym for class-imbalanced dataset .

অন্তর্নিহিত পক্ষপাত

#responsible

Automatically making an association or assumption based on one's mind models and memories. Implicit bias can affect the following:

  • How data is collected and classified.
  • How machine learning systems are designed and developed.

For example, when building a classification model to identify wedding photos, an engineer may use the presence of a white dress in a photo as a feature. However, white dresses have been customary only during certain eras and in certain cultures.

See also confirmation bias .

অভিযুক্তি

Short form of value imputation .

incompatibility of fairness metrics

#responsible
#মেট্রিক

The idea that some notions of fairness are mutually incompatible and cannot be satisfied simultaneously. As a result, there is no single universal metric for quantifying fairness that can be applied to all ML problems.

While this may seem discouraging, incompatibility of fairness metrics doesn't imply that fairness efforts are fruitless. Instead, it suggests that fairness must be defined contextually for a given ML problem, with the goal of preventing harms specific to its use cases.

See "On the (im)possibility of fairness" for a more detailed discussion of the incompatibility of fairness metrics.

প্রেক্ষাপটে শিক্ষা

#language
#generativeAI

Synonym for few-shot prompting .

independently and identically distributed (iid)

#মৌলিক

Data drawn from a distribution that doesn't change, and where each value drawn doesn't depend on values that have been drawn previously. An iid is the ideal gas of machine learning—a useful mathematical construct but almost never exactly found in the real world. For example, the distribution of visitors to a web page may be iid over a brief window of time; that is, the distribution doesn't change during that brief window and one person's visit is generally independent of another's visit. However, if you expand that window of time, seasonal differences in the web page's visitors may appear.

See also nonstationarity .

individual fairness

#responsible
#মেট্রিক

A fairness metric that checks whether similar individuals are classified similarly. For example, Brobdingnagian Academy might want to satisfy individual fairness by ensuring that two students with identical grades and standardized test scores are equally likely to gain admission.

Note that individual fairness relies entirely on how you define "similarity" (in this case, grades and test scores), and you can run the risk of introducing new fairness problems if your similarity metric misses important information (such as the rigor of a student's curriculum).

See "Fairness Through Awareness" for a more detailed discussion of individual fairness.

অনুমান

#মৌলিক

In machine learning, the process of making predictions by applying a trained model to unlabeled examples .

Inference has a somewhat different meaning in statistics. See the Wikipedia article on statistical inference for details.

See Supervised Learning in the Intro to ML course to see inference's role in a supervised learning system.

inference path

#df

In a decision tree , during inference , the route a particular example takes from the root to other conditions , terminating with a leaf . For example, in the following decision tree, the thicker arrows show the inference path for an example with the following feature values:

  • x = 7
  • y = 12
  • z = -3

The inference path in the following illustration travels through three conditions before reaching the leaf ( Zeta ).

A decision tree consisting of four conditions and five leaves.
          The root condition is (x > 0). Since the answer is Yes, the
          inference path travels from the root to the next condition (y > 0).
          Since the answer is Yes, the inference path then travels to the
          next condition (z > 0). Since the answer is No, the inference path
          travels to its terminal node, which is the leaf (Zeta).

The three thick arrows show the inference path.

See Decision trees in the Decision Forests course for more information.

তথ্য লাভ

#df
#মেট্রিক

In decision forests , the difference between a node's entropy and the weighted (by number of examples) sum of the entropy of its children nodes. A node's entropy is the entropy of the examples in that node.

For example, consider the following entropy values:

  • entropy of parent node = 0.6
  • entropy of one child node with 16 relevant examples = 0.2
  • entropy of another child node with 24 relevant examples = 0.1

So 40% of the examples are in one child node and 60% are in the other child node. অতএব:

  • weighted entropy sum of child nodes = (0.4 * 0.2) + (0.6 * 0.1) = 0.14

So, the information gain is:

  • information gain = entropy of parent node - weighted entropy sum of child nodes
  • information gain = 0.6 - 0.14 = 0.46

Most splitters seek to create conditions that maximize information gain.

ইন-গ্রুপ পক্ষপাত

#responsible

Showing partiality to one's own group or own characteristics. If testers or raters consist of the machine learning developer's friends, family, or colleagues, then in-group bias may invalidate product testing or the dataset.

In-group bias is a form of group attribution bias . See also out-group homogeneity bias .

আরও তথ্যের জন্য মেশিন লার্নিং ক্র্যাশ কোর্সে ন্যায্যতা: পক্ষপাতের প্রকারগুলি দেখুন।

input generator

A mechanism by which data is loaded into a neural network .

An input generator can be thought of as a component responsible for processing raw data into tensors which are iterated over to generate batches for training, evaluation, and inference.

input layer

#মৌলিক

The layer of a neural network that holds the feature vector . That is, the input layer provides examples for training or inference . For example, the input layer in the following neural network consists of two features:

Four layers: an input layer, two hidden layers, and an output layer.

in-set condition

#df

In a decision tree , a condition that tests for the presence of one item in a set of items. For example, the following is an in-set condition:

  house-style in [tudor, colonial, cape]

During inference, if the value of the house-style feature is tudor or colonial or cape , then this condition evaluates to Yes. If the value of the house-style feature is something else (for example, ranch ), then this condition evaluates to No.

In-set conditions usually lead to more efficient decision trees than conditions that test one-hot encoded features.

উদাহরণ

Synonym for example .

instruction tuning

#generativeAI

A form of fine-tuning that improves a generative AI model's ability to follow instructions. Instruction tuning involves training a model on a series of instruction prompts, typically covering a wide variety of tasks. The resulting instruction-tuned model then tends to generate useful responses to zero-shot prompts across a variety of tasks.

এর সাথে তুলনা এবং বৈসাদৃশ্য:

ব্যাখ্যাযোগ্যতা

#মৌলিক

The ability to explain or to present an ML model's reasoning in understandable terms to a human.

Most linear regression models, for example, are highly interpretable. (You merely need to look at the trained weights for each feature.) Decision forests are also highly interpretable. Some models, however, require sophisticated visualization to become interpretable.

You can use the Learning Interpretability Tool (LIT) to interpret ML models.

inter-rater agreement

#মেট্রিক

A measurement of how often human raters agree when doing a task. If raters disagree, the task instructions may need to be improved. Also sometimes called inter-annotator agreement or inter-rater reliability . See also Cohen's kappa , which is one of the most popular inter-rater agreement measurements.

See Categorical data: Common issues in Machine Learning Crash Course for more information.

intersection over union (IoU)

#ছবি

The intersection of two sets divided by their union. In machine-learning image-detection tasks, IoU is used to measure the accuracy of the model's predicted bounding box with respect to the ground-truth bounding box. In this case, the IoU for the two boxes is the ratio between the overlapping area and the total area, and its value ranges from 0 (no overlap of predicted bounding box and ground-truth bounding box) to 1 (predicted bounding box and ground-truth bounding box have the exact same coordinates).

For example, in the image below:

  • The predicted bounding box (the coordinates delimiting where the model predicts the night table in the painting is located) is outlined in purple.
  • The ground-truth bounding box (the coordinates delimiting where the night table in the painting is actually located) is outlined in green.

The Van Gogh painting Vincent's Bedroom in Arles, with two different           bounding boxes around the night table beside the bed. The ground-truth           bounding box (in green) perfectly circumscribes the night table. দ           predicted bounding box (in purple) is offset 50% down and to the right           of the ground-truth bounding box; it encloses the bottom-right quarter           of the night table, but misses the rest of the table.

Here, the intersection of the bounding boxes for prediction and ground truth (below left) is 1, and the union of the bounding boxes for prediction and ground truth (below right) is 7, so the IoU is \(\frac{1}{7}\).

Same image as above, but with each bounding box divided into four           চতুর্ভুজ There are seven quadrants total, as the bottom-right           quadrant of the ground-truth bounding box and the top-left           quadrant of the predicted bounding box overlap each other. এই           overlapping section (highlighted in green) represents the           intersection, and has an area of 1.Same image as above, but with each bounding box divided into four           চতুর্ভুজ There are seven quadrants total, as the bottom-right           quadrant of the ground-truth bounding box and the top-left           quadrant of the predicted bounding box overlap each other.           The entire interior enclosed by both bounding boxes           (highlighted in green) represents the union, and has           an area of 7.

আইওইউ

Abbreviation for intersection over union .

item matrix

#রিসিস্টেম

In recommendation systems , a matrix of embedding vectors generated by matrix factorization that holds latent signals about each item . Each row of the item matrix holds the value of a single latent feature for all items. For example, consider a movie recommendation system. Each column in the item matrix represents a single movie. The latent signals might represent genres, or might be harder-to-interpret signals that involve complex interactions among genre, stars, movie age, or other factors.

The item matrix has the same number of columns as the target matrix that is being factorized. For example, given a movie recommendation system that evaluates 10,000 movie titles, the item matrix will have 10,000 columns.

আইটেম

#রিসিস্টেম

In a recommendation system , the entities that a system recommends. For example, videos are the items that a video store recommends, while books are the items that a bookstore recommends.

পুনরাবৃত্তি

#মৌলিক

A single update of a model's parameters—the model's weights and biases —during training . The batch size determines how many examples the model processes in a single iteration. For instance, if the batch size is 20, then the model processes 20 examples before adjusting the parameters.

When training a neural network , a single iteration involves the following two passes:

  1. A forward pass to evaluate loss on a single batch.
  2. A backward pass ( backpropagation ) to adjust the model's parameters based on the loss and the learning rate.

See Gradient descent in Machine Learning Crash Course for more information.

জে

JAX

An array computing library, bringing together XLA (Accelerated Linear Algebra) and automatic differentiation for high-performance numerical computing. JAX provides a simple and powerful API for writing accelerated numerical code with composable transformations. JAX provides features such as:

  • grad (automatic differentiation)
  • jit (just-in-time compilation)
  • vmap (automatic vectorization or batching)
  • pmap (parallelization)

JAX is a language for expressing and composing transformations of numerical code, analogous—but much larger in scope—to Python's NumPy library. (In fact, the .numpy library under JAX is a functionally equivalent, but entirely rewritten version of the Python NumPy library.)

JAX is particularly well-suited for speeding up many machine learning tasks by transforming the models and data into a form suitable for parallelism across GPU and TPU accelerator chips .

Flax , Optax , Pax , and many other libraries are built on the JAX infrastructure.

কে

কেরাস

A popular Python machine learning API. Keras runs on several deep learning frameworks, including TensorFlow, where it is made available as tf.keras .

Kernel Support Vector Machines (KSVMs)

A classification algorithm that seeks to maximize the margin between positive and negative classes by mapping input data vectors to a higher dimensional space. For example, consider a classification problem in which the input dataset has a hundred features. To maximize the margin between positive and negative classes, a KSVM could internally map those features into a million-dimension space. KSVMs uses a loss function called hinge loss .

মূল পয়েন্ট

#ছবি

The coordinates of particular features in an image. For example, for an image recognition model that distinguishes flower species, keypoints might be the center of each petal, the stem, the stamen, and so on.

k-ভাঁজ ক্রস বৈধতা

An algorithm for predicting a model's ability to generalize to new data. The k in k-fold refers to the number of equal groups you divide a dataset's examples into; that is, you train and test your model k times. For each round of training and testing, a different group is the test set, and all remaining groups become the training set. After k rounds of training and testing, you calculate the mean and standard deviation of the chosen test metric(s).

For example, suppose your dataset consists of 120 examples. Further suppose, you decide to set k to 4. Therefore, after shuffling the examples, you divide the dataset into four equal groups of 30 examples and conduct four training and testing rounds:

A dataset broken into four equal groups of examples. In Round 1,           the first three groups are used for training and the last group           পরীক্ষার জন্য ব্যবহার করা হয়। In Round 2, the first two groups and the last           group are used for training, while the third group is used for           পরীক্ষা In Round 3, the first group and the last two groups are           used for training, while the second group is used for testing.           In Round 4, the first group is used is for testing, while the final           three groups are used for training.

For example, Mean Squared Error (MSE) might be the most meaningful metric for a linear regression model. Therefore, you would find the mean and standard deviation of the MSE across all four rounds.

k- মানে

# ক্লাস্টারিং

A popular clustering algorithm that groups examples in unsupervised learning. The k-means algorithm basically does the following:

  • Iteratively determines the best k center points (known as centroids ).
  • Assigns each example to the closest centroid. Those examples nearest the same centroid belong to the same group.

The k-means algorithm picks centroid locations to minimize the cumulative square of the distances from each example to its closest centroid.

For example, consider the following plot of dog height to dog width:

A Cartesian plot with several dozen data points.

If k=3, the k-means algorithm will determine three centroids. Each example is assigned to its closest centroid, yielding three groups:

The same Cartesian plot as in the previous illustration, except           with three centroids added.           The previous data points are clustered into three distinct groups,           with each group representing the data points closest to a particular           কেন্দ্রিক

Imagine that a manufacturer wants to determine the ideal sizes for small, medium, and large sweaters for dogs. The three centroids identify the mean height and mean width of each dog in that cluster. So, the manufacturer should probably base sweater sizes on those three centroids. Note that the centroid of a cluster is typically not an example in the cluster.

The preceding illustrations shows k-means for examples with only two features (height and width). Note that k-means can group examples across many features.

See What is k-means clustering? in the Clustering course for more information.

k-median

# ক্লাস্টারিং

A clustering algorithm closely related to k-means . The practical difference between the two is as follows:

  • In k-means, centroids are determined by minimizing the sum of the squares of the distance between a centroid candidate and each of its examples.
  • In k-median, centroids are determined by minimizing the sum of the distance between a centroid candidate and each of its examples.

Note that the definitions of distance are also different:

  • k-means relies on the Euclidean distance from the centroid to an example. (In two dimensions, the Euclidean distance means using the Pythagorean theorem to calculate the hypotenuse.) For example, the k-means distance between (2,2) and (5,-2) would be:
$$ {\text{Euclidean distance}} = {\sqrt {(2-5)^2 + (2--2)^2}} = 5 $$
  • k-median relies on the Manhattan distance from the centroid to an example. This distance is the sum of the absolute deltas in each dimension. For example, the k-median distance between (2,2) and (5,-2) would be:
$$ {\text{Manhattan distance}} = \lvert 2-5 \rvert + \lvert 2--2 \rvert = 7 $$

এল

L 0 regularization

#মৌলিক

A type of regularization that penalizes the total number of nonzero weights in a model. For example, a model having 11 nonzero weights would be penalized more than a similar model having 10 nonzero weights.

L 0 regularization is sometimes called L0-norm regularization .

L 1 loss

#মৌলিক
#মেট্রিক

A loss function that calculates the absolute value of the difference between actual label values and the values that a model predicts. For example, here's the calculation of L 1 loss for a batch of five examples :

Actual value of example Model's predicted value Absolute value of delta
7 6 1
5 4 1
8 11 3
4 6 2
9 8 1
8 = L 1 loss

L 1 loss is less sensitive to outliers than L 2 loss .

The Mean Absolute Error is the average L 1 loss per example.

See Linear regression: Loss in Machine Learning Crash Course for more information.

এল 1 নিয়মিতকরণ

#মৌলিক

A type of regularization that penalizes weights in proportion to the sum of the absolute value of the weights. L 1 regularization helps drive the weights of irrelevant or barely relevant features to exactly 0 . A feature with a weight of 0 is effectively removed from the model.

Contrast with L 2 regularization .

L 2 ক্ষতি

#মৌলিক
#মেট্রিক

A loss function that calculates the square of the difference between actual label values and the values that a model predicts. For example, here's the calculation of L 2 loss for a batch of five examples :

Actual value of example Model's predicted value Square of delta
7 6 1
5 4 1
8 11 9
4 6 4
9 8 1
16 = L 2 loss

Due to squaring, L 2 loss amplifies the influence of outliers . That is, L 2 loss reacts more strongly to bad predictions than L 1 loss . For example, the L 1 loss for the preceding batch would be 8 rather than 16. Notice that a single outlier accounts for 9 of the 16.

Regression models typically use L 2 loss as the loss function.

The Mean Squared Error is the average L 2 loss per example. Squared loss is another name for L 2 loss.

See Logistic regression: Loss and regularization in Machine Learning Crash Course for more information.

এল 2 নিয়মিতকরণ

#মৌলিক

A type of regularization that penalizes weights in proportion to the sum of the squares of the weights. L 2 regularization helps drive outlier weights (those with high positive or low negative values) closer to 0 but not quite to 0 . Features with values very close to 0 remain in the model but don't influence the model's prediction very much.

L 2 regularization always improves generalization in linear models .

Contrast with L 1 regularization .

See Overfitting: L2 regularization in Machine Learning Crash Course for more information.

লেবেল

#মৌলিক

In supervised machine learning , the "answer" or "result" portion of an example .

Each labeled example consists of one or more features and a label. For example, in a spam detection dataset, the label would probably be either "spam" or "not spam." In a rainfall dataset, the label might be the amount of rain that fell during a certain period.

See Supervised Learning in Introduction to Machine Learning for more information.

labeled example

#মৌলিক

An example that contains one or more features and a label . For example, the following table shows three labeled examples from a house valuation model, each with three features and one label:

বেডরুমের সংখ্যা বাথরুমের সংখ্যা ঘরের বয়স House price (label)
3 2 15 $345,000
2 1 72 $179,000
4 2 34 $392,000

In supervised machine learning , models train on labeled examples and make predictions on unlabeled examples .

Contrast labeled example with unlabeled examples.

See Supervised Learning in Introduction to Machine Learning for more information.

label leakage

A model design flaw in which a feature is a proxy for the label . For example, consider a binary classification model that predicts whether or not a prospective customer will purchase a particular product. Suppose that one of the features for the model is a Boolean named SpokeToCustomerAgent . Further suppose that a customer agent is only assigned after the prospective customer has actually purchased the product. During training, the model will quickly learn the association between SpokeToCustomerAgent and the label.

See Monitoring pipelines in Machine Learning Crash Course for more information.

ল্যাম্বডা

#মৌলিক

Synonym for regularization rate .

Lambda is an overloaded term. Here we're focusing on the term's definition within regularization .

LaMDA (Language Model for Dialogue Applications)

#language

A Transformer -based large language model developed by Google trained on a large dialogue dataset that can generate realistic conversational responses.

LaMDA: our breakthrough conversation technology provides an overview.

ল্যান্ডমার্ক

#ছবি

Synonym for keypoints .

ভাষার মডেল

#language

A model that estimates the probability of a token or sequence of tokens occurring in a longer sequence of tokens.

See What is a language model? in Machine Learning Crash Course for more information.

বড় ভাষা মডেল

#language

At a minimum, a language model having a very high number of parameters . More informally, any Transformer -based language model, such as Gemini or GPT .

See Large language models (LLMs) in Machine Learning Crash Course for more information.

সুপ্ত স্থান

#language

Synonym for embedding space .

স্তর

#মৌলিক

A set of neurons in a neural network . Three common types of layers are as follows:

For example, the following illustration shows a neural network with one input layer, two hidden layers, and one output layer:

A neural network with one input layer, two hidden layers, and one           output layer. The input layer consists of two features. প্রথম           hidden layer consists of three neurons and the second hidden layer           consists of two neurons. The output layer consists of a single node.

In TensorFlow , layers are also Python functions that take Tensors and configuration options as input and produce other tensors as output.

Layers API (tf.layers)

#টেনসরফ্লো

A TensorFlow API for constructing a deep neural network as a composition of layers. The Layers API lets you build different types of layers , such as:

The Layers API follows the Keras layers API conventions. That is, aside from a different prefix, all functions in the Layers API have the same names and signatures as their counterparts in the Keras layers API.

পাতা

#df

Any endpoint in a decision tree . Unlike a condition , a leaf doesn't perform a test. Rather, a leaf is a possible prediction. A leaf is also the terminal node of an inference path .

For example, the following decision tree contains three leaves:

A decision tree with two conditions leading to three leaves.

See Decision trees in the Decision Forests course for more information.

Learning Interpretability Tool (LIT)

A visual, interactive model-understanding and data visualization tool.

You can use open-source LIT to interpret models or to visualize text, image, and tabular data.

শেখার হার

#মৌলিক

A floating-point number that tells the gradient descent algorithm how strongly to adjust weights and biases on each iteration . For example, a learning rate of 0.3 would adjust weights and biases three times more powerfully than a learning rate of 0.1.

Learning rate is a key hyperparameter . If you set the learning rate too low, training will take too long. If you set the learning rate too high, gradient descent often has trouble reaching convergence .

আরও তথ্যের জন্য লিনিয়ার রিগ্রেশন: মেশিন লার্নিং ক্র্যাশ কোর্সে হাইপারপ্যারামিটার দেখুন।

least squares regression

A linear regression model trained by minimizing L 2 Loss .

Levenshtein দূরত্ব

#language
#metric

An edit distance metric that calculates the fewest delete, insert, and substitute operations required to change one word to another. For example, the Levenshtein distance between the words "heart" and "darts" is three because the following three edits are the fewest changes to turn one word into the other:

  1. heart → deart (substitute "h" with "d")
  2. deart → dart (delete "e")
  3. dart → darts (insert "s")

Note that the preceding sequence isn't the only path of three edits.

রৈখিক

#মৌলিক

A relationship between two or more variables that can be represented solely through addition and multiplication.

The plot of a linear relationship is a line.

Contrast with nonlinear .

রৈখিক মডেল

#মৌলিক

A model that assigns one weight per feature to make predictions . (Linear models also incorporate a bias .) In contrast, the relationship of features to predictions in deep models is generally nonlinear .

Linear models are usually easier to train and more interpretable than deep models. However, deep models can learn complex relationships between features.

Linear regression and logistic regression are two types of linear models.

লিনিয়ার রিগ্রেশন

#মৌলিক

A type of machine learning model in which both of the following are true:

  • The model is a linear model .
  • The prediction is a floating-point value. (This is the regression part of linear regression .)

Contrast linear regression with logistic regression . Also, contrast regression with classification .

See Linear regression in Machine Learning Crash Course for more information.

LIT

Abbreviation for the Learning Interpretability Tool (LIT) , which was previously known as the Language Interpretability Tool.

এলএলএম

#language
#generativeAI

Abbreviation for large language model .

LLM evaluations (evals)

#language
#generativeAI
#মেট্রিক

A set of metrics and benchmarks for assessing the performance of large language models (LLMs). At a high level, LLM evaluations:

  • Help researchers identify areas where LLMs need improvement.
  • Are useful in comparing different LLMs and identifying the best LLM for a particular task.
  • Help ensure that LLMs are safe and ethical to use.

See Large language models (LLMs) in Machine Learning Crash Course for more information.

লজিস্টিক রিগ্রেশন

#মৌলিক

A type of regression model that predicts a probability. Logistic regression models have the following characteristics:

  • The label is categorical . The term logistic regression usually refers to binary logistic regression , that is, to a model that calculates probabilities for labels with two possible values. A less common variant, multinomial logistic regression , calculates probabilities for labels with more than two possible values.
  • The loss function during training is Log Loss . (Multiple Log Loss units can be placed in parallel for labels with more than two possible values.)
  • The model has a linear architecture, not a deep neural network. However, the remainder of this definition also applies to deep models that predict probabilities for categorical labels.

For example, consider a logistic regression model that calculates the probability of an input email being either spam or not spam. During inference, suppose the model predicts 0.72. Therefore, the model is estimating:

  • A 72% chance of the email being spam.
  • A 28% chance of the email not being spam.

A logistic regression model uses the following two-step architecture:

  1. The model generates a raw prediction (y') by applying a linear function of input features.
  2. The model uses that raw prediction as input to a sigmoid function , which converts the raw prediction to a value between 0 and 1, exclusive.

Like any regression model, a logistic regression model predicts a number. However, this number typically becomes part of a binary classification model as follows:

  • If the predicted number is greater than the classification threshold , the binary classification model predicts the positive class.
  • If the predicted number is less than the classification threshold, the binary classification model predicts the negative class.

See Logistic regression in Machine Learning Crash Course for more information.

লগিট

The vector of raw (non-normalized) predictions that a classification model generates, which is ordinarily then passed to a normalization function. If the model is solving a multi-class classification problem, logits typically become an input to the softmax function. The softmax function then generates a vector of (normalized) probabilities with one value for each possible class.

লগ ক্ষতি

#মৌলিক

The loss function used in binary logistic regression .

See Logistic regression: Loss and regularization in Machine Learning Crash Course for more information.

log-odds

#মৌলিক

The logarithm of the odds of some event.

লং শর্ট-টার্ম মেমরি (LSTM)

#সেক

A type of cell in a recurrent neural network used to process sequences of data in applications such as handwriting recognition, machine translation , and image captioning. LSTMs address the vanishing gradient problem that occurs when training RNNs due to long data sequences by maintaining history in an internal memory state based on new input and context from previous cells in the RNN.

LoRA

#language
#generativeAI

Abbreviation for Low-Rank Adaptability .

ক্ষতি

#মৌলিক
#মেট্রিক

During the training of a supervised model , a measure of how far a model's prediction is from its label .

A loss function calculates the loss.

See Linear regression: Loss in Machine Learning Crash Course for more information.

loss aggregator

A type of machine learning algorithm that improves the performance of a model by combining the predictions of multiple models and using those predictions to make a single prediction. As a result, a loss aggregator can reduce the variance of the predictions and improve the accuracy of the predictions.

loss curve

#মৌলিক

A plot of loss as a function of the number of training iterations . The following plot shows a typical loss curve:

A Cartesian graph of loss versus training iterations, showing a
          rapid drop in loss for the initial iterations, followed by a gradual
          drop, and then a flat slope during the final iterations.

Loss curves can help you determine when your model is converging or overfitting .

Loss curves can plot all of the following types of loss:

See also generalization curve .

See Overfitting: Interpreting loss curves in Machine Learning Crash Course for more information.

ক্ষতি ফাংশন

#মৌলিক
#মেট্রিক

During training or testing, a mathematical function that calculates the loss on a batch of examples. A loss function returns a lower loss for models that makes good predictions than for models that make bad predictions.

The goal of training is typically to minimize the loss that a loss function returns.

Many different kinds of loss functions exist. Pick the appropriate loss function for the kind of model you are building. যেমন:

loss surface

A graph of weight(s) versus loss. Gradient descent aims to find the weight(s) for which the loss surface is at a local minimum.

Low-Rank Adaptability (LoRA)

#language
#generativeAI

A parameter-efficient technique for fine tuning that "freezes" the model's pre-trained weights (such that they can no longer be modified) and then inserts a small set of trainable weights into the model. This set of trainable weights (also known as "update matrixes") is considerably smaller than the base model and is therefore much faster to train.

LoRA provides the following benefits:

  • Improves the quality of a model's predictions for the domain where the fine tuning is applied.
  • Fine-tunes faster than techniques that require fine-tuning all of a model's parameters.
  • Reduces the computational cost of inference by enabling concurrent serving of multiple specialized models sharing the same base model.

এলএসটিএম

#সেক

Abbreviation for Long Short-Term Memory .

এম

মেশিন লার্নিং

#মৌলিক

A program or system that trains a model from input data. The trained model can make useful predictions from new (never-before-seen) data drawn from the same distribution as the one used to train the model.

Machine learning also refers to the field of study concerned with these programs or systems.

See the Introduction to Machine Learning course for more information.

মেশিন অনুবাদ

#generativeAI

Using software (typically, a machine learning model) to convert text from one human language to another human language, for example, from English to Japanese.

majority class

#মৌলিক

The more common label in a class-imbalanced dataset . For example, given a dataset containing 99% negative labels and 1% positive labels, the negative labels are the majority class.

Contrast with minority class .

ডেটাসেটগুলি দেখুন: আরও তথ্যের জন্য মেশিন লার্নিং ক্র্যাশ কোর্সে ভারসাম্যহীন ডেটাসেটগুলি

মার্কভ সিদ্ধান্ত প্রক্রিয়া (MDP)

#আরএল

A graph representing the decision-making model where decisions (or actions ) are taken to navigate a sequence of states under the assumption that the Markov property holds. In reinforcement learning , these transitions between states return a numerical reward .

মার্কভ সম্পত্তি

#আরএল

A property of certain environments , where state transitions are entirely determined by information implicit in the current state and the agent's action .

masked language model

#language

A language model that predicts the probability of candidate tokens to fill in blanks in a sequence. For example, a masked language model can calculate probabilities for candidate word(s) to replace the underline in the following sentence:

The ____ in the hat came back.

The literature typically uses the string "MASK" instead of an underline. যেমন:

The "MASK" in the hat came back.

Most modern masked language models are bidirectional .

matplotlib

An open-source Python 2D plotting library. matplotlib helps you visualize different aspects of machine learning.

ম্যাট্রিক্স ফ্যাক্টরাইজেশন

#রিসিস্টেম

In math, a mechanism for finding the matrixes whose dot product approximates a target matrix.

In recommendation systems , the target matrix often holds users' ratings on items . For example, the target matrix for a movie recommendation system might look something like the following, where the positive integers are user ratings and 0 means that the user didn't rate the movie:

কাসাব্লাঙ্কা ফিলাডেলফিয়ার গল্প ব্ল্যাক প্যান্থার ওয়ান্ডার ওম্যান পাল্প ফিকশন
ব্যবহারকারী 1 5.0 3.0 0.0 2.0 0.0
ব্যবহারকারী 2 4.0 0.0 0.0 1.0 5.0
ব্যবহারকারী 3 3.0 1.0 4.0 5.0 0.0

The movie recommendation system aims to predict user ratings for unrated movies. For example, will User 1 like Black Panther ?

One approach for recommendation systems is to use matrix factorization to generate the following two matrixes:

  • A user matrix , shaped as the number of users X the number of embedding dimensions.
  • An item matrix , shaped as the number of embedding dimensions X the number of items.

For example, using matrix factorization on our three users and five items could yield the following user matrix and item matrix:

User Matrix                 Item Matrix

1.1   2.3           0.9   0.2   1.4    2.0   1.2
0.6   2.0           1.7   1.2   1.2   -0.1   2.1
2.5   0.5

The dot product of the user matrix and item matrix yields a recommendation matrix that contains not only the original user ratings but also predictions for the movies that each user hasn't seen. For example, consider User 1's rating of Casablanca , which was 5.0. The dot product corresponding to that cell in the recommendation matrix should hopefully be around 5.0, and it is:

(1.1 * 0.9) + (2.3 * 1.7) = 4.9

More importantly, will User 1 like Black Panther ? Taking the dot product corresponding to the first row and the third column yields a predicted rating of 4.3:

(1.1 * 1.4) + (2.3 * 1.2) = 4.3

Matrix factorization typically yields a user matrix and item matrix that, together, are significantly more compact than the target matrix.

গড় পরম ত্রুটি (MAE)

#মেট্রিক

The average loss per example when L 1 loss is used. Calculate Mean Absolute Error as follows:

  1. Calculate the L 1 loss for a batch.
  2. Divide the L 1 loss by the number of examples in the batch.

For example, consider the calculation of L 1 loss on the following batch of five examples:

Actual value of example Model's predicted value Loss (difference between actual and predicted)
7 6 1
5 4 1
8 11 3
4 6 2
9 8 1
8 = L 1 loss

So, L 1 loss is 8 and the number of examples is 5. Therefore, the Mean Absolute Error is:

Mean Absolute Error = L1 loss / Number of Examples
Mean Absolute Error = 8/5 = 1.6

Contrast Mean Absolute Error with Mean Squared Error and Root Mean Squared Error .

mean average precision at k (mAP@k)

#language
#generativeAI
#মেট্রিক

The statistical mean of all average precision at k scores across a validation dataset. One use of mean average precision at k is to judge the quality of recommendations generated by a recommendation system .

Although the phrase "mean average" sounds redundant, the name of the metric is appropriate. After all, this metric finds the mean of multiple average precision at k values.

গড় বর্গাকার ত্রুটি (MSE)

#মেট্রিক

The average loss per example when L 2 loss is used. Calculate Mean Squared Error as follows:

  1. Calculate the L 2 loss for a batch.
  2. Divide the L 2 loss by the number of examples in the batch.

For example, consider the loss on the following batch of five examples:

প্রকৃত মান Model's prediction ক্ষতি Squared loss
7 6 1 1
5 4 1 1
8 11 3 9
4 6 2 4
9 8 1 1
16 = L 2 loss

Therefore, the Mean Squared Error is:

Mean Squared Error = L2 loss / Number of Examples
Mean Squared Error = 16/5 = 3.2

Mean Squared Error is a popular training optimizer , particularly for linear regression .

Contrast Mean Squared Error with Mean Absolute Error and Root Mean Squared Error .

TensorFlow Playground uses Mean Squared Error to calculate loss values.

জাল

#টেনসরফ্লো
#GoogleCloud

In ML parallel programming, a term associated with assigning the data and model to TPU chips, and defining how these values will be sharded or replicated.

Mesh is an overloaded term that can mean either of the following:

  • A physical layout of TPU chips.
  • An abstract logical construct for mapping the data and model to the TPU chips.

In either case, a mesh is specified as a shape .

মেটা-লার্নিং

#language

A subset of machine learning that discovers or improves a learning algorithm. A meta-learning system can also aim to train a model to quickly learn a new task from a small amount of data or from experience gained in previous tasks. Meta-learning algorithms generally try to achieve the following:

  • Improve or learn hand-engineered features (such as an initializer or an optimizer).
  • Be more data-efficient and compute-efficient.
  • Improve generalization.

Meta-learning is related to few-shot learning .

মেট্রিক

#টেনসরফ্লো
#মেট্রিক

A statistic that you care about.

An objective is a metric that a machine learning system tries to optimize.

Metrics API (tf.metrics)

#মেট্রিক

A TensorFlow API for evaluating models. For example, tf.metrics.accuracy determines how often a model's predictions match labels.

মিনি-ব্যাচ

#মৌলিক

A small, randomly selected subset of a batch processed in one iteration . The batch size of a mini-batch is usually between 10 and 1,000 examples.

For example, suppose the entire training set (the full batch) consists of 1,000 examples. Further suppose that you set the batch size of each mini-batch to 20. Therefore, each iteration determines the loss on a random 20 of the 1,000 examples and then adjusts the weights and biases accordingly.

It is much more efficient to calculate the loss on a mini-batch than the loss on all the examples in the full batch.

আরও তথ্যের জন্য লিনিয়ার রিগ্রেশন: মেশিন লার্নিং ক্র্যাশ কোর্সে হাইপারপ্যারামিটার দেখুন।

mini-batch stochastic gradient descent

A gradient descent algorithm that uses mini-batches . In other words, mini-batch stochastic gradient descent estimates the gradient based on a small subset of the training data. Regular stochastic gradient descent uses a mini-batch of size 1.

minimax loss

#মেট্রিক

A loss function for generative adversarial networks , based on the cross-entropy between the distribution of generated data and real data.

Minimax loss is used in the first paper to describe generative adversarial networks.

See Loss Functions in the Generative Adversarial Networks course for more information.

minority class

#মৌলিক

The less common label in a class-imbalanced dataset . For example, given a dataset containing 99% negative labels and 1% positive labels, the positive labels are the minority class.

Contrast with majority class .

ডেটাসেটগুলি দেখুন: আরও তথ্যের জন্য মেশিন লার্নিং ক্র্যাশ কোর্সে ভারসাম্যহীন ডেটাসেটগুলি

mixture of experts

#language
#generativeAI

A scheme to increase neural network efficiency by using only a subset of its parameters (known as an expert ) to process a given input token or example . A gating network routes each input token or example to the proper expert(s).

For details, see either of the following papers:

এমএল

Abbreviation for machine learning .

এমএমআইটি

#language
#ছবি
#generativeAI

Abbreviation for multimodal instruction-tuned .

MNIST

#ছবি

A public-domain dataset compiled by LeCun, Cortes, and Burges containing 60,000 images, each image showing how a human manually wrote a particular digit from 0–9. Each image is stored as a 28x28 array of integers, where each integer is a grayscale value between 0 and 255, inclusive.

MNIST is a canonical dataset for machine learning, often used to test new machine learning approaches. For details, see The MNIST Database of Handwritten Digits .

পদ্ধতি

#language

A high-level data category. For example, numbers, text, images, video, and audio are five different modalities.

মডেল

#মৌলিক

In general, any mathematical construct that processes input data and returns output. Phrased differently, a model is the set of parameters and structure needed for a system to make predictions. In supervised machine learning , a model takes an example as input and infers a prediction as output. Within supervised machine learning, models differ somewhat. যেমন:

  • A linear regression model consists of a set of weights and a bias .
  • A neural network model consists of:
    • A set of hidden layers , each containing one or more neurons .
    • The weights and bias associated with each neuron.
  • A decision tree model consists of:
    • The shape of the tree; that is, the pattern in which the conditions and leaves are connected.
    • The conditions and leaves.

You can save, restore, or make copies of a model.

Unsupervised machine learning also generates models, typically a function that can map an input example to the most appropriate cluster .

model capacity

#মেট্রিক

The complexity of problems that a model can learn. The more complex the problems that a model can learn, the higher the model's capacity. A model's capacity typically increases with the number of model parameters. For a formal definition of classification model capacity, see VC dimension .

model cascading

#generativeAI

A system that picks the ideal model for a specific inference query.

Imagine a group of models, ranging from very large (lots of parameters ) to much smaller (far fewer parameters). Very large models consume more computational resources at inference time than smaller models. However, very large models can typically infer more complex requests than smaller models. Model cascading determines the complexity of the inference query and then picks the appropriate model to perform the inference. The main motivation for model cascading is to reduce inference costs by generally selecting smaller models, and only selecting a larger model for more complex queries.

Imagine that a small model runs on a phone and a larger version of that model runs on a remote server. Good model cascading reduces cost and latency by enabling the smaller model to handle simple requests and only calling the remote model to handle complex requests.

See also model router .

model parallelism

#language

A way of scaling training or inference that puts different parts of one model on different devices . Model parallelism enables models that are too big to fit on a single device.

To implement model parallelism, a system typically does the following:

  1. Shards (divides) the model into smaller parts.
  2. Distributes the training of those smaller parts across multiple processors. Each processor trains its own part of the model.
  3. Combines the results to create a single model.

Model parallelism slows training.

See also data parallelism .

model router

#generativeAI

The algorithm that determines the ideal model for inference in model cascading . A model router is itself typically a machine learning model that gradually learns how to pick the best model for a given input. However, a model router could sometimes be a simpler, non-machine learning algorithm.

মডেল প্রশিক্ষণ

The process of determining the best model .

MOE

#language
#ছবি
#generativeAI

Abbreviation for mixture of experts .

গতিবেগ

A sophisticated gradient descent algorithm in which a learning step depends not only on the derivative in the current step, but also on the derivatives of the step(s) that immediately preceded it. Momentum involves computing an exponentially weighted moving average of the gradients over time, analogous to momentum in physics. Momentum sometimes prevents learning from getting stuck in local minima.

এমটি

#generativeAI

Abbreviation for machine translation .

বহু-শ্রেণীর শ্রেণীবিভাগ

#মৌলিক

In supervised learning, a classification problem in which the dataset contains more than two classes of labels. For example, the labels in the Iris dataset must be one of the following three classes:

  • আইরিস সেটোসা
  • Iris virginica
  • আইরিস ভার্সিকলার

A model trained on the Iris dataset that predicts Iris type on new examples is performing multi-class classification.

In contrast, classification problems that distinguish between exactly two classes are binary classification models . For example, an email model that predicts either spam or not spam is a binary classification model.

In clustering problems, multi-class classification refers to more than two clusters.

See Neural networks: Multi-class classification in Machine Learning Crash Course for more information.

multi-class logistic regression

Using logistic regression in multi-class classification problems.

multi-head self-attention

#language

An extension of self-attention that applies the self-attention mechanism multiple times for each position in the input sequence.

Transformers introduced multi-head self-attention.

multimodal instruction-tuned

#language

An instruction-tuned model that can process input beyond text, such as images, video, and audio.

multimodal model

#language

A model whose inputs, outputs, or both include more than one modality . For example, consider a model that takes both an image and a text caption (two modalities) as features , and outputs a score indicating how appropriate the text caption is for the image. So, this model's inputs are multimodal and the output is unimodal.

multinomial classification

Synonym for multi-class classification .

মাল্টিনমিয়াল রিগ্রেশন

Synonym for multi-class logistic regression .

মাল্টিটাস্ক

A machine learning technique in which a single model is trained to perform multiple tasks .

Multitask models are created by training on data that is appropriate for each of the different tasks. This allows the model to learn to share information across the tasks, which helps the model learn more effectively.

A model trained for multiple tasks often has improved generalization abilities and can be more robust at handling different types of data.

এন

NaN trap

When one number in your model becomes a NaN during training, which causes many or all other numbers in your model to eventually become a NaN.

NaN is an abbreviation for N ot a N umber.

প্রাকৃতিক ভাষা প্রক্রিয়াকরণ

#language
The field of teaching computers to process what a user said or typed using linguistic rules. Almost all modern natural language processing relies on machine learning.

প্রাকৃতিক ভাষা বোঝা

#language

A subset of natural language processing that determines the intentions of something said or typed. Natural language understanding can go beyond natural language processing to consider complex aspects of language like context, sarcasm, and sentiment.

negative class

#মৌলিক
#মেট্রিক

In binary classification , one class is termed positive and the other is termed negative . The positive class is the thing or event that the model is testing for and the negative class is the other possibility. যেমন:

  • The negative class in a medical test might be "not tumor."
  • The negative class in an email classification model might be "not spam."

Contrast with positive class .

negative sampling

Synonym for candidate sampling .

নিউরাল আর্কিটেকচার সার্চ (NAS)

A technique for automatically designing the architecture of a neural network . NAS algorithms can reduce the amount of time and resources required to train a neural network.

NAS typically uses:

  • A search space, which is a set of possible architectures.
  • A fitness function, which is a measure of how well a particular architecture performs on a given task.

NAS algorithms often start with a small set of possible architectures and gradually expand the search space as the algorithm learns more about what architectures are effective. The fitness function is typically based on the performance of the architecture on a training set, and the algorithm is typically trained using a reinforcement learning technique.

NAS algorithms have proven effective in finding high-performing architectures for a variety of tasks, including image classification , text classification, and machine translation .

নিউরাল নেটওয়ার্ক

#মৌলিক

A model containing at least one hidden layer . A deep neural network is a type of neural network containing more than one hidden layer. For example, the following diagram shows a deep neural network containing two hidden layers.

A neural network with an input layer, two hidden layers, and an
          output layer.

Each neuron in a neural network connects to all of the nodes in the next layer. For example, in the preceding diagram, notice that each of the three neurons in the first hidden layer separately connect to both of the two neurons in the second hidden layer.

Neural networks implemented on computers are sometimes called artificial neural networks to differentiate them from neural networks found in brains and other nervous systems.

Some neural networks can mimic extremely complex nonlinear relationships between different features and the label.

See also convolutional neural network and recurrent neural network .

আরও তথ্যের জন্য মেশিন লার্নিং ক্র্যাশ কোর্সে নিউরাল নেটওয়ার্ক দেখুন।

নিউরন

#মৌলিক

In machine learning, a distinct unit within a hidden layer of a neural network . Each neuron performs the following two-step action:

  1. Calculates the weighted sum of input values multiplied by their corresponding weights.
  2. Passes the weighted sum as input to an activation function .

A neuron in the first hidden layer accepts inputs from the feature values in the input layer . A neuron in any hidden layer beyond the first accepts inputs from the neurons in the preceding hidden layer. For example, a neuron in the second hidden layer accepts inputs from the neurons in the first hidden layer.

The following illustration highlights two neurons and their inputs.

A neural network with an input layer, two hidden layers, and an           output layer. Two neurons are highlighted: one in the first           hidden layer and one in the second hidden layer. The highlighted           neuron in the first hidden layer receives inputs from both features           in the input layer. The highlighted neuron in the second hidden layer           receives inputs from each of the three neurons in the first hidden           স্তর

A neuron in a neural network mimics the behavior of neurons in brains and other parts of nervous systems.

এন-গ্রাম

#সেক
#language

An ordered sequence of N words. For example, truly madly is a 2-gram. Because order is relevant, madly truly is a different 2-gram than truly madly .

এন Name(s) for this kind of N-gram উদাহরণ
2 bigram or 2-gram to go, go to, eat lunch, eat dinner
3 trigram or 3-gram ate too much, happily ever after, the bell tolls
4 4-gram walk in the park, dust in the wind, the boy ate lentils

Many natural language understanding models rely on N-grams to predict the next word that the user will type or say. For example, suppose a user typed happily ever . An NLU model based on trigrams would likely predict that the user will next type the word after .

Contrast N-grams with bag of words , which are unordered sets of words.

আরও তথ্যের জন্য মেশিন লার্নিং ক্র্যাশ কোর্সে বড় ভাষার মডেলগুলি দেখুন।

এনএলপি

#language

Abbreviation for natural language processing .

এনএলইউ

#language

Abbreviation for natural language understanding .

node (decision tree)

#df

In a decision tree , any condition or leaf .

A decision tree with two conditions and three leaves.

See Decision Trees in the Decision Forests course for more information.

node (neural network)

#মৌলিক

A neuron in a hidden layer .

See Neural Networks in Machine Learning Crash Course for more information.

node (TensorFlow graph)

#টেনসরফ্লো

An operation in a TensorFlow graph .

গোলমাল

Broadly speaking, anything that obscures the signal in a dataset. Noise can be introduced into data in a variety of ways. যেমন:

  • Human raters make mistakes in labeling.
  • Humans and instruments mis-record or omit feature values.

non-binary condition

#df

A condition containing more than two possible outcomes. For example, the following non-binary condition contains three possible outcomes:

A condition (number_of_legs = ?) that leads to three possible           ফলাফল One outcome (number_of_legs = 8) leads to a leaf           named spider. A second outcome (number_of_legs = 4) leads to           a leaf named dog. A third outcome (number_of_legs = 2) leads to           a leaf named penguin.

আরও তথ্যের জন্য ডিসিশন ফরেস্ট কোর্সে শর্তের প্রকার দেখুন।

অরৈখিক

#মৌলিক

A relationship between two or more variables that can't be represented solely through addition and multiplication. A linear relationship can be represented as a line; a nonlinear relationship can't be represented as a line. For example, consider two models that each relate a single feature to a single label. The model on the left is linear and the model on the right is nonlinear:

দুটি প্লট। One plot is a line, so this is a linear relationship.           The other plot is a curve, so this is a nonlinear relationship.

See Neural networks: Nodes and hidden layers in Machine Learning Crash Course to experiment with different kinds of nonlinear functions.

অ-প্রতিক্রিয়া পক্ষপাত

#responsible

নির্বাচন পক্ষপাত দেখুন।

অস্থিরতা

#মৌলিক

A feature whose values change across one or more dimensions, usually time. For example, consider the following examples of nonstationarity:

  • The number of swimsuits sold at a particular store varies with the season.
  • The quantity of a particular fruit harvested in a particular region is zero for much of the year but large for a brief period.
  • Due to climate change, annual mean temperatures are shifting.

Contrast with stationarity .

no one right answer (NORA)

#language
#generativeAI

A prompt having multiple appropriate responses. For example, the following prompt has no one right answer:

Tell me a joke about elephants.

Evaluating no-one-right-answer prompts can be challenging.

নোরা

#language
#generativeAI

Abbreviation for no one right answer .

স্বাভাবিকীকরণ

#মৌলিক

Broadly speaking, the process of converting a variable's actual range of values into a standard range of values, such as:

  • -1 থেকে +1
  • 0 থেকে 1
  • Z-scores (roughly, -3 to +3)

For example, suppose the actual range of values of a certain feature is 800 to 2,400. As part of feature engineering , you could normalize the actual values down to a standard range, such as -1 to +1.

Normalization is a common task in feature engineering . Models usually train faster (and produce better predictions) when every numerical feature in the feature vector has roughly the same range.

See also Z-score normalization .

See Numerical Data: Normalization in Machine Learning Crash Course for more information.

novelty detection

The process of determining whether a new (novel) example comes from the same distribution as the training set . In other words, after training on the training set, novelty detection determines whether a new example (during inference or during additional training) is an outlier .

Contrast with outlier detection .

সংখ্যাসূচক তথ্য

#মৌলিক

Features represented as integers or real-valued numbers. For example, a house valuation model would probably represent the size of a house (in square feet or square meters) as numerical data. Representing a feature as numerical data indicates that the feature's values have a mathematical relationship to the label. That is, the number of square meters in a house probably has some mathematical relationship to the value of the house.

Not all integer data should be represented as numerical data. For example, postal codes in some parts of the world are integers; however, integer postal codes shouldn't be represented as numerical data in models. That's because a postal code of 20000 is not twice (or half) as potent as a postal code of 10000. Furthermore, although different postal codes do correlate to different real estate values, we can't assume that real estate values at postal code 20000 are twice as valuable as real estate values at postal code 10000. Postal codes should be represented as categorical data instead.

Numerical features are sometimes called continuous features .

See Working with numerical data in Machine Learning Crash Course for more information.

NumPy

An open-source math library that provides efficient array operations in Python. pandas is built on NumPy.

উদ্দেশ্য

#মেট্রিক

A metric that your algorithm is trying to optimize.

objective function

#মেট্রিক

The mathematical formula or metric that a model aims to optimize. For example, the objective function for linear regression is usually Mean Squared Loss . Therefore, when training a linear regression model, training aims to minimize Mean Squared Loss.

In some cases, the goal is to maximize the objective function. For example, if the objective function is accuracy, the goal is to maximize accuracy.

See also loss .

oblique condition

#df

In a decision tree , a condition that involves more than one feature . For example, if height and width are both features, then the following is an oblique condition:

  height > width

Contrast with axis-aligned condition .

আরও তথ্যের জন্য ডিসিশন ফরেস্ট কোর্সে শর্তের প্রকার দেখুন।

অফলাইন

#মৌলিক

Synonym for static .

offline inference

#মৌলিক

The process of a model generating a batch of predictions and then caching (saving) those predictions. Apps can then access the inferred prediction from the cache rather than rerunning the model.

For example, consider a model that generates local weather forecasts (predictions) once every four hours. After each model run, the system caches all the local weather forecasts. Weather apps retrieve the forecasts from the cache.

Offline inference is also called static inference .

Contrast with online inference .

আরও তথ্যের জন্য মেশিন লার্নিং ক্র্যাশ কোর্সে প্রোডাকশন এমএল সিস্টেম: স্ট্যাটিক বনাম গতিশীল অনুমান দেখুন।

এক-গরম এনকোডিং

#মৌলিক

Representing categorical data as a vector in which:

  • One element is set to 1.
  • All other elements are set to 0.

One-hot encoding is commonly used to represent strings or identifiers that have a finite set of possible values. For example, suppose a certain categorical feature named Scandinavia has five possible values:

  • "Denmark"
  • "সুইডেন"
  • "নরওয়ে"
  • "Finland"
  • "আইসল্যান্ড"

One-hot encoding could represent each of the five values as follows:

দেশ ভেক্টর
"Denmark" 1 0 0 0 0
"সুইডেন" 0 1 0 0 0
"নরওয়ে" 0 0 1 0 0
"Finland" 0 0 0 1 0
"আইসল্যান্ড" 0 0 0 0 1

Thanks to one-hot encoding, a model can learn different connections based on each of the five countries.

Representing a feature as numerical data is an alternative to one-hot encoding. Unfortunately, representing the Scandinavian countries numerically is not a good choice. For example, consider the following numeric representation:

  • "Denmark" is 0
  • "Sweden" is 1
  • "Norway" is 2
  • "Finland" is 3
  • "Iceland" is 4

With numeric encoding, a model would interpret the raw numbers mathematically and would try to train on those numbers. However, Iceland isn't actually twice as much (or half as much) of something as Norway, so the model would come to some strange conclusions.

See Categorical data: Vocabulary and one-hot encoding in Machine Learning Crash Course for more information.

one-shot learning

A machine learning approach, often used for object classification, designed to learn effective classification model from a single training example.

See also few-shot learning and zero-shot learning .

one-shot prompting

#language
#generativeAI

A prompt that contains one example demonstrating how the large language model should respond. For example, the following prompt contains one example showing a large language model how it should answer a query.

Parts of one prompt নোট
What is the official currency of the specified country? The question you want the LLM to answer.
France: EUR একটি উদাহরণ.
ভারত: The actual query.

Compare and contrast one-shot prompting with the following terms:

one-vs.-all

#মৌলিক

Given a classification problem with N classes, a solution consisting of N separate binary classifiers —one binary classifier for each possible outcome. For example, given a model that classifies examples as animal, vegetable, or mineral, a one-vs.-all solution would provide the following three separate binary classifiers:

  • animal versus not animal
  • vegetable versus not vegetable
  • mineral versus not mineral

অনলাইন

#মৌলিক

Synonym for dynamic .

online inference

#মৌলিক

Generating predictions on demand. For example, suppose an app passes input to a model and issues a request for a prediction. A system using online inference responds to the request by running the model (and returning the prediction to the app).

Contrast with offline inference .

আরও তথ্যের জন্য মেশিন লার্নিং ক্র্যাশ কোর্সে প্রোডাকশন এমএল সিস্টেম: স্ট্যাটিক বনাম গতিশীল অনুমান দেখুন।

operation (op)

#টেনসরফ্লো

In TensorFlow, any procedure that creates, manipulates, or destroys a Tensor . For example, a matrix multiply is an operation that takes two Tensors as input and generates one Tensor as output.

Optax

A gradient processing and optimization library for JAX . Optax facilitates research by providing building blocks that can be recombined in custom ways to optimize parametric models such as deep neural networks. Other goals include:

  • Providing readable, well-tested, efficient implementations of core components.
  • Improving productivity by making it possible to combine low level ingredients into custom optimizers (or other gradient processing components).
  • Accelerating adoption of new ideas by making it easy for anyone to contribute.

অপ্টিমাইজার

A specific implementation of the gradient descent algorithm. Popular optimizers include:

  • AdaGrad , which stands for ADAptive GRADient descent.
  • Adam, which stands for ADAptive with Momentum.

আউট-গ্রুপ একজাতীয়তা পক্ষপাত

#responsible

The tendency to see out-group members as more alike than in-group members when comparing attitudes, values, personality traits, and other characteristics. In-group refers to people you interact with regularly; out-group refers to people you don't interact with regularly. If you create a dataset by asking people to provide attributes about out-groups, those attributes may be less nuanced and more stereotyped than attributes that participants list for people in their in-group.

For example, Lilliputians might describe the houses of other Lilliputians in great detail, citing small differences in architectural styles, windows, doors, and sizes. However, the same Lilliputians might simply declare that Brobdingnagians all live in identical houses.

Out-group homogeneity bias is a form of group attribution bias .

See also in-group bias .

বহিরাগত সনাক্তকরণ

The process of identifying outliers in a training set .

Contrast with novelty detection .

বহিরাগত

Values distant from most other values. In machine learning, any of the following are outliers:

  • Input data whose values are more than roughly 3 standard deviations from the mean.
  • Weights with high absolute values.
  • Predicted values relatively far away from the actual values.

For example, suppose that widget-price is a feature of a certain model. Assume that the mean widget-price is 7 Euros with a standard deviation of 1 Euro. Examples containing a widget-price of 12 Euros or 2 Euros would therefore be considered outliers because each of those prices is five standard deviations from the mean.

Outliers are often caused by typos or other input mistakes. In other cases, outliers aren't mistakes; after all, values five standard deviations away from the mean are rare but hardly impossible.

Outliers often cause problems in model training. Clipping is one way of managing outliers.

See Working with numerical data in Machine Learning Crash Course for more information.

out-of-bag evaluation (OOB evaluation)

#df

A mechanism for evaluating the quality of a decision forest by testing each decision tree against the examples not used during training of that decision tree. For example, in the following diagram, notice that the system trains each decision tree on about two-thirds of the examples and then evaluates against the remaining one-third of the examples.

A decision forest consisting of three decision trees.
          One decision tree trains on two-thirds of the examples
          and then uses the remaining one-third for OOB evaluation.
          A second decision tree trains on a different two-thirds
          of the examples than the previous decision tree, and then
          uses a different one-third for OOB evaluation than the
          previous decision tree.

Out-of-bag evaluation is a computationally efficient and conservative approximation of the cross-validation mechanism. In cross-validation, one model is trained for each cross-validation round (for example, 10 models are trained in a 10-fold cross-validation). With OOB evaluation, a single model is trained. Because bagging withholds some data from each tree during training, OOB evaluation can use that data to approximate cross-validation.

See Out-of-bag evaluation in the Decision Forests course for more information.

আউটপুট স্তর

#মৌলিক

The "final" layer of a neural network. The output layer contains the prediction.

The following illustration shows a small deep neural network with an input layer, two hidden layers, and an output layer:

A neural network with one input layer, two hidden layers, and one           output layer. The input layer consists of two features. প্রথম           hidden layer consists of three neurons and the second hidden layer           consists of two neurons. The output layer consists of a single node.

ওভারফিটিং

#মৌলিক

Creating a model that matches the training data so closely that the model fails to make correct predictions on new data.

Regularization can reduce overfitting. Training on a large and diverse training set can also reduce overfitting.

See Overfitting in Machine Learning Crash Course for more information.

oversampling

Reusing the examples of a minority class in a class-imbalanced dataset in order to create a more balanced training set .

For example, consider a binary classification problem in which the ratio of the majority class to the minority class is 5,000:1. If the dataset contains a million examples, then the dataset contains only about 200 examples of the minority class, which might be too few examples for effective training. To overcome this deficiency, you might oversample (reuse) those 200 examples multiple times, possibly yielding sufficient examples for useful training.

You need to be careful about over overfitting when oversampling.

Contrast with undersampling .

পৃ

packed data

An approach for storing data more efficiently.

Packed data stores data either by using a compressed format or in some other way that allows it to be accessed more efficiently. Packed data minimizes the amount of memory and computation required to access it, leading to faster training and more efficient model inference.

Packed data is often used with other techniques, such as data augmentation and regularization , further improving the performance of models .

পান্ডা

#মৌলিক

A column-oriented data analysis API built on top of numpy . Many machine learning frameworks, including TensorFlow, support pandas data structures as inputs. See the pandas documentation for details.

প্যারামিটার

#মৌলিক

The weights and biases that a model learns during training . For example, in a linear regression model, the parameters consist of the bias ( b ) and all the weights ( w 1 , w 2 , and so on) in the following formula:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

In contrast, hyperparameters are the values that you (or a hyperparameter tuning service) supply to the model. For example, learning rate is a hyperparameter.

parameter-efficient tuning

#language
#generativeAI

A set of techniques to fine-tune a large pre-trained language model (PLM) more efficiently than full fine-tuning . Parameter-efficient tuning typically fine-tunes far fewer parameters than full fine-tuning, yet generally produces a large language model that performs as well (or almost as well) as a large language model built from full fine-tuning.

Compare and contrast parameter-efficient tuning with:

Parameter-efficient tuning is also known as parameter-efficient fine-tuning .

Parameter Server (PS)

#টেনসরফ্লো

A job that keeps track of a model's parameters in a distributed setting.

parameter update

The operation of adjusting a model's parameters during training, typically within a single iteration of gradient descent .

আংশিক ডেরিভেটিভ

A derivative in which all but one of the variables is considered a constant. For example, the partial derivative of f(x, y) with respect to x is the derivative of f considered as a function of x alone (that is, keeping y constant). The partial derivative of f with respect to x focuses only on how x is changing and ignores all other variables in the equation.

অংশগ্রহণের পক্ষপাতিত্ব

#responsible

Synonym for non-response bias. নির্বাচন পক্ষপাত দেখুন।

partitioning strategy

The algorithm by which variables are divided across parameter servers .

pass at k (pass@k)

#মেট্রিক

A metric to determine the quality of code (for example, Python) that a large language model generates. More specifically, pass at k tells you the likelihood that at least one generated block of code out of k generated blocks of code will pass all of its unit tests.

Large language models often struggle to generate good code for complex programming problems. Software engineers adapt to this problem by prompting the large language model to generate multiple ( k ) solutions for the same problem. Then, software engineers test each of the solutions against unit tests. The calculation of pass at k depends on the outcome of the unit tests:

  • If one or more of those solutions pass the unit test, then the LLM Passes that code generation challenge.
  • If none of the solutions pass the unit test, then the LLM Fails that code generation challenge.

The formula for pass at k is as follows:

\[\text{pass at k} = \frac{\text{total number of passes}} {\text{total number of challenges}}\]

In general, higher values of k produce higher pass at k scores; however, higher values of k require more large language model and unit testing resources.

প্যাক্স

A programming framework designed for training large-scale neural network models so large that they span multiple TPU accelerator chip slices or pods .

Pax is built on Flax , which is built on JAX .

Diagram indicating Pax's position in the software stack.           Pax is built on top of JAX. Pax itself consists of three           স্তর The bottom layer contains TensorStore and Flax.           The middle layer contains Optax and Flaxformer. শীর্ষ           layer contains Praxis Modeling Library. Fiddle is built           on top of Pax.

perceptron

A system (either hardware or software) that takes in one or more input values, runs a function on the weighted sum of the inputs, and computes a single output value. In machine learning, the function is typically nonlinear, such as ReLU , sigmoid , or tanh . For example, the following perceptron relies on the sigmoid function to process three input values:

$$f(x_1, x_2, x_3) = \text{sigmoid}(w_1 x_1 + w_2 x_2 + w_3 x_3)$$

In the following illustration, the perceptron takes three inputs, each of which is itself modified by a weight before entering the perceptron:

A perceptron that takes in 3 inputs, each multiplied by separate           ওজন The perceptron outputs a single value.

Perceptrons are the neurons in neural networks .

কর্মক্ষমতা

#মেট্রিক

Overloaded term with the following meanings:

  • The standard meaning within software engineering. Namely: How fast (or efficiently) does this piece of software run?
  • The meaning within machine learning. Here, performance answers the following question: How correct is this model ? That is, how good are the model's predictions?

permutation variable importances

#df
#মেট্রিক

A type of variable importance that evaluates the increase in the prediction error of a model after permuting the feature's values. Permutation variable importance is a model-independent metric.

বিভ্রান্তি

#মেট্রিক

One measure of how well a model is accomplishing its task. For example, suppose your task is to read the first few letters of a word a user is typing on a phone keyboard, and to offer a list of possible completion words. Perplexity, P, for this task is approximately the number of guesses you need to offer in order for your list to contain the actual word the user is trying to type.

Perplexity is related to cross-entropy as follows:

$$P= 2^{-\text{cross entropy}}$$

পাইপলাইন

The infrastructure surrounding a machine learning algorithm. A pipeline includes gathering the data, putting the data into training data files, training one or more models, and exporting the models to production.

See ML pipelines in the Managing ML Projects course for more information.

পাইপলাইন

#language

A form of model parallelism in which a model's processing is divided into consecutive stages and each stage is executed on a different device. While a stage is processing one batch, the preceding stage can work on the next batch.

See also staged training .

pjit

A JAX function that splits code to run across multiple accelerator chips . The user passes a function to pjit, which returns a function that has the equivalent semantics but is compiled into an XLA computation that runs across multiple devices (such as GPUs or TPU cores).

pjit enables users to shard computations without rewriting them by using the SPMD partitioner.

As of March 2023, pjit has been merged with jit . Refer to Distributed arrays and automatic parallelization for more details.

পিএলএম

#language
#generativeAI

Abbreviation for pre-trained language model .

pmap

A JAX function that executes copies of an input function on multiple underlying hardware devices (CPUs, GPUs, or TPUs ), with different input values. pmap relies on SPMD .

নীতি

#আরএল

In reinforcement learning, an agent's probabilistic mapping from states to actions .

পুলিং

#ছবি

Reducing a matrix (or matrixes) created by an earlier convolutional layer to a smaller matrix. Pooling usually involves taking either the maximum or average value across the pooled area. For example, suppose we have the following 3x3 matrix:

The 3x3 matrix [[5,3,1], [8,2,5], [9,4,3]].

A pooling operation, just like a convolutional operation, divides that matrix into slices and then slides that convolutional operation by strides . For example, suppose the pooling operation divides the convolutional matrix into 2x2 slices with a 1x1 stride. As the following diagram illustrates, four pooling operations take place. Imagine that each pooling operation picks the maximum value of the four in that slice:

The input matrix is 3x3 with the values: [[5,3,1], [8,2,5], [9,4,3]].
          The top-left 2x2 submatrix of the input matrix is [[5,3], [8,2]], so
          the top-left pooling operation yields the value 8 (which is the
          maximum of 5, 3, 8, and 2). The top-right 2x2 submatrix of the input
          matrix is [[3,1], [2,5]], so the top-right pooling operation yields
          the value 5. The bottom-left 2x2 submatrix of the input matrix is
          [[8,2], [9,4]], so the bottom-left pooling operation yields the value
          9. The bottom-right 2x2 submatrix of the input matrix is
          [[2,5], [4,3]], so the bottom-right pooling operation yields the value
          5. In summary, the pooling operation yields the 2x2 matrix
          [[8,5], [9,5]].

Pooling helps enforce translational invariance in the input matrix.

Pooling for vision applications is known more formally as spatial pooling . Time-series applications usually refer to pooling as temporal pooling . Less formally, pooling is often called subsampling or downsampling .

See Introducing Convolutional Neural Networks in the ML Practicum: Image Classification course.

positional encoding

#language

A technique to add information about the position of a token in a sequence to the token's embedding. Transformer models use positional encoding to better understand the relationship between different parts of the sequence.

A common implementation of positional encoding uses a sinusoidal function. (Specifically, the frequency and amplitude of the sinusoidal function are determined by the position of the token in the sequence.) This technique enables a Transformer model to learn to attend to different parts of the sequence based on their position.

positive class

#মৌলিক
#মেট্রিক

The class you are testing for.

For example, the positive class in a cancer model might be "tumor." The positive class in an email classification model might be "spam."

Contrast with negative class .

পোস্ট-প্রসেসিং

#responsible
#মৌলিক

Adjusting the output of a model after the model has been run. Post-processing can be used to enforce fairness constraints without modifying models themselves.

For example, one might apply post-processing to a binary classifier by setting a classification threshold such that equality of opportunity is maintained for some attribute by checking that the true positive rate is the same for all values of that attribute.

post-trained model

#language
#ছবি
#generativeAI

Loosely-defined term that typically refers to a pre-trained model that has gone through some post-processing, such as one or more of the following:

PR AUC (area under the PR curve)

#মেট্রিক

Area under the interpolated precision-recall curve , obtained by plotting (recall, precision) points for different values of the classification threshold .

প্র্যাক্সিস

A core, high-performance ML library of Pax . Praxis is often called the "Layer library".

Praxis contains not just the definitions for the Layer class, but most of its supporting components as well, including:

Praxis provides the definitions for the Model class.

নির্ভুলতা

#মেট্রিক

A metric for classification models that answers the following question:

When the model predicted the positive class , what percentage of the predictions were correct?

এখানে সূত্র আছে:

$$\text{Precision} = \frac{\text{true positives}} {\text{true positives} + \text{false positives}}$$

কোথায়:

  • true positive means the model correctly predicted the positive class.
  • false positive means the model mistakenly predicted the positive class.

For example, suppose a model made 200 positive predictions. Of these 200 positive predictions:

  • 150 were true positives.
  • 50 were false positives.

এই ক্ষেত্রে:

$$\text{Precision} = \frac{\text{150}} {\text{150} + \text{50}} = 0.75$$

Contrast with accuracy and recall .

আরও তথ্যের জন্য মেশিন লার্নিং ক্র্যাশ কোর্সে শ্রেণিবিন্যাস: যথার্থতা, স্মরণ, নির্ভুলতা এবং সম্পর্কিত মেট্রিক্স দেখুন।

precision at k (precision@k)

#language
#মেট্রিক

A metric for evaluating a ranked (ordered) list of items. Precision at k identifies the fraction of the first k items in that list that are "relevant." অর্থাৎ:

\[\text{precision at k} = \frac{\text{relevant items in first k items of the list}} {\text{k}}\]

The value of k must be less than or equal to the length of the returned list. Note that the length of the returned list is not part of the calculation.

Relevance is often subjective; even expert human evaluators often disagree on which items are relevant.

এর সাথে তুলনা করুন:

নির্ভুলতা-রিকল বক্ররেখা

#মেট্রিক

A curve of precision versus recall at different classification thresholds .

ভবিষ্যদ্বাণী

#মৌলিক

A model's output. যেমন:

  • The prediction of a binary classification model is either the positive class or the negative class.
  • The prediction of a multi-class classification model is one class.
  • The prediction of a linear regression model is a number.

prediction bias

#মেট্রিক

A value indicating how far apart the average of predictions is from the average of labels in the dataset.

Not to be confused with the bias term in machine learning models or with bias in ethics and fairness .

predictive ML

Any standard ("classic") machine learning system.

The term predictive ML doesn't have a formal definition. Rather, the term distinguishes a category of ML systems not based on generative AI .

predictive parity

#responsible
#মেট্রিক

A fairness metric that checks whether, for a given classifier, the precision rates are equivalent for subgroups under consideration.

For example, a model that predicts college acceptance would satisfy predictive parity for nationality if its precision rate is the same for Lilliputians and Brobdingnagians.

Predictive parity is sometime also called predictive rate parity .

See "Fairness Definitions Explained" (section 3.2.1) for a more detailed discussion of predictive parity.

predictive rate parity

#responsible
#মেট্রিক

Another name for predictive parity .

প্রিপ্রসেসিং

#responsible
Processing data before it's used to train a model. Preprocessing could be as simple as removing words from an English text corpus that don't occur in the English dictionary, or could be as complex as re-expressing data points in a way that eliminates as many attributes that are correlated with sensitive attributes as possible. Preprocessing can help satisfy fairness constraints .

pre-trained model

#language
#ছবি
#generativeAI

Typically, a model that has already been trained . The term could also mean a previously trained embedding vector .

The term pre-trained language model usually refers to an already trained large language model .

প্রাক-প্রশিক্ষণ

#language
#ছবি
#generativeAI

The initial training of a model on a large dataset. Some pre-trained models are clumsy giants and must typically be refined through additional training. For example, ML experts might pre-train a large language model on a vast text dataset, such as all the English pages in Wikipedia. Following pre-training, the resulting model might be further refined through any of the following techniques:

prior belief

What you believe about the data before you begin training on it. For example, L 2 regularization relies on a prior belief that weights should be small and normally distributed around zero.

probabilistic regression model

A regression model that uses not only the weights for each feature , but also the uncertainty of those weights. A probabilistic regression model generates a prediction and the uncertainty of that prediction. For example, a probabilistic regression model might yield a prediction of 325 with a standard deviation of 12. For more information about probabilistic regression models, see this Colab on tensorflow.org .

সম্ভাবনা ঘনত্ব ফাংশন

#মেট্রিক

A function that identifies the frequency of data samples having exactly a particular value. When a dataset's values are continuous floating-point numbers, exact matches rarely occur. However, integrating a probability density function from value x to value y yields the expected frequency of data samples between x and y .

For example, consider a normal distribution having a mean of 200 and a standard deviation of 30. To determine the expected frequency of data samples falling within the range 211.4 to 218.7, you can integrate the probability density function for a normal distribution from 211.4 to 218.7.

প্রম্পট

#language
#generativeAI

Any text entered as input to a large language model to condition the model to behave in a certain way. Prompts can be as short as a phrase or arbitrarily long (for example, the entire text of a novel). Prompts fall into multiple categories, including those shown in the following table:

Prompt category উদাহরণ নোট
প্রশ্ন How fast can a pigeon fly?
নির্দেশ Write a funny poem about arbitrage. A prompt that asks the large language model to do something.
উদাহরণ Translate Markdown code to HTML. যেমন:
Markdown: * list item
HTML: <ul> <li>list item</li> </ul>
The first sentence in this example prompt is an instruction. The remainder of the prompt is the example.
ভূমিকা Explain why gradient descent is used in machine learning training to a PhD in Physics. The first part of the sentence is an instruction; the phrase "to a PhD in Physics" is the role portion.
Partial input for the model to complete The Prime Minister of the United Kingdom lives at A partial input prompt can either end abruptly (as this example does) or end with an underscore.

A generative AI model can respond to a prompt with text, code, images, embeddings , videos…almost anything.

প্রম্পট-ভিত্তিক শেখা

#language
#generativeAI

A capability of certain models that enables them to adapt their behavior in response to arbitrary text input ( prompts ). In a typical prompt-based learning paradigm, a large language model responds to a prompt by generating text. For example, suppose a user enters the following prompt:

Summarize Newton's Third Law of Motion.

A model capable of prompt-based learning isn't specifically trained to answer the previous prompt. Rather, the model "knows" a lot of facts about physics, a lot about general language rules, and a lot about what constitutes generally useful answers. That knowledge is sufficient to provide a (hopefully) useful answer. Additional human feedback ("That answer was too complicated." or "What's a reaction?") enables some prompt-based learning systems to gradually improve the usefulness of their answers.

prompt design

#language
#generativeAI

Synonym for prompt engineering .

প্রম্পট ইঞ্জিনিয়ারিং

#language
#generativeAI

The art of creating prompts that elicit the desired responses from a large language model . Humans perform prompt engineering. Writing well-structured prompts is an essential part of ensuring useful responses from a large language model. Prompt engineering depends on many factors, including:

  • The dataset used to pre-train and possibly fine-tune the large language model.
  • The temperature and other decoding parameters that the model uses to generate responses.

Prompt design is a synonym for prompt engineering.

See Introduction to prompt design for more details on writing helpful prompts.

prompt tuning

#language
#generativeAI

A parameter efficient tuning mechanism that learns a "prefix" that the system prepends to the actual prompt .

One variation of prompt tuning—sometimes called prefix tuning —is to prepend the prefix at every layer . In contrast, most prompt tuning only adds a prefix to the input layer .

proxy (sensitive attributes)

#responsible
An attribute used as a stand-in for a sensitive attribute . For example, an individual's postal code might be used as a proxy for their income, race, or ethnicity.

proxy labels

#মৌলিক

Data used to approximate labels not directly available in a dataset.

For example, suppose you must train a model to predict employee stress level. Your dataset contains a lot of predictive features but doesn't contain a label named stress level. Undaunted, you pick "workplace accidents" as a proxy label for stress level. After all, employees under high stress get into more accidents than calm employees. নাকি তারা করে? Maybe workplace accidents actually rise and fall for multiple reasons.

As a second example, suppose you want is it raining? to be a Boolean label for your dataset, but your dataset doesn't contain rain data. If photographs are available, you might establish pictures of people carrying umbrellas as a proxy label for is it raining? Is that a good proxy label? Possibly, but people in some cultures may be more likely to carry umbrellas to protect against sun than the rain.

Proxy labels are often imperfect. When possible, choose actual labels over proxy labels. That said, when an actual label is absent, pick the proxy label very carefully, choosing the least horrible proxy label candidate.

See Datasets: Labels in Machine Learning Crash Course for more information.

বিশুদ্ধ ফাংশন

A function whose outputs are based only on its inputs, and that has no side effects. Specifically, a pure function doesn't use or change any global state, such as the contents of a file or the value of a variable outside the function.

Pure functions can be used to create thread-safe code, which is beneficial when sharding model code across multiple accelerator chips .

JAX's function transformation methods require that the input functions are pure functions.

প্র

Q-function

#আরএল

In reinforcement learning , the function that predicts the expected return from taking an action in a state and then following a given policy .

Q-function is also known as state-action value function .

প্রশ্ন-শিক্ষা

#আরএল

In reinforcement learning , an algorithm that allows an agent to learn the optimal Q-function of a Markov decision process by applying the Bellman equation . The Markov decision process models an environment .

পরিমাণ

Each bucket in quantile bucketing .

quantile bucketing

Distributing a feature's values into buckets so that each bucket contains the same (or almost the same) number of examples. For example, the following figure divides 44 points into 4 buckets, each of which contains 11 points. In order for each bucket in the figure to contain the same number of points, some buckets span a different width of x-values.

44 data points divided into 4 buckets of 11 points each.           Although each bucket contains the same number of data points,           some buckets contain a wider range of feature values than other           বালতি

আরও তথ্যের জন্য সংখ্যাসূচক ডেটা দেখুন: মেশিন লার্নিং ক্র্যাশ কোর্সে বিনিং

পরিমাপ

Overloaded term that could be used in any of the following ways:

  • Implementing quantile bucketing on a particular feature .
  • Transforming data into zeroes and ones for quicker storing, training, and inferring. As Boolean data is more robust to noise and errors than other formats, quantization can improve model correctness. Quantization techniques include rounding, truncating, and binning .
  • Reducing the number of bits used to store a model's parameters . For example, suppose a model's parameters are stored as 32-bit floating-point numbers. Quantization converts those parameters from 32 bits down to 4, 8, or 16 bits. Quantization reduces the following:

    • Compute, memory, disk, and network usage
    • Time to infer a predication
    • শক্তি খরচ

    However, quantization sometimes decreases the correctness of a model's predictions.

সারি

#টেনসরফ্লো

A TensorFlow Operation that implements a queue data structure. Typically used in I/O.

আর

RAG

#মৌলিক

Abbreviation for retrieval-augmented generation .

এলোমেলো বন

#df

An ensemble of decision trees in which each decision tree is trained with a specific random noise, such as bagging .

Random forests are a type of decision forest .

See Random Forest in the Decision Forests course for more information.

random policy

#আরএল

In reinforcement learning , a policy that chooses an action at random.

rank (ordinality)

The ordinal position of a class in a machine learning problem that categorizes classes from highest to lowest. For example, a behavior ranking system could rank a dog's rewards from highest (a steak) to lowest (wilted kale).

rank (Tensor)

#টেনসরফ্লো

The number of dimensions in a Tensor . For example, a scalar has rank 0, a vector has rank 1, and a matrix has rank 2.

Not to be confused with rank (ordinality) .

র‍্যাঙ্কিং

A type of supervised learning whose objective is to order a list of items.

রেটার

#মৌলিক

A human who provides labels for examples . "Annotator" is another name for rater.

See Categorical data: Common issues in Machine Learning Crash Course for more information.

প্রত্যাহার

#মেট্রিক

A metric for classification models that answers the following question:

When ground truth was the positive class , what percentage of predictions did the model correctly identify as the positive class?

এখানে সূত্র আছে:

\[\text{Recall} = \frac{\text{true positives}} {\text{true positives} + \text{false negatives}} \]

কোথায়:

  • true positive means the model correctly predicted the positive class.
  • false negative means that the model mistakenly predicted the negative class .

For instance, suppose your model made 200 predictions on examples for which ground truth was the positive class. Of these 200 predictions:

  • 180 were true positives.
  • 20 were false negatives.

এই ক্ষেত্রে:

\[\text{Recall} = \frac{\text{180}} {\text{180} + \text{20}} = 0.9 \]

See Classification: Accuracy, recall, precision and related metrics for more information.

recall at k (recall@k)

#language
#মেট্রিক

A metric for evaluating systems that output a ranked (ordered) list of items. Recall at k identifies the fraction of relevant items in the first k items in that list out of the total number of relevant items returned.

\[\text{recall at k} = \frac{\text{relevant items in first k items of the list}} {\text{total number of relevant items in the list}}\]

Contrast with precision at k .

সুপারিশ সিস্টেম

#রিসিস্টেম

A system that selects for each user a relatively small set of desirable items from a large corpus. For example, a video recommendation system might recommend two videos from a corpus of 100,000 videos, selecting Casablanca and The Philadelphia Story for one user, and Wonder Woman and Black Panther for another. A video recommendation system might base its recommendations on factors such as:

  • Movies that similar users have rated or watched.
  • Genre, directors, actors, target demographic...

See the Recommendation Systems course for more information.

সংশোধনকৃত লিনিয়ার ইউনিট (ReLU)

#মৌলিক

An activation function with the following behavior:

  • If input is negative or zero, then the output is 0.
  • If input is positive, then the output is equal to the input.

যেমন:

  • If the input is -3, then the output is 0.
  • If the input is +3, then the output is 3.0.

Here is a plot of ReLU:

দুটি লাইনের একটি কার্টেসিয়ান প্লট। প্রথম লাইনে একটি ধ্রুবক আছে           0 এর y মান, x-অক্ষ বরাবর -ইনফিনিটি,0 থেকে 0,-0 পর্যন্ত চলছে।           দ্বিতীয় লাইন 0,0 এ শুরু হয়। এই লাইনে +1 এর ঢাল আছে, তাই           এটি 0,0 থেকে +ইনফিনিটি,+ইনফিনিটি পর্যন্ত চলে।

ReLU is a very popular activation function. Despite its simple behavior, ReLU still enables a neural network to learn nonlinear relationships between features and the label .

পুনরাবৃত্ত নিউরাল নেটওয়ার্ক

#সেক

A neural network that is intentionally run multiple times, where parts of each run feed into the next run. Specifically, hidden layers from the previous run provide part of the input to the same hidden layer in the next run. Recurrent neural networks are particularly useful for evaluating sequences, so that the hidden layers can learn from previous runs of the neural network on earlier parts of the sequence.

For example, the following figure shows a recurrent neural network that runs four times. Notice that the values learned in the hidden layers from the first run become part of the input to the same hidden layers in the second run. Similarly, the values learned in the hidden layer on the second run become part of the input to the same hidden layer in the third run. In this way, the recurrent neural network gradually trains and predicts the meaning of the entire sequence rather than just the meaning of individual words.

An RNN that runs four times to process four input words.

reference text

#language
#generativeAI

An expert's response to a prompt . For example, given the following prompt:

Translate the question "What is your name?" from English to French.

An expert's response might be:

মন্তব্য vous applez-vous?

Various metrics (such as ROUGE ) measure the degree to which the reference text matches an ML model's generated text .

regression model

#মৌলিক

Informally, a model that generates a numerical prediction. (In contrast, a classification model generates a class prediction.) For example, the following are all regression models:

  • A model that predicts a certain house's value in Euros, such as 423,000.
  • A model that predicts a certain tree's life expectancy in years, such as 23.2.
  • A model that predicts the amount of rain in inches that will fall in a certain city over the next six hours, such as 0.18.

Two common types of regression models are:

  • Linear regression , which finds the line that best fits label values to features.
  • Logistic regression , which generates a probability between 0.0 and 1.0 that a system typically then maps to a class prediction.

Not every model that outputs numerical predictions is a regression model. In some cases, a numeric prediction is really just a classification model that happens to have numeric class names. For example, a model that predicts a numeric postal code is a classification model, not a regression model.

নিয়মিতকরণ

#মৌলিক

Any mechanism that reduces overfitting . Popular types of regularization include:

Regularization can also be defined as the penalty on a model's complexity.

See Overfitting: Model complexity in Machine Learning Crash Course for more information.

regularization rate

#মৌলিক

A number that specifies the relative importance of regularization during training. Raising the regularization rate reduces overfitting but may reduce the model's predictive power. Conversely, reducing or omitting the regularization rate increases overfitting.

See Overfitting: L2 regularization in Machine Learning Crash Course for more information.

reinforcement learning (RL)

#আরএল

A family of algorithms that learn an optimal policy , whose goal is to maximize return when interacting with an environment . For example, the ultimate reward of most games is victory. Reinforcement learning systems can become expert at playing complex games by evaluating sequences of previous game moves that ultimately led to wins and sequences that ultimately led to losses.

হিউম্যান ফিডব্যাক থেকে রিইনফোর্সমেন্ট লার্নিং (RLHF)

#generativeAI
#আরএল

Using feedback from human raters to improve the quality of a model's responses. For example, an RLHF mechanism can ask users to rate the quality of a model's response with a 👍 or 👎 emoji. The system can then adjust its future responses based on that feedback.

ReLU

#মৌলিক

Abbreviation for Rectified Linear Unit .

replay buffer

#আরএল

In DQN -like algorithms, the memory used by the agent to store state transitions for use in experience replay .

প্রতিরূপ

A copy of the training set or model , typically on another machine. For example, a system could use the following strategy for implementing data parallelism :

  1. Place replicas of an existing model on multiple machines.
  2. Send different subsets of the training set to each replica.
  3. Aggregate the parameter updates.

রিপোর্টিং পক্ষপাত

#responsible

The fact that the frequency with which people write about actions, outcomes, or properties is not a reflection of their real-world frequencies or the degree to which a property is characteristic of a class of individuals. Reporting bias can influence the composition of data that machine learning systems learn from.

For example, in books, the word laughed is more prevalent than breathed . A machine learning model that estimates the relative frequency of laughing and breathing from a book corpus would probably determine that laughing is more common than breathing.

আরও তথ্যের জন্য মেশিন লার্নিং ক্র্যাশ কোর্সে ন্যায্যতা: পক্ষপাতের প্রকারগুলি দেখুন।

প্রতিনিধিত্ব

The process of mapping data to useful features .

পুনরায় র‌্যাঙ্কিং

#রিসিস্টেম

The final stage of a recommendation system , during which scored items may be re-graded according to some other (typically, non-ML) algorithm. Re-ranking evaluates the list of items generated by the scoring phase, taking actions such as:

  • Eliminating items that the user has already purchased.
  • Boosting the score of fresher items.

See Re-ranking in the Recommendation Systems course for more information.

পুনরুদ্ধার-বর্ধিত প্রজন্ম (RAG)

#মৌলিক

A technique for improving the quality of large language model (LLM) output by grounding it with sources of knowledge retrieved after the model was trained. RAG improves the accuracy of LLM responses by providing the trained LLM with access to information retrieved from trusted knowledge bases or documents.

Common motivations to use retrieval-augmented generation include:

  • Increasing the factual accuracy of a model's generated responses.
  • Giving the model access to knowledge it was not trained on.
  • Changing the knowledge that the model uses.
  • Enabling the model to cite sources.

For example, suppose that a chemistry app uses the PaLM API to generate summaries related to user queries. When the app's backend receives a query, the backend:

  1. Searches for ("retrieves") data that's relevant to the user's query.
  2. Appends ("augments") the relevant chemistry data to the user's query.
  3. Instructs the LLM to create a summary based on the appended data.

ফিরে

#আরএল

In reinforcement learning, given a certain policy and a certain state, the return is the sum of all rewards that the agent expects to receive when following the policy from the state to the end of the episode . The agent accounts for the delayed nature of expected rewards by discounting rewards according to the state transitions required to obtain the reward.

Therefore, if the discount factor is \(\gamma\), এবং \(r_0, \ldots, r_{N}\)denote the rewards until the end of the episode, then the return calculation is as follows:

$$\text{Return} = r_0 + \gamma r_1 + \gamma^2 r_2 + \ldots + \gamma^{N-1} r_{N-1}$$

পুরস্কার

#আরএল

In reinforcement learning, the numerical result of taking an action in a state , as defined by the environment .

ridge regularization

Synonym for L 2 regularization . The term ridge regularization is more frequently used in pure statistics contexts, whereas L 2 regularization is used more often in machine learning.

আরএনএন

#সেক

Abbreviation for recurrent neural networks .

ROC (receiver operating characteristic) Curve

#মৌলিক
#মেট্রিক

A graph of true positive rate versus false positive rate for different classification thresholds in binary classification.

The shape of an ROC curve suggests a binary classification model's ability to separate positive classes from negative classes. Suppose, for example, that a binary classification model perfectly separates all the negative classes from all the positive classes:

A number line with 8 positive examples on the right side and
          7 negative examples on the left.

The ROC curve for the preceding model looks as follows:

An ROC curve. The x-axis is False Positive Rate and the y-axis           is True Positive Rate. The curve has an inverted L shape. বক্ররেখা           starts at (0.0,0.0) and goes straight up to (0.0,1.0). Then the curve           goes from (0.0,1.0) to (1.0,1.0).

In contrast, the following illustration graphs the raw logistic regression values for a terrible model that can't separate negative classes from positive classes at all:

A number line with positive examples and negative classes
          completely intermixed.

The ROC curve for this model looks as follows:

An ROC curve, which is actually a straight line from (0.0,0.0)
          to (1.0,1.0).

Meanwhile, back in the real world, most binary classification models separate positive and negative classes to some degree, but usually not perfectly. So, a typical ROC curve falls somewhere between the two extremes:

An ROC curve. The x-axis is False Positive Rate and the y-axis
          is True Positive Rate. The ROC curve approximates a shaky arc
          traversing the compass points from West to North.

The point on an ROC curve closest to (0.0,1.0) theoretically identifies the ideal classification threshold. However, several other real-world issues influence the selection of the ideal classification threshold. For example, perhaps false negatives cause far more pain than false positives.

A numerical metric called AUC summarizes the ROC curve into a single floating-point value.

role prompting

#language
#generativeAI

An optional part of a prompt that identifies a target audience for a generative AI model's response. Without a role prompt, a large language model provides an answer that may or may not be useful for the person asking the questions. With a role prompt, a large language model can answer in a way that's more appropriate and more helpful for a specific target audience. For example, the role prompt portion of the following prompts are in boldface:

  • Summarize this document for a PhD in economics .
  • Describe how tides work for a ten-year old .
  • Explain the 2008 financial crisis. Speak as you might to a young child, or a golden retriever.

মূল

#df

The starting node (the first condition ) in a decision tree . By convention, diagrams put the root at the top of the decision tree. যেমন:

A decision tree with two conditions and three leaves. দ           starting condition (x > 2) is the root.

root directory

#টেনসরফ্লো

The directory you specify for hosting subdirectories of the TensorFlow checkpoint and events files of multiple models.

রুট গড় বর্গাকার ত্রুটি (RMSE)

#মৌলিক
#মেট্রিক

The square root of the Mean Squared Error .

ঘূর্ণনশীল পরিবর্তন

#ছবি

In an image classification problem, an algorithm's ability to successfully classify images even when the orientation of the image changes. For example, the algorithm can still identify a tennis racket whether it is pointing up, sideways, or down. Note that rotational invariance is not always desirable; for example, an upside-down 9 shouldn't be classified as a 9.

See also translational invariance and size invariance .

ROUGE (Recall-Oriented Understudy for Gisting Evaluation)

#language
#মেট্রিক

A family of metrics that evaluate automatic summarization and machine translation models. ROUGE metrics determine the degree to which a reference text overlaps an ML model's generated text . Each member of the ROUGE family measures overlap in a different way. Higher ROUGE scores indicate more similarity between the reference text and generated text than lower ROUGE scores.

Each ROUGE family member typically generates the following metrics:

  • যথার্থতা
  • স্মরণ করুন

For details and examples, see:

রুজ-এল

#language
#মেট্রিক

A member of the ROUGE family focused on the length of the longest common subsequence in the reference text and generated text . The following formulas calculate recall and precision for ROUGE-L:

$$\text{ROUGE-L recall} = \frac{\text{longest common sequence}} {\text{number of words in the reference text} }$$
$$\text{ROUGE-L precision} = \frac{\text{longest common sequence}} {\text{number of words in the generated text} }$$

You can then use F 1 to roll up ROUGE-L recall and ROUGE-L precision into a single metric:

$$\text{ROUGE-L F} {_1} = \frac{\text{2} * \text{ROUGE-L recall} * \text{ROUGE-L precision}} {\text{ROUGE-L recall} + \text{ROUGE-L precision} }$$

ROUGE-L ignores any newlines in the reference text and generated text, so the longest common subsequence could cross multiple sentences. When the reference text and generated text involve multiple sentences, a variation of ROUGE-L called ROUGE-Lsum is generally a better metric. ROUGE-Lsum determines the longest common subsequence for each sentence in a passage and then calculates the mean of those longest common subsequences.

রুজ-এন

#language
#মেট্রিক

A set of metrics within the ROUGE family that compares the shared N-grams of a certain size in the reference text and generated text . যেমন:

  • ROUGE-1 measures the number of shared tokens in the reference text and generated text.
  • ROUGE-2 measures the number of shared bigrams (2-grams) in the reference text and generated text.
  • ROUGE-3 measures the number of shared trigrams (3-grams) in the reference text and generated text.

You can use the following formulas to calculate ROUGE-N recall and ROUGE-N precision for any member of the ROUGE-N family:

$$\text{ROUGE-N recall} = \frac{\text{number of matching N-grams}} {\text{number of N-grams in the reference text} }$$
$$\text{ROUGE-N precision} = \frac{\text{number of matching N-grams}} {\text{number of N-grams in the generated text} }$$

You can then use F 1 to roll up ROUGE-N recall and ROUGE-N precision into a single metric:

$$\text{ROUGE-N F}{_1} = \frac{\text{2} * \text{ROUGE-N recall} * \text{ROUGE-N precision}} {\text{ROUGE-N recall} + \text{ROUGE-N precision} }$$

রুজ-এস

#language
#মেট্রিক

A forgiving form of ROUGE-N that enables skip-gram matching. That is, ROUGE-N only counts N-grams that match exactly , but ROUGE-S also counts N-grams separated by one or more words. উদাহরণস্বরূপ, নিম্নলিখিত বিবেচনা করুন:

When calculating ROUGE-N, the 2-gram, White clouds doesn't match White billowing clouds . However, when calculating ROUGE-S, White clouds does match White billowing clouds .

আর-বর্গীয়

#মেট্রিক

A regression metric indicating how much variation in a label is due to an individual feature or to a feature set. R-squared is a value between 0 and 1, which you can interpret as follows:

  • An R-squared of 0 means that none of a label's variation is due to the feature set.
  • An R-squared of 1 means that all of a label's variation is due to the feature set.
  • An R-squared between 0 and 1 indicates the extent to which the label's variation can be predicted from a particular feature or the feature set. For example, an R-squared of 0.10 means that 10 percent of the variance in the label is due to the feature set, an R-squared of 0.20 means that 20 percent is due to the feature set, and so on.

R-squared is the square of the Pearson correlation coefficient between the values that a model predicted and ground truth .

এস

স্যাম্পলিং পক্ষপাত

#responsible

নির্বাচন পক্ষপাত দেখুন।

sampling with replacement

#df

A method of picking items from a set of candidate items in which the same item can be picked multiple times. The phrase "with replacement" means that after each selection, the selected item is returned to the pool of candidate items. The inverse method, sampling without replacement , means that a candidate item can only be picked once.

For example, consider the following fruit set:

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

Suppose that the system randomly picks fig as the first item. If using sampling with replacement, then the system picks the second item from the following set:

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

Yes, that's the same set as before, so the system could potentially pick fig again.

If using sampling without replacement, once picked, a sample can't be picked again. For example, if the system randomly picks fig as the first sample, then fig can't be picked again. Therefore, the system picks the second sample from the following (reduced) set:

fruit = {kiwi, apple, pear, cherry, lime, mango}

SavedModel

#টেনসরফ্লো

The recommended format for saving and recovering TensorFlow models. SavedModel is a language-neutral, recoverable serialization format, which enables higher-level systems and tools to produce, consume, and transform TensorFlow models.

See the Saving and Restoring section of the TensorFlow Programmer's Guide for complete details.

সেভার

#টেনসরফ্লো

A TensorFlow object responsible for saving model checkpoints.

স্কেলার

A single number or a single string that can be represented as a tensor of rank 0. For example, the following lines of code each create one scalar in TensorFlow:

breed = tf.Variable("poodle", tf.string)
temperature = tf.Variable(27, tf.int16)
precision = tf.Variable(0.982375101275, tf.float64)

স্কেলিং

Any mathematical transform or technique that shifts the range of a label, a feature value, or both. Some forms of scaling are very useful for transformations like normalization .

Common forms of scaling useful in Machine Learning include:

  • linear scaling, which typically uses a combination of subtraction and division to replace the original value with a number between -1 and +1 or between 0 and 1.
  • logarithmic scaling, which replaces the original value with its logarithm.
  • Z-score normalization , which replaces the original value with a floating-point value representing the number of standard deviations from that feature's mean.

scikit-শিখা

A popular open-source machine learning platform. See scikit-learn.org .

স্কোরিং

#রিসিস্টেম
#মেট্রিক

The part of a recommendation system that provides a value or ranking for each item produced by the candidate generation phase.

নির্বাচনের পক্ষপাতিত্ব

#responsible

Errors in conclusions drawn from sampled data due to a selection process that generates systematic differences between samples observed in the data and those not observed. The following forms of selection bias exist:

  • coverage bias : The population represented in the dataset doesn't match the population that the machine learning model is making predictions about.
  • sampling bias : Data is not collected randomly from the target group.
  • non-response bias (also called participation bias ): Users from certain groups opt-out of surveys at different rates than users from other groups.

For example, suppose you are creating a machine learning model that predicts people's enjoyment of a movie. To collect training data, you hand out a survey to everyone in the front row of a theater showing the movie. Offhand, this may sound like a reasonable way to gather a dataset; however, this form of data collection may introduce the following forms of selection bias:

  • coverage bias: By sampling from a population who chose to see the movie, your model's predictions may not generalize to people who did not already express that level of interest in the movie.
  • sampling bias: Rather than randomly sampling from the intended population (all the people at the movie), you sampled only the people in the front row. It is possible that the people sitting in the front row were more interested in the movie than those in other rows.
  • non-response bias: In general, people with strong opinions tend to respond to optional surveys more frequently than people with mild opinions. Since the movie survey is optional, the responses are more likely to form a bimodal distribution than a normal (bell-shaped) distribution.

self-attention (also called self-attention layer)

#language

A neural network layer that transforms a sequence of embeddings (for example, token embeddings) into another sequence of embeddings. Each embedding in the output sequence is constructed by integrating information from the elements of the input sequence through an attention mechanism.

The self part of self-attention refers to the sequence attending to itself rather than to some other context. Self-attention is one of the main building blocks for Transformers and uses dictionary lookup terminology, such as "query", "key", and "value".

A self-attention layer starts with a sequence of input representations, one for each word. The input representation for a word can be a simple embedding. For each word in an input sequence, the network scores the relevance of the word to every element in the whole sequence of words. The relevance scores determine how much the word's final representation incorporates the representations of other words.

উদাহরণস্বরূপ, নিম্নলিখিত বাক্যটি বিবেচনা করুন:

The animal didn't cross the street because it was too tired.

The following illustration (from Transformer: A Novel Neural Network Architecture for Language Understanding ) shows a self-attention layer's attention pattern for the pronoun it , with the darkness of each line indicating how much each word contributes to the representation:

The following sentence appears twice: The animal didn't cross the
          street because it was too tired. Lines connect the pronoun it in
          one sentence to five tokens (The, animal, street, it, and
          the period) in the other sentence. The line between the pronoun it
          and the word animal is strongest.

The self-attention layer highlights words that are relevant to "it". In this case, the attention layer has learned to highlight words that it might refer to, assigning the highest weight to animal .

For a sequence of n tokens , self-attention transforms a sequence of embeddings n separate times, once at each position in the sequence.

Refer also to attention and multi-head self-attention .

স্ব-তত্ত্বাবধানে শিক্ষা

A family of techniques for converting an unsupervised machine learning problem into a supervised machine learning problem by creating surrogate labels from unlabeled examples .

Some Transformer -based models such as BERT use self-supervised learning.

Self-supervised training is a semi-supervised learning approach.

স্ব-প্রশিক্ষণ

A variant of self-supervised learning that is particularly useful when all of the following conditions are true:

Self-training works by iterating over the following two steps until the model stops improving:

  1. Use supervised machine learning to train a model on the labeled examples.
  2. Use the model created in Step 1 to generate predictions (labels) on the unlabeled examples, moving those in which there is high confidence into the labeled examples with the predicted label.

Notice that each iteration of Step 2 adds more labeled examples for Step 1 to train on.

আধা-তত্ত্বাবধানে শিক্ষা

Training a model on data where some of the training examples have labels but others don't. One technique for semi-supervised learning is to infer labels for the unlabeled examples, and then to train on the inferred labels to create a new model. Semi-supervised learning can be useful if labels are expensive to obtain but unlabeled examples are plentiful.

Self-training is one technique for semi-supervised learning.

sensitive attribute

#responsible
A human attribute that may be given special consideration for legal, ethical, social, or personal reasons.

অনুভূতি বিশ্লেষণ

#language

Using statistical or machine learning algorithms to determine a group's overall attitude—positive or negative—toward a service, product, organization, or topic. For example, using natural language understanding , an algorithm could perform sentiment analysis on the textual feedback from a university course to determine the degree to which students generally liked or disliked the course.

See the Text classification guide for more information.

sequence model

#সেক

A model whose inputs have a sequential dependence. For example, predicting the next video watched from a sequence of previously watched videos.

sequence-to-sequence task

#language

A task that converts an input sequence of tokens to an output sequence of tokens. For example, two popular kinds of sequence-to-sequence tasks are:

  • অনুবাদক:
    • Sample input sequence: "I love you."
    • Sample output sequence: "Je t'aime."
  • Question answering:
    • Sample input sequence: "Do I need my car in New York City?"
    • Sample output sequence: "No. Keep your car at home."

পরিবেশন করা

The process of making a trained model available to provide predictions through online inference or offline inference .

shape (Tensor)

The number of elements in each dimension of a tensor. The shape is represented as a list of integers. For example, the following two-dimensional tensor has a shape of [3,4]:

[[5, 7, 6, 4],
 [2, 9, 4, 8],
 [3, 6, 5, 1]]

TensorFlow uses row-major (C-style) format to represent the order of dimensions, which is why the shape in TensorFlow is [3,4] rather than [4,3] . In other words, in a two-dimensional TensorFlow Tensor, the shape is [ number of rows , number of columns ] .

A static shape is a tensor shape that is known at compile time.

A dynamic shape is unknown at compile time and is therefore dependent on runtime data. This tensor might be represented with a placeholder dimension in TensorFlow, as in [3, ?] .

shard

#টেনসরফ্লো
#GoogleCloud

A logical division of the training set or the model . Typically, some process creates shards by dividing the examples or parameters into (usually) equal-sized chunks. Each shard is then assigned to a different machine.

Sharding a model is called model parallelism ; sharding data is called data parallelism .

সংকোচন

#df

A hyperparameter in gradient boosting that controls overfitting . Shrinkage in gradient boosting is analogous to learning rate in gradient descent . Shrinkage is a decimal value between 0.0 and 1.0. A lower shrinkage value reduces overfitting more than a larger shrinkage value.

সিগমায়েড ফাংশন

#মৌলিক

A mathematical function that "squishes" an input value into a constrained range, typically 0 to 1 or -1 to +1. That is, you can pass any number (two, a million, negative billion, whatever) to a sigmoid and the output will still be in the constrained range. সিগমায়েড অ্যাক্টিভেশন ফাংশনের একটি প্লট নিম্নরূপ দেখায়:

ডোমেনে বিস্তৃত x মান সহ একটি দ্বি-মাত্রিক বাঁকা প্লট           -ইনফিনিটি থেকে +ধনাত্মক, যখন y মান প্রায় 0 থেকে পরিসরে বিস্তৃত           প্রায় 1. যখন x 0 হয়, y হয় 0.5। বক্ররেখার ঢাল সবসময়           ধনাত্মক, সর্বোচ্চ ঢাল 0,0.5 সহ এবং ধীরে ধীরে হ্রাস পাচ্ছে           x এর পরম মান বাড়ার সাথে সাথে ঢাল।

The sigmoid function has several uses in machine learning, including:

সাদৃশ্য পরিমাপ

# ক্লাস্টারিং
#মেট্রিক

In clustering algorithms, the metric used to determine how alike (how similar) any two examples are.

single program / multiple data (SPMD)

A parallelism technique where the same computation is run on different input data in parallel on different devices. The goal of SPMD is to obtain results more quickly. It is the most common style of parallel programming.

size invariance

#ছবি

In an image classification problem, an algorithm's ability to successfully classify images even when the size of the image changes. For example, the algorithm can still identify a cat whether it consumes 2M pixels or 200K pixels. Note that even the best image classification algorithms still have practical limits on size invariance. For example, an algorithm (or human) is unlikely to correctly classify a cat image consuming only 20 pixels.

See also translational invariance and rotational invariance .

আরও তথ্যের জন্য ক্লাস্টারিং কোর্স দেখুন।

স্কেচিং

# ক্লাস্টারিং

In unsupervised machine learning , a category of algorithms that perform a preliminary similarity analysis on examples. Sketching algorithms use a locality-sensitive hash function to identify points that are likely to be similar, and then group them into buckets.

Sketching decreases the computation required for similarity calculations on large datasets. Instead of calculating similarity for every single pair of examples in the dataset, we calculate similarity only for each pair of points within each bucket.

skip-gram

#language

An n-gram which may omit (or "skip") words from the original context, meaning the N words might not have been originally adjacent. More precisely, a "k-skip-n-gram" is an n-gram for which up to k words may have been skipped.

For example, "the quick brown fox" has the following possible 2-grams:

  • "the quick"
  • "quick brown"
  • "বাদামী শিয়াল"

A "1-skip-2-gram" is a pair of words that have at most 1 word between them. Therefore, "the quick brown fox" has the following 1-skip 2-grams:

  • "the brown"
  • "quick fox"

In addition, all the 2-grams are also 1-skip-2-grams, since fewer than one word may be skipped.

Skip-grams are useful for understanding more of a word's surrounding context. In the example, "fox" was directly associated with "quick" in the set of 1-skip-2-grams, but not in the set of 2-grams.

Skip-grams help train word embedding models.

softmax

#মৌলিক

A function that determines probabilities for each possible class in a multi-class classification model . The probabilities add up to exactly 1.0. For example, the following table shows how softmax distributes various probabilities:

Image is a... সম্ভাবনা
কুকুর .85
বিড়াল .13
ঘোড়া .02

Softmax is also called full softmax .

Contrast with candidate sampling .

See Neural networks: Multi-class classification in Machine Learning Crash Course for more information.

soft prompt tuning

#language
#generativeAI

A technique for tuning a large language model for a particular task, without resource intensive fine-tuning . Instead of retraining all the weights in the model, soft prompt tuning automatically adjusts a prompt to achieve the same goal.

Given a textual prompt, soft prompt tuning typically appends additional token embeddings to the prompt and uses backpropagation to optimize the input.

A "hard" prompt contains actual tokens instead of token embeddings.

sparse feature

#language
#মৌলিক

A feature whose values are predominately zero or empty. For example, a feature containing a single 1 value and a million 0 values is sparse. In contrast, a dense feature has values that are predominantly not zero or empty.

In machine learning, a surprising number of features are sparse features. Categorical features are usually sparse features. For example, of the 300 possible tree species in a forest, a single example might identify just a maple tree . Or, of the millions of possible videos in a video library, a single example might identify just "Casablanca."

In a model, you typically represent sparse features with one-hot encoding . If the one-hot encoding is big, you might put an embedding layer on top of the one-hot encoding for greater efficiency.

sparse representation

#language
#মৌলিক

Storing only the position(s) of nonzero elements in a sparse feature.

For example, suppose a categorical feature named species identifies the 36 tree species in a particular forest. Further assume that each example identifies only a single species.

You could use a one-hot vector to represent the tree species in each example. A one-hot vector would contain a single 1 (to represent the particular tree species in that example) and 35 0 s (to represent the 35 tree species not in that example). So, the one-hot representation of maple might look something like the following:

A vector in which positions 0 through 23 hold the value 0, position
          24 holds the value 1, and positions 25 through 35 hold the value 0.

Alternatively, sparse representation would simply identify the position of the particular species. If maple is at position 24, then the sparse representation of maple would simply be:

24

Notice that the sparse representation is much more compact than the one-hot representation.

আরও তথ্যের জন্য মেশিন লার্নিং ক্র্যাশ কোর্সে শ্রেণীবদ্ধ ডেটা নিয়ে কাজ করা দেখুন।

sparse vector

#মৌলিক

A vector whose values are mostly zeroes. See also sparse feature and sparsity .

sparsity

#মেট্রিক

The number of elements set to zero (or null) in a vector or matrix divided by the total number of entries in that vector or matrix. For example, consider a 100-element matrix in which 98 cells contain zero. The calculation of sparsity is as follows:

$$ {\text{sparsity}} = \frac{\text{98}} {\text{100}} = {\text{0.98}} $$

Feature sparsity refers to the sparsity of a feature vector; model sparsity refers to the sparsity of the model weights.

spatial pooling

#ছবি

See pooling .

বিভক্ত

#df

In a decision tree , another name for a condition .

স্প্লিটার

#df

While training a decision tree , the routine (and algorithm) responsible for finding the best condition at each node .

এসপিএমডি

Abbreviation for single program / multiple data .

squared hinge loss

#মেট্রিক

The square of the hinge loss . Squared hinge loss penalizes outliers more harshly than regular hinge loss.

squared loss

#মৌলিক
#মেট্রিক

Synonym for L 2 loss .

staged training

#language

A tactic of training a model in a sequence of discrete stages. The goal can be either to speed up the training process, or to achieve better model quality.

An illustration of the progressive stacking approach is shown below:

  • Stage 1 contains 3 hidden layers, stage 2 contains 6 hidden layers, and stage 3 contains 12 hidden layers.
  • Stage 2 begins training with the weights learned in the 3 hidden layers of Stage 1. Stage 3 begins training with the weights learned in the 6 hidden layers of Stage 2.

Three stages, which are labeled Stage 1, Stage 2, and Stage 3.           Each stage contains a different number of layers: Stage 1 contains           3 layers, Stage 2 contains 6 layers, and Stage 3 contains 12 layers.           The 3 layers from Stage 1 become the first 3 layers of Stage 2.           Similarly, the 6 layers from Stage 2 become the first 6 layers of           পর্যায় 3।

See also pipelining .

রাষ্ট্র

#আরএল

In reinforcement learning, the parameter values that describe the current configuration of the environment, which the agent uses to choose an action .

state-action value function

#আরএল

Synonym for Q-function .

স্থির

#মৌলিক

Something done once rather than continuously. The terms static and offline are synonyms. The following are common uses of static and offline in machine learning:

  • static model (or offline model ) is a model trained once and then used for a while.
  • static training (or offline training ) is the process of training a static model.
  • static inference (or offline inference ) is a process in which a model generates a batch of predictions at a time.

Contrast with dynamic .

static inference

#মৌলিক

Synonym for offline inference .

স্থিরতা

#মৌলিক

A feature whose values don't change across one or more dimensions, usually time. For example, a feature whose values look about the same in 2021 and 2023 exhibits stationarity.

In the real world, very few features exhibit stationarity. Even features synonymous with stability (like sea level) change over time.

Contrast with nonstationarity .

পদক্ষেপ

A forward pass and backward pass of one batch .

See backpropagation for more information on the forward pass and backward pass.

ধাপের আকার

Synonym for learning rate .

stochastic gradient descent (SGD)

#মৌলিক

A gradient descent algorithm in which the batch size is one. In other words, SGD trains on a single example chosen uniformly at random from a training set .

আরও তথ্যের জন্য লিনিয়ার রিগ্রেশন: মেশিন লার্নিং ক্র্যাশ কোর্সে হাইপারপ্যারামিটার দেখুন।

অগ্রসর

#ছবি

In a convolutional operation or pooling, the delta in each dimension of the next series of input slices. For example, the following animation demonstrates a (1,1) stride during a convolutional operation. Therefore, the next input slice starts one position to the right of the previous input slice. When the operation reaches the right edge, the next slice is all the way over to the left but one position down.

An input 5x5 matrix and a 3x3 convolutional filter. কারণ      stride is (1,1), a convolutional filter will be applied 9 times. প্রথম      convolutional slice evaluates the top-left 3x3 submatrix of the input      ম্যাট্রিক্স The second slice evaluates the top-middle 3x3      submatrix. The third convolutional slice evaluates the top-right 3x3      submatrix. The fourth slice evaluates the middle-left 3x3 submatrix.      The fifth slice evaluates the middle 3x3 submatrix. The sixth slice      evaluates the middle-right 3x3 submatrix. The seventh slice evaluates      the bottom-left 3x3 submatrix. The eighth slice evaluates the      bottom-middle 3x3 submatrix. The ninth slice evaluates the bottom-right 3x3      submatrix.

The preceding example demonstrates a two-dimensional stride. If the input matrix is three-dimensional, the stride would also be three-dimensional.

structural risk minimization (SRM)

An algorithm that balances two goals:

  • The need to build the most predictive model (for example, lowest loss).
  • The need to keep the model as simple as possible (for example, strong regularization).

For example, a function that minimizes loss+regularization on the training set is a structural risk minimization algorithm.

Contrast with empirical risk minimization .

সাবস্যাম্পলিং

#ছবি

See pooling .

subword token

#language

In language models , a token that is a substring of a word, which may be the entire word.

For example, a word like "itemize" might be broken up into the pieces "item" (a root word) and "ize" (a suffix), each of which is represented by its own token. Splitting uncommon words into such pieces, called subwords, allows language models to operate on the word's more common constituent parts, such as prefixes and suffixes.

Conversely, common words like "going" might not be broken up and might be represented by a single token.

সারাংশ

#টেনসরফ্লো

In TensorFlow, a value or set of values calculated at a particular step , usually used for tracking model metrics during training.

তত্ত্বাবধানে মেশিন লার্নিং

#মৌলিক

Training a model from features and their corresponding labels . Supervised machine learning is analogous to learning a subject by studying a set of questions and their corresponding answers. After mastering the mapping between questions and answers, a student can then provide answers to new (never-before-seen) questions on the same topic.

Compare with unsupervised machine learning .

See Supervised Learning in the Introduction to ML course for more information.

synthetic feature

#মৌলিক

A feature not present among the input features, but assembled from one or more of them. Methods for creating synthetic features include the following:

  • Bucketing a continuous feature into range bins.
  • Creating a feature cross .
  • Multiplying (or dividing) one feature value by other feature value(s) or by itself. For example, if a and b are input features, then the following are examples of synthetic features:
    • ab
    • একটি 2
  • Applying a transcendental function to a feature value. For example, if c is an input feature, then the following are examples of synthetic features:
    • sin(c)
    • ln(c)

Features created by normalizing or scaling alone are not considered synthetic features.

টি

T5

#language

A text-to-text transfer learning model introduced by Google AI in 2020 . T5 is an encoder - decoder model, based on the Transformer architecture, trained on an extremely large dataset. It is effective at a variety of natural language processing tasks, such as generating text, translating languages, and answering questions in a conversational manner.

T5 gets its name from the five T's in "Text-to-Text Transfer Transformer."

T5X

#language

An open-source, machine learning framework designed to build and train large-scale natural language processing (NLP) models. T5 is implemented on the T5X codebase (which is built on JAX and Flax ).

tabular Q-learning

#আরএল

In reinforcement learning , implementing Q-learning by using a table to store the Q-functions for every combination of state and action .

লক্ষ্য

Synonym for label .

target network

#আরএল

In Deep Q-learning , a neural network that is a stable approximation of the main neural network, where the main neural network implements either a Q-function or a policy . Then, you can train the main network on the Q-values predicted by the target network. Therefore, you prevent the feedback loop that occurs when the main network trains on Q-values predicted by itself. By avoiding this feedback, training stability increases.

টাস্ক

A problem that can be solved using machine learning techniques, such as:

তাপমাত্রা

#language
#ছবি
#generativeAI

A hyperparameter that controls the degree of randomness of a model's output. Higher temperatures result in more random output, while lower temperatures result in less random output.

Choosing the best temperature depends on the specific application and the preferred properties of the model's output. For example, you would probably raise the temperature when creating an application that generates creative output. Conversely, you would probably lower the temperature when building a model that classifies images or text in order to improve the model's accuracy and consistency.

Temperature is often used with softmax .

সাময়িক তথ্য

Data recorded at different points in time. For example, winter coat sales recorded for each day of the year would be temporal data.

টেনসর

#টেনসরফ্লো

TensorFlow প্রোগ্রামের প্রাথমিক তথ্য কাঠামো। Tensors are N-dimensional (where N could be very large) data structures, most commonly scalars, vectors, or matrixes. একটি টেনসরের উপাদানগুলি পূর্ণসংখ্যা, ভাসমান-বিন্দু বা স্ট্রিং মান ধারণ করতে পারে।

টেনসরবোর্ড

#টেনসরফ্লো

The dashboard that displays the summaries saved during the execution of one or more TensorFlow programs.

টেনসরফ্লো

#টেনসরফ্লো

A large-scale, distributed, machine learning platform. The term also refers to the base API layer in the TensorFlow stack, which supports general computation on dataflow graphs.

Although TensorFlow is primarily used for machine learning, you may also use TensorFlow for non-ML tasks that require numerical computation using dataflow graphs.

TensorFlow Playground

#টেনসরফ্লো

A program that visualizes how different hyperparameters influence model (primarily neural network) training. Go to http://playground.tensorflow.org to experiment with TensorFlow Playground.

টেনসরফ্লো পরিবেশন

#টেনসরফ্লো

A platform to deploy trained models in production.

টেনসর প্রসেসিং ইউনিট (TPU)

#টেনসরফ্লো
#GoogleCloud

An application-specific integrated circuit (ASIC) that optimizes the performance of machine learning workloads. These ASICs are deployed as multiple TPU chips on a TPU device .

টেনসর র‍্যাঙ্ক

#টেনসরফ্লো

See rank (Tensor) .

Tensor shape

#টেনসরফ্লো

The number of elements a Tensor contains in various dimensions. For example, a [5, 10] Tensor has a shape of 5 in one dimension and 10 in another.

Tensor size

#টেনসরফ্লো

The total number of scalars a Tensor contains. For example, a [5, 10] Tensor has a size of 50.

TensorStore

A library for efficiently reading and writing large multi-dimensional arrays.

termination condition

#আরএল

In reinforcement learning , the conditions that determine when an episode ends, such as when the agent reaches a certain state or exceeds a threshold number of state transitions. For example, in tic-tac-toe (also known as noughts and crosses), an episode terminates either when a player marks three consecutive spaces or when all spaces are marked.

পরীক্ষা

#df

In a decision tree , another name for a condition .

test loss

#মৌলিক
#মেট্রিক

A metric representing a model's loss against the test set . When building a model , you typically try to minimize test loss. That's because a low test loss is a stronger quality signal than a low training loss or low validation loss .

A large gap between test loss and training loss or validation loss sometimes suggests that you need to increase the regularization rate .

পরীক্ষার সেট

A subset of the dataset reserved for testing a trained model .

Traditionally, you divide examples in the dataset into the following three distinct subsets:

Each example in a dataset should belong to only one of the preceding subsets. For instance, a single example shouldn't belong to both the training set and the test set.

The training set and validation set are both closely tied to training a model. Because the test set is only indirectly associated with training, test loss is a less biased, higher quality metric than training loss or validation loss .

See Datasets: Dividing the original dataset in Machine Learning Crash Course for more information.

text span

#language

The array index span associated with a specific subsection of a text string. For example, the word good in the Python string s="Be good now" occupies the text span from 3 to 6.

tf.Example

#টেনসরফ্লো

A standard protocol buffer for describing input data for machine learning model training or inference.

tf.keras

#টেনসরফ্লো

An implementation of Keras integrated into TensorFlow .

threshold (for decision trees)

#df

In an axis-aligned condition , the value that a feature is being compared against. For example, 75 is the threshold value in the following condition:

grade >= 75

আরও তথ্যের জন্য সিদ্ধান্ত বনভূমি কোর্সে সংখ্যার বৈশিষ্ট্য সহ বাইনারি শ্রেণিবিন্যাসের জন্য সঠিক বিভাজন দেখুন।

সময় সিরিজ বিশ্লেষণ

# ক্লাস্টারিং

A subfield of machine learning and statistics that analyzes temporal data . Many types of machine learning problems require time series analysis, including classification, clustering, forecasting, and anomaly detection. For example, you could use time series analysis to forecast the future sales of winter coats by month based on historical sales data.

timestep

#সেক

One "unrolled" cell within a recurrent neural network . For example, the following figure shows three timesteps (labeled with the subscripts t-1, t, and t+1):

Three timesteps in a recurrent neural network. এর আউটপুট           first timestep becomes input to the second timestep. আউটপুট           of the second timestep becomes input to the third timestep.

টোকেন

#language

In a language model , the atomic unit that the model is training on and making predictions on. A token is typically one of the following:

  • a word—for example, the phrase "dogs like cats" consists of three word tokens: "dogs", "like", and "cats".
  • a character—for example, the phrase "bike fish" consists of nine character tokens. (Note that the blank space counts as one of the tokens.)
  • subwords—in which a single word can be a single token or multiple tokens. A subword consists of a root word, a prefix, or a suffix. For example, a language model that uses subwords as tokens might view the word "dogs" as two tokens (the root word "dog" and the plural suffix "s"). That same language model might view the single word "taller" as two subwords (the root word "tall" and the suffix "er").

In domains outside of language models, tokens can represent other kinds of atomic units. For example, in computer vision, a token might be a subset of an image.

আরও তথ্যের জন্য মেশিন লার্নিং ক্র্যাশ কোর্সে বড় ভাষার মডেলগুলি দেখুন।

top-k accuracy

#language
#মেট্রিক

The percentage of times that a "target label" appears within the first k positions of generated lists. The lists could be personalized recommendations or a list of items ordered by softmax .

Top-k accuracy is also known as accuracy at k .

টাওয়ার

A component of a deep neural network that is itself a deep neural network. In some cases, each tower reads from an independent data source, and those towers stay independent until their output is combined in a final layer. In other cases, (for example, in the encoder and decoder tower of many Transformers ), towers have cross-connections to each other.

বিষাক্ততা

#language
#মেট্রিক

The degree to which content is abusive, threatening, or offensive. Many machine learning models can identify and measure toxicity. Most of these models identify toxicity along multiple parameters, such as the level of abusive language and the level of threatening language.

টিপিইউ

#টেনসরফ্লো
#GoogleCloud

Abbreviation for Tensor Processing Unit .

TPU chip

#টেনসরফ্লো
#GoogleCloud

A programmable linear algebra accelerator with on-chip high bandwidth memory that is optimized for machine learning workloads. Multiple TPU chips are deployed on a TPU device .

TPU device

#টেনসরফ্লো
#GoogleCloud

A printed circuit board (PCB) with multiple TPU chips , high bandwidth network interfaces, and system cooling hardware.

TPU node

#টেনসরফ্লো
#GoogleCloud

A TPU resource on Google Cloud with a specific TPU type . The TPU node connects to your VPC Network from a peer VPC network . TPU nodes are a resource defined in the Cloud TPU API .

TPU Pod

#টেনসরফ্লো
#GoogleCloud

A specific configuration of TPU devices in a Google data center. All of the devices in a TPU Pod are connected to one another over a dedicated high-speed network. A TPU Pod is the largest configuration of TPU devices available for a specific TPU version.

TPU resource

#টেনসরফ্লো
#GoogleCloud

A TPU entity on Google Cloud that you create, manage, or consume. For example, TPU nodes and TPU types are TPU resources.

TPU slice

#টেনসরফ্লো
#GoogleCloud

A TPU slice is a fractional portion of the TPU devices in a TPU Pod . All of the devices in a TPU slice are connected to one another over a dedicated high-speed network.

TPU type

#টেনসরফ্লো
#GoogleCloud

A configuration of one or more TPU devices with a specific TPU hardware version. You select a TPU type when you create a TPU node on Google Cloud. For example, a v2-8 TPU type is a single TPU v2 device with 8 cores. A v3-2048 TPU type has 256 networked TPU v3 devices and a total of 2048 cores. TPU types are a resource defined in the Cloud TPU API .

TPU worker

#টেনসরফ্লো
#GoogleCloud

A process that runs on a host machine and executes machine learning programs on TPU devices .

প্রশিক্ষণ

#মৌলিক

The process of determining the ideal parameters (weights and biases) comprising a model . During training, a system reads in examples and gradually adjusts parameters. Training uses each example anywhere from a few times to billions of times.

See Supervised Learning in the Introduction to ML course for more information.

training loss

#মৌলিক
#মেট্রিক

A metric representing a model's loss during a particular training iteration. For example, suppose the loss function is Mean Squared Error . Perhaps the training loss (the Mean Squared Error) for the 10th iteration is 2.2, and the training loss for the 100th iteration is 1.9.

A loss curve plots training loss versus the number of iterations. A loss curve provides the following hints about training:

  • A downward slope implies that the model is improving.
  • An upward slope implies that the model is getting worse.
  • A flat slope implies that the model has reached convergence .

For example, the following somewhat idealized loss curve shows:

  • A steep downward slope during the initial iterations, which implies rapid model improvement.
  • A gradually flattening (but still downward) slope until close to the end of training, which implies continued model improvement at a somewhat slower pace then during the initial iterations.
  • A flat slope towards the end of training, which suggests convergence.

The plot of training loss versus iterations. This loss curve starts
     with a steep downward slope. The slope gradually flattens until the
     slope becomes zero.

Although training loss is important, see also generalization .

training-serving skew

#মৌলিক

The difference between a model's performance during training and that same model's performance during serving .

প্রশিক্ষণ সেট

#মৌলিক

The subset of the dataset used to train a model .

Traditionally, examples in the dataset are divided into the following three distinct subsets:

Ideally, each example in the dataset should belong to only one of the preceding subsets. For example, a single example shouldn't belong to both the training set and the validation set.

See Datasets: Dividing the original dataset in Machine Learning Crash Course for more information.

গতিপথ

#আরএল

In reinforcement learning , a sequence of tuples that represent a sequence of state transitions of the agent , where each tuple corresponds to the state, action , reward , and next state for a given state transition.

শিক্ষা স্থানান্তর

Transferring information from one machine learning task to another. For example, in multi-task learning, a single model solves multiple tasks, such as a deep model that has different output nodes for different tasks. Transfer learning might involve transferring knowledge from the solution of a simpler task to a more complex one, or involve transferring knowledge from a task where there is more data to one where there is less data.

Most machine learning systems solve a single task. Transfer learning is a baby step towards artificial intelligence in which a single program can solve multiple tasks.

ট্রান্সফরমার

#language

A neural network architecture developed at Google that relies on self-attention mechanisms to transform a sequence of input embeddings into a sequence of output embeddings without relying on convolutions or recurrent neural networks . A Transformer can be viewed as a stack of self-attention layers.

A Transformer can include any of the following:

An encoder transforms a sequence of embeddings into a new sequence of the same length. An encoder includes N identical layers, each of which contains two sub-layers. These two sub-layers are applied at each position of the input embedding sequence, transforming each element of the sequence into a new embedding. The first encoder sub-layer aggregates information from across the input sequence. The second encoder sub-layer transforms the aggregated information into an output embedding.

A decoder transforms a sequence of input embeddings into a sequence of output embeddings, possibly with a different length. A decoder also includes N identical layers with three sub-layers, two of which are similar to the encoder sub-layers. The third decoder sub-layer takes the output of the encoder and applies the self-attention mechanism to gather information from it.

The blog post Transformer: A Novel Neural Network Architecture for Language Understanding provides a good introduction to Transformers.

LLMs দেখুন: একটি বড় ভাষা মডেল কি? in Machine Learning Crash Course for more information.

translational invariance

#ছবি

In an image classification problem, an algorithm's ability to successfully classify images even when the position of objects within the image changes. For example, the algorithm can still identify a dog, whether it is in the center of the frame or at the left end of the frame.

See also size invariance and rotational invariance .

trigram

#সেক
#language

An N-gram in which N=3.

true negative (TN)

#মৌলিক
#মেট্রিক

An example in which the model correctly predicts the negative class . For example, the model infers that a particular email message is not spam , and that email message really is not spam .

true positive (TP)

#মৌলিক
#মেট্রিক

An example in which the model correctly predicts the positive class . For example, the model infers that a particular email message is spam, and that email message really is spam.

true positive rate (TPR)

#ফান্ডামেন্টালস
#মেট্রিক

Synonym for recall . অর্থাৎ:

$$\text{true positive rate} = \frac {\text{true positives}} {\text{true positives} + \text{false negatives}}$$

True positive rate is the y-axis in an ROC curve .

unawareness (to a sensitive attribute)

#responsible

A situation in which sensitive attributes are present, but not included in the training data. Because sensitive attributes are often correlated with other attributes of one's data, a model trained with unawareness about a sensitive attribute could still have disparate impact with respect to that attribute, or violate other fairness constraints .

আন্ডারফিটিং

#ফান্ডামেন্টালস

Producing a model with poor predictive ability because the model hasn't fully captured the complexity of the training data. Many problems can cause underfitting, including:

See Overfitting in Machine Learning Crash Course for more information.

আন্ডারস্যাম্পলিং

Removing examples from the majority class in a class-imbalanced dataset in order to create a more balanced training set .

For example, consider a dataset in which the ratio of the majority class to the minority class is 20:1. To overcome this class imbalance, you could create a training set consisting of all of the minority class examples but only a tenth of the majority class examples, which would create a training-set class ratio of 2:1. Thanks to undersampling, this more balanced training set might produce a better model. Alternatively, this more balanced training set might contain insufficient examples to train an effective model.

Contrast with oversampling .

একমুখী

#language

A system that only evaluates the text that precedes a target section of text. In contrast, a bidirectional system evaluates both the text that precedes and follows a target section of text. See bidirectional for more details.

unidirectional language model

#language

A language model that bases its probabilities only on the tokens appearing before , not after , the target token(s). Contrast with bidirectional language model .

unlabeled example

#ফান্ডামেন্টালস

An example that contains features but no label . For example, the following table shows three unlabeled examples from a house valuation model, each with three features but no house value:

বেডরুমের সংখ্যা বাথরুমের সংখ্যা ঘরের বয়স
3 2 15
2 1 72
4 2 34

In supervised machine learning , models train on labeled examples and make predictions on unlabeled examples .

In semi-supervised and unsupervised learning, unlabeled examples are used during training.

Contrast unlabeled example with labeled example .

unsupervised machine learning

# ক্লাস্টারিং
#ফান্ডামেন্টালস

Training a model to find patterns in a dataset, typically an unlabeled dataset.

The most common use of unsupervised machine learning is to cluster data into groups of similar examples. For example, an unsupervised machine learning algorithm can cluster songs based on various properties of the music. The resulting clusters can become an input to other machine learning algorithms (for example, to a music recommendation service). Clustering can help when useful labels are scarce or absent. For example, in domains such as anti-abuse and fraud, clusters can help humans better understand the data.

Contrast with supervised machine learning .

See What is Machine Learning? in the Introduction to ML course for more information.

uplift modeling

A modeling technique, commonly used in marketing, that models the "causal effect" (also known as the "incremental impact") of a "treatment" on an "individual." এখানে দুটি উদাহরণ আছে:

  • Doctors might use uplift modeling to predict the mortality decrease (causal effect) of a medical procedure (treatment) depending on the age and medical history of a patient (individual).
  • Marketers might use uplift modeling to predict the increase in probability of a purchase (causal effect) due to an advertisement (treatment) on a person (individual).

Uplift modeling differs from classification or regression in that some labels (for example, half of the labels in binary treatments) are always missing in uplift modeling. For example, a patient can either receive or not receive a treatment; therefore, we can only observe whether the patient is going to heal or not heal in only one of these two situations (but never both). The main advantage of an uplift model is that it can generate predictions for the unobserved situation (the counterfactual) and use it to compute the causal effect.

upweighting

Applying a weight to the downsampled class equal to the factor by which you downsampled.

user matrix

#রিসিস্টেম

In recommendation systems , an embedding vector generated by matrix factorization that holds latent signals about user preferences. Each row of the user matrix holds information about the relative strength of various latent signals for a single user. For example, consider a movie recommendation system. In this system, the latent signals in the user matrix might represent each user's interest in particular genres, or might be harder-to-interpret signals that involve complex interactions across multiple factors.

The user matrix has a column for each latent feature and a row for each user. That is, the user matrix has the same number of rows as the target matrix that is being factorized. For example, given a movie recommendation system for 1,000,000 users, the user matrix will have 1,000,000 rows.

ভি

বৈধতা

#ফান্ডামেন্টালস

The initial evaluation of a model's quality. Validation checks the quality of a model's predictions against the validation set .

Because the validation set differs from the training set , validation helps guard against overfitting .

You might think of evaluating the model against the validation set as the first round of testing and evaluating the model against the test set as the second round of testing.

validation loss

#ফান্ডামেন্টালস
#মেট্রিক

A metric representing a model's loss on the validation set during a particular iteration of training.

See also generalization curve .

validation set

#ফান্ডামেন্টালস

The subset of the dataset that performs initial evaluation against a trained model . Typically, you evaluate the trained model against the validation set several times before evaluating the model against the test set .

Traditionally, you divide the examples in the dataset into the following three distinct subsets:

Ideally, each example in the dataset should belong to only one of the preceding subsets. For example, a single example shouldn't belong to both the training set and the validation set.

See Datasets: Dividing the original dataset in Machine Learning Crash Course for more information.

value imputation

The process of replacing a missing value with an acceptable substitute. When a value is missing, you can either discard the entire example or you can use value imputation to salvage the example.

For example, consider a dataset containing a temperature feature that is supposed to be recorded every hour. However, the temperature reading was unavailable for a particular hour. Here is a section of the dataset:

টাইমস্ট্যাম্প তাপমাত্রা
1680561000 10
1680564600 12
1680568200 অনুপস্থিত
1680571800 20
1680575400 21
1680579000 21

A system could either delete the missing example or impute the missing temperature as 12, 16, 18, or 20, depending on the imputation algorithm.

অদৃশ্য গ্রেডিয়েন্ট সমস্যা

#সেক

The tendency for the gradients of early hidden layers of some deep neural networks to become surprisingly flat (low). Increasingly lower gradients result in increasingly smaller changes to the weights on nodes in a deep neural network, leading to little or no learning. Models suffering from the vanishing gradient problem become difficult or impossible to train. Long Short-Term Memory cells address this issue.

Compare to exploding gradient problem .

variable importances

#df
#মেট্রিক

A set of scores that indicates the relative importance of each feature to the model.

For example, consider a decision tree that estimates house prices. Suppose this decision tree uses three features: size, age, and style. If a set of variable importances for the three features are calculated to be {size=5.8, age=2.5, style=4.7}, then size is more important to the decision tree than age or style.

Different variable importance metrics exist, which can inform ML experts about different aspects of models.

variational autoencoder (VAE)

#language

A type of autoencoder that leverages the discrepancy between inputs and outputs to generate modified versions of the inputs. Variational autoencoders are useful for generative AI .

VAEs are based on variational inference: a technique for estimating the parameters of a probability model.

ভেক্টর

Very overloaded term whose meaning varies across different mathematical and scientific fields. Within machine learning, a vector has two properties:

  • Data type: Vectors in machine learning usually hold floating-point numbers.
  • Number of elements: This is the vector's length or its dimension .

For example, consider a feature vector that holds eight floating-point numbers. This feature vector has a length or dimension of eight. Note that machine learning vectors often have a huge number of dimensions.

You can represent many different kinds of information as a vector. যেমন:

  • Any position on the surface of Earth can be represented as a 2-dimensional vector, where one dimension is the latitude and the other is the longitude.
  • The current prices of each of 500 stocks can be represented as a 500-dimensional vector.
  • A probability distribution over a finite number of classes can be represented as a vector. For example, a multiclass classification system that predicts one of three output colors (red, green, or yellow) could output the vector (0.3, 0.2, 0.5) to mean P[red]=0.3, P[green]=0.2, P[yellow]=0.5 .

Vectors can be concatenated; therefore, a variety of different media can be represented as a single vector. Some models operate directly on the concatenation of many one-hot encodings .

Specialized processors such as TPUs are optimized to perform mathematical operations on vectors.

A vector is a tensor of rank 1.

ডব্লিউ

Wasserstein loss

#মেট্রিক

One of the loss functions commonly used in generative adversarial networks , based on the earth mover's distance between the distribution of generated data and real data.

ওজন

#ফান্ডামেন্টালস

A value that a model multiplies by another value. Training is the process of determining a model's ideal weights; inference is the process of using those learned weights to make predictions.

See Linear regression in Machine Learning Crash Course for more information.

Weighted Alternating Least Squares (WALS)

#রিসিস্টেম

An algorithm for minimizing the objective function during matrix factorization in recommendation systems , which allows a downweighting of the missing examples. WALS minimizes the weighted squared error between the original matrix and the reconstruction by alternating between fixing the row factorization and column factorization. Each of these optimizations can be solved by least squares convex optimization . For details, see the Recommendation Systems course .

weighted sum

#ফান্ডামেন্টালস

The sum of all the relevant input values multiplied by their corresponding weights. For example, suppose the relevant inputs consist of the following:

ইনপুট মান ইনপুট ওজন
2 -1.3
-1 0.6
3 0.4

ওজনযুক্ত যোগফল তাই:

weighted sum = (2)(-1.3) + (-1)(0.6) + (3)(0.4) = -2.0

A weighted sum is the input argument to an activation function .

wide model

A linear model that typically has many sparse input features . We refer to it as "wide" since such a model is a special type of neural network with a large number of inputs that connect directly to the output node. Wide models are often easier to debug and inspect than deep models . Although wide models cannot express nonlinearities through hidden layers , wide models can use transformations such as feature crossing and bucketization to model nonlinearities in different ways.

Contrast with deep model .

প্রস্থ

The number of neurons in a particular layer of a neural network .

wisdom of the crowd

#df

The idea that averaging the opinions or estimates of a large group of people ("the crowd") often produces surprisingly good results. For example, consider a game in which people guess the number of jelly beans packed into a large jar. Although most individual guesses will be inaccurate, the average of all the guesses has been empirically shown to be surprisingly close to the actual number of jelly beans in the jar.

Ensembles are a software analog of wisdom of the crowd. Even if individual models make wildly inaccurate predictions, averaging the predictions of many models often generates surprisingly good predictions. For example, although an individual decision tree might make poor predictions, a decision forest often makes very good predictions.

শব্দ এমবেডিং

#language

Representing each word in a word set within an embedding vector ; that is, representing each word as a vector of floating-point values between 0.0 and 1.0. Words with similar meanings have more-similar representations than words with different meanings. For example, carrots , celery , and cucumbers would all have relatively similar representations, which would be very different from the representations of airplane , sunglasses , and toothpaste .

এক্স

XLA (Accelerated Linear Algebra)

An open-source machine learning compiler for GPUs, CPUs, and ML accelerators.

The XLA compiler takes models from popular ML frameworks such as PyTorch , TensorFlow , and JAX , and optimizes them for high-performance execution across different hardware platforms including GPUs, CPUs, and ML accelerators .

জেড

শূন্য-শট শিক্ষা

A type of machine learning training where the model infers a prediction for a task that it was not specifically already trained on. In other words, the model is given zero task-specific training examples but asked to do inference for that task.

zero-shot prompting

#language
#generativeAI

A prompt that does not provide an example of how you want the large language model to respond. যেমন:

Parts of one prompt নোট
What is the official currency of the specified country? The question you want the LLM to answer.
ভারত: The actual query.

The large language model might respond with any of the following:

  • রুপি
  • INR
  • ভারতীয় রুপি
  • The rupee
  • The Indian rupee

All of the answers are correct, though you might prefer a particular format.

Compare and contrast zero-shot prompting with the following terms:

জেড-স্কোর স্বাভাবিককরণ

#ফান্ডামেন্টালস

A scaling technique that replaces a raw feature value with a floating-point value representing the number of standard deviations from that feature's mean. For example, consider a feature whose mean is 800 and whose standard deviation is 100. The following table shows how Z-score normalization would map the raw value to its Z-score:

কাঁচা মান জেড-স্কোর
800 0
950 +1.5
575 -2.25

The machine learning model then trains on the Z-scores for that feature instead of on the raw values.

আরও তথ্যের জন্য সংখ্যাসূচক ডেটা দেখুন: মেশিন লার্নিং ক্র্যাশ কোর্সে সাধারণীকরণ

,

এই শব্দকোষ মেশিন লার্নিং শর্তাবলী সংজ্ঞায়িত করে।

বিমোচন

একটি মডেল থেকে সাময়িকভাবে অপসারণ করে একটি বৈশিষ্ট্য বা উপাদানের গুরুত্ব মূল্যায়ন করার একটি কৌশল৷ তারপরে আপনি সেই বৈশিষ্ট্য বা উপাদান ছাড়াই মডেলটিকে পুনরায় প্রশিক্ষণ দিন এবং যদি পুনরায় প্রশিক্ষিত মডেলটি উল্লেখযোগ্যভাবে খারাপ কাজ করে, তাহলে অপসারিত বৈশিষ্ট্য বা উপাদানটি সম্ভবত গুরুত্বপূর্ণ ছিল।

উদাহরণস্বরূপ, ধরুন আপনি 10টি বৈশিষ্ট্যের উপর একটি শ্রেণিবিন্যাস মডেলকে প্রশিক্ষণ দিচ্ছেন এবং পরীক্ষা সেটে 88% নির্ভুলতা অর্জন করেছেন। প্রথম বৈশিষ্ট্যটির গুরুত্ব পরীক্ষা করতে, আপনি শুধুমাত্র নয়টি অন্যান্য বৈশিষ্ট্য ব্যবহার করে মডেলটিকে পুনরায় প্রশিক্ষণ দিতে পারেন। যদি পুনরায় প্রশিক্ষিত মডেল উল্লেখযোগ্যভাবে খারাপ কাজ করে (উদাহরণস্বরূপ, 55% নির্ভুলতা), তাহলে অপসারণ বৈশিষ্ট্যটি সম্ভবত গুরুত্বপূর্ণ ছিল। বিপরীতভাবে, যদি পুনরায় প্রশিক্ষিত মডেলটি সমানভাবে ভাল পারফর্ম করে, তবে সেই বৈশিষ্ট্যটি সম্ভবত গুরুত্বপূর্ণ ছিল না।

নির্মূল এছাড়াও গুরুত্ব নির্ধারণ করতে সাহায্য করতে পারে:

  • বৃহত্তর উপাদান, যেমন একটি বৃহত্তর এমএল সিস্টেমের একটি সম্পূর্ণ সাবসিস্টেম
  • প্রক্রিয়া বা কৌশল, যেমন একটি ডেটা প্রিপ্রসেসিং ধাপ

উভয় ক্ষেত্রেই, আপনি উপাদানটি সরানোর পরে কীভাবে সিস্টেমের কর্মক্ষমতা পরিবর্তিত হয় (বা পরিবর্তন হয় না) তা আপনি লক্ষ্য করবেন।

A/B পরীক্ষা

দুটি (বা তার বেশি) কৌশল তুলনা করার একটি পরিসংখ্যানগত উপায় - A এবং B। সাধারণত, A একটি বিদ্যমান কৌশল, এবং B একটি নতুন কৌশল। A/B পরীক্ষা কেবলমাত্র কোন কৌশলটি ভাল কাজ করে তা নির্ধারণ করে না তবে পার্থক্যটি পরিসংখ্যানগতভাবে তাৎপর্যপূর্ণ কিনা তাও নির্ধারণ করে।

A/B পরীক্ষা সাধারণত দুটি কৌশলে একটি একক মেট্রিকের তুলনা করে; উদাহরণস্বরূপ, দুটি কৌশলের জন্য মডেল নির্ভুলতা কীভাবে তুলনা করে? যাইহোক, A/B টেস্টিং যেকোন সীমিত সংখ্যক মেট্রিকের তুলনা করতে পারে।

এক্সিলারেটর চিপ

#GoogleCloud

গভীর শিক্ষার অ্যালগরিদমগুলির জন্য প্রয়োজনীয় মূল গণনাগুলি সম্পাদন করার জন্য ডিজাইন করা বিশেষ হার্ডওয়্যার উপাদানগুলির একটি বিভাগ।

অ্যাক্সিলারেটর চিপস (বা সংক্ষেপে শুধু অ্যাক্সিলারেটর ) একটি সাধারণ-উদ্দেশ্য CPU-এর তুলনায় প্রশিক্ষণ এবং অনুমান কার্যগুলির গতি এবং দক্ষতা উল্লেখযোগ্যভাবে বৃদ্ধি করতে পারে। তারা নিউরাল নেটওয়ার্ক এবং অনুরূপ গণনামূলকভাবে নিবিড় কাজ প্রশিক্ষণের জন্য আদর্শ।

অ্যাক্সিলারেটর চিপগুলির উদাহরণগুলির মধ্যে রয়েছে:

  • গভীর শিক্ষার জন্য ডেডিকেটেড হার্ডওয়্যার সহ Google-এর টেনসর প্রসেসিং ইউনিট ( TPUs )।
  • NVIDIA-এর GPUগুলি, যদিও প্রাথমিকভাবে গ্রাফিক্স প্রক্রিয়াকরণের জন্য ডিজাইন করা হয়েছে, সমান্তরাল প্রক্রিয়াকরণ সক্ষম করার জন্য ডিজাইন করা হয়েছে, যা প্রক্রিয়াকরণের গতি উল্লেখযোগ্যভাবে বৃদ্ধি করতে পারে।

নির্ভুলতা

#মৌলিক
#মেট্রিক

সঠিক শ্রেণীবিভাগের ভবিষ্যদ্বাণীর সংখ্যাকে ভবিষ্যদ্বাণীর মোট সংখ্যা দিয়ে ভাগ করলে। অর্থাৎ:

$$\text{Accuracy} = \frac{\text{correct predictions}} {\text{correct predictions + incorrect predictions }}$$

উদাহরণস্বরূপ, একটি মডেল যা 40টি সঠিক ভবিষ্যদ্বাণী করেছে এবং 10টি ভুল ভবিষ্যদ্বাণী করেছে তার সঠিকতা থাকবে:

$$\text{Accuracy} = \frac{\text{40}} {\text{40 + 10}} = \text{80%}$$

বাইনারি শ্রেণীবিভাগ সঠিক ভবিষ্যদ্বাণী এবং ভুল ভবিষ্যদ্বাণীর বিভিন্ন বিভাগের জন্য নির্দিষ্ট নাম প্রদান করে। সুতরাং, বাইনারি শ্রেণীবিভাগের নির্ভুলতা সূত্রটি নিম্নরূপ:

$$\text{Accuracy} = \frac{\text{TP} + \text{TN}} {\text{TP} + \text{TN} + \text{FP} + \text{FN}}$$

কোথায়:

নির্ভুলতা এবং প্রত্যাহার সঙ্গে তুলনা এবং বিপরীতে নির্ভুলতা.

আরও তথ্যের জন্য মেশিন লার্নিং ক্র্যাশ কোর্সে শ্রেণিবিন্যাস: যথার্থতা, স্মরণ, নির্ভুলতা এবং সম্পর্কিত মেট্রিক্স দেখুন।

কর্ম

#আরএল

শক্তিবৃদ্ধি শেখার ক্ষেত্রে, যে প্রক্রিয়ার মাধ্যমে এজেন্ট পরিবেশের অবস্থার মধ্যে স্থানান্তরিত হয়। এজেন্ট একটি নীতি ব্যবহার করে পদক্ষেপ বেছে নেয়।

সক্রিয়করণ ফাংশন

#মৌলিক

একটি ফাংশন যা নিউরাল নেটওয়ার্কগুলিকে বৈশিষ্ট্য এবং লেবেলের মধ্যে অরৈখিক (জটিল) সম্পর্ক শিখতে সক্ষম করে।

জনপ্রিয় সক্রিয়করণ ফাংশন অন্তর্ভুক্ত:

অ্যাক্টিভেশন ফাংশনগুলির প্লটগুলি কখনই একক সরলরেখা নয়। উদাহরণস্বরূপ, ReLU অ্যাক্টিভেশন ফাংশনের প্লট দুটি সরল রেখা নিয়ে গঠিত:

দুটি লাইনের একটি কার্টেসিয়ান প্লট। প্রথম লাইনে একটি ধ্রুবক আছে           0 এর y মান, x-অক্ষ বরাবর -ইনফিনিটি,0 থেকে 0,-0 পর্যন্ত চলছে।           দ্বিতীয় লাইন 0,0 এ শুরু হয়। এই লাইনে +1 এর ঢাল আছে, তাই           এটি 0,0 থেকে +ইনফিনিটি,+ইনফিনিটি পর্যন্ত চলে।

সিগমায়েড অ্যাক্টিভেশন ফাংশনের একটি প্লট নিম্নরূপ দেখায়:

ডোমেনে বিস্তৃত x মান সহ একটি দ্বি-মাত্রিক বাঁকা প্লট           -ইনফিনিটি থেকে +ধনাত্মক, যখন y মান প্রায় 0 থেকে পরিসরে বিস্তৃত           প্রায় 1. যখন x 0 হয়, y হয় 0.5। বক্ররেখার ঢাল সবসময়           ধনাত্মক, সর্বোচ্চ ঢাল 0,0.5 সহ এবং ধীরে ধীরে হ্রাস পাচ্ছে           x এর পরম মান বাড়ার সাথে সাথে ঢাল।

আরও তথ্যের জন্য নিউরাল নেটওয়ার্ক: মেশিন লার্নিং ক্র্যাশ কোর্সে অ্যাক্টিভেশন ফাংশন দেখুন।

সক্রিয় শিক্ষা

একটি প্রশিক্ষণ পদ্ধতি যেখানে অ্যালগরিদম কিছু ডেটা বেছে নেয় যা থেকে শেখে। সক্রিয় শিক্ষা বিশেষভাবে মূল্যবান যখন লেবেলযুক্ত উদাহরণগুলি প্রাপ্তির জন্য দুষ্প্রাপ্য বা ব্যয়বহুল। অন্ধভাবে লেবেলযুক্ত উদাহরণের বিভিন্ন পরিসর খোঁজার পরিবর্তে, একটি সক্রিয় লার্নিং অ্যালগরিদম বেছে বেছে নির্দিষ্ট পরিসরের উদাহরণ খোঁজে যা শেখার জন্য প্রয়োজন।

অ্যাডাগ্রাড

একটি পরিশীলিত গ্রেডিয়েন্ট ডিসেন্ট অ্যালগরিদম যা প্রতিটি প্যারামিটারের গ্রেডিয়েন্টকে পুনরায় স্কেল করে, কার্যকরভাবে প্রতিটি প্যারামিটারকে একটি স্বাধীন শেখার হার দেয়। সম্পূর্ণ ব্যাখ্যার জন্য, অনলাইন লার্নিং এবং স্টোকাস্টিক অপ্টিমাইজেশনের জন্য অভিযোজিত সাবগ্রেডিয়েন্ট পদ্ধতি দেখুন।

এজেন্ট

#আরএল

শক্তিবৃদ্ধি শেখার ক্ষেত্রে, যে সত্তা পরিবেশের রাজ্যগুলির মধ্যে স্থানান্তর থেকে অর্জিত প্রত্যাশিত রিটার্ন সর্বাধিক করার জন্য একটি নীতি ব্যবহার করে।

আরও সাধারণভাবে, একটি এজেন্ট হল এমন একটি সফ্টওয়্যার যা স্বায়ত্তশাসিতভাবে একটি লক্ষ্য অর্জনের জন্য একাধিক কর্মের পরিকল্পনা করে এবং কার্যকর করে, যার পরিবেশের পরিবর্তনের সাথে খাপ খাইয়ে নেওয়ার ক্ষমতা থাকে। উদাহরণস্বরূপ, একটি LLM- ভিত্তিক এজেন্ট একটি শক্তিবৃদ্ধি শেখার নীতি প্রয়োগ করার পরিবর্তে একটি পরিকল্পনা তৈরি করতে একটি LLM ব্যবহার করতে পারে।

সমষ্টিগত ক্লাস্টারিং

# ক্লাস্টারিং

অনুক্রমিক ক্লাস্টারিং দেখুন।

অসঙ্গতি সনাক্তকরণ

বহিরাগতদের চিহ্নিত করার প্রক্রিয়া। উদাহরণস্বরূপ, যদি একটি নির্দিষ্ট বৈশিষ্ট্যের গড় 100 এর একটি আদর্শ বিচ্যুতি 10 হয়, তাহলে অসঙ্গতি সনাক্তকরণ 200 এর মানকে সন্দেহজনক হিসাবে চিহ্নিত করা উচিত।

এআর

বর্ধিত বাস্তবতার সংক্ষিপ্ত রূপ।

পিআর বক্ররেখার অধীনে এলাকা

#মেট্রিক

PR AUC (PR বক্ররেখার অধীনে এলাকা) দেখুন।

ROC বক্ররেখার অধীনে এলাকা

#মেট্রিক

AUC (আরওসি বক্ররেখার অধীনে এলাকা) দেখুন।

কৃত্রিম সাধারণ বুদ্ধিমত্তা

একটি অ-মানবিক প্রক্রিয়া যা সমস্যা সমাধান, সৃজনশীলতা এবং অভিযোজনযোগ্যতার বিস্তৃত পরিসর প্রদর্শন করে। উদাহরণস্বরূপ, কৃত্রিম সাধারণ বুদ্ধিমত্তা প্রদর্শনকারী একটি প্রোগ্রাম পাঠ্য অনুবাদ করতে পারে, সিম্ফনি রচনা করতে পারে এবং গেমগুলিতে এক্সেল করতে পারে যা এখনও উদ্ভাবিত হয়নি।

কৃত্রিম বুদ্ধিমত্তা

#মৌলিক

একটি অ-মানব প্রোগ্রাম বা মডেল যা পরিশীলিত কাজগুলি সমাধান করতে পারে। উদাহরণস্বরূপ, একটি প্রোগ্রাম বা মডেল যা পাঠ্য অনুবাদ করে বা একটি প্রোগ্রাম বা মডেল যা রেডিওলজিক চিত্র থেকে রোগ সনাক্ত করে উভয়ই কৃত্রিম বুদ্ধিমত্তা প্রদর্শন করে।

আনুষ্ঠানিকভাবে, মেশিন লার্নিং হল কৃত্রিম বুদ্ধিমত্তার একটি উপ-ক্ষেত্র। যাইহোক, সাম্প্রতিক বছরগুলিতে, কিছু সংস্থা কৃত্রিম বুদ্ধিমত্তা এবং মেশিন লার্নিং শব্দগুলিকে বিনিময়যোগ্যভাবে ব্যবহার করা শুরু করেছে।

মনোযোগ

#ভাষা

একটি নিউরাল নেটওয়ার্কে ব্যবহৃত একটি প্রক্রিয়া যা একটি নির্দিষ্ট শব্দ বা শব্দের অংশের গুরুত্ব নির্দেশ করে। মনোযোগ একটি মডেলের পরবর্তী টোকেন/শব্দের পূর্বাভাস দিতে প্রয়োজনীয় তথ্যের পরিমাণ সংকুচিত করে। একটি সাধারণ মনোযোগ প্রক্রিয়া ইনপুটগুলির একটি সেটের উপর একটি ওজনযুক্ত যোগফল নিয়ে গঠিত হতে পারে, যেখানে প্রতিটি ইনপুটের ওজন নিউরাল নেটওয়ার্কের অন্য অংশ দ্বারা গণনা করা হয়।

স্ব-মনোযোগ এবং বহু-হেড স্ব-মনোযোগকেও উল্লেখ করুন, যা ট্রান্সফরমারের বিল্ডিং ব্লক।

LLMs দেখুন: একটি বড় ভাষা মডেল কি? স্ব-মনোযোগ সম্পর্কে আরও তথ্যের জন্য মেশিন লার্নিং ক্র্যাশ কোর্সে।

বৈশিষ্ট্য

#দায়িত্বশীল

বৈশিষ্ট্য জন্য সমার্থক.

মেশিন লার্নিং ন্যায্যতায়, বৈশিষ্ট্যগুলি প্রায়শই ব্যক্তি সম্পর্কিত বৈশিষ্ট্যগুলিকে বোঝায়।

বৈশিষ্ট্য নমুনা

#df

একটি সিদ্ধান্ত বন প্রশিক্ষণের জন্য একটি কৌশল যেখানে প্রতিটি সিদ্ধান্ত গাছ শর্ত শেখার সময় সম্ভাব্য বৈশিষ্ট্যগুলির একটি এলোমেলো উপসেট বিবেচনা করে। সাধারণত, প্রতিটি নোডের জন্য বৈশিষ্ট্যগুলির একটি ভিন্ন উপসেট নমুনা করা হয়। বিপরীতে, অ্যাট্রিবিউট স্যাম্পলিং ছাড়াই একটি সিদ্ধান্ত গাছকে প্রশিক্ষণ দেওয়ার সময়, প্রতিটি নোডের জন্য সমস্ত সম্ভাব্য বৈশিষ্ট্য বিবেচনা করা হয়।

AUC (ROC বক্ররেখার অধীনে এলাকা)

#মৌলিক
#মেট্রিক

0.0 এবং 1.0 এর মধ্যে একটি সংখ্যা যা একটি বাইনারি শ্রেণীবিন্যাস মডেলের নেতিবাচক শ্রেণী থেকে ইতিবাচক শ্রেণীগুলিকে পৃথক করার ক্ষমতা উপস্থাপন করে। AUC 1.0 এর যত কাছাকাছি হবে, মডেলের একে অপরের থেকে ক্লাস আলাদা করার ক্ষমতা তত ভাল।

উদাহরণস্বরূপ, নিম্নলিখিত চিত্রটি একটি শ্রেণিবিন্যাস মডেল দেখায় যা ইতিবাচক শ্রেণীগুলি (সবুজ ডিম্বাকৃতি) নেতিবাচক শ্রেণী (বেগুনি আয়তক্ষেত্র) থেকে পুরোপুরি আলাদা করে। এই অবাস্তবভাবে নিখুঁত মডেলটির একটি AUC 1.0 রয়েছে:

এক পাশে 8টি ইতিবাচক উদাহরণ সহ একটি সংখ্যা রেখা এবং           অন্য দিকে 9টি নেতিবাচক উদাহরণ।

বিপরীতভাবে, নিম্নলিখিত চিত্রটি একটি শ্রেণীবিভাগ মডেলের ফলাফল দেখায় যা এলোমেলো ফলাফল তৈরি করেছে। এই মডেলটির একটি AUC 0.5 রয়েছে:

6টি ইতিবাচক উদাহরণ এবং 6টি নেতিবাচক উদাহরণ সহ একটি সংখ্যা রেখা৷           উদাহরণের ক্রমটি ইতিবাচক, নেতিবাচক,           ইতিবাচক, নেতিবাচক, ইতিবাচক, নেতিবাচক, ইতিবাচক, নেতিবাচক, ইতিবাচক           নেতিবাচক, ইতিবাচক, নেতিবাচক।

হ্যাঁ, পূর্ববর্তী মডেলটির একটি AUC 0.5 আছে, 0.0 নয়৷

বেশিরভাগ মডেল দুটি চরমের মধ্যে কোথাও আছে। উদাহরণস্বরূপ, নিম্নলিখিত মডেলটি নেতিবাচক থেকে ইতিবাচককে কিছুটা আলাদা করে, এবং তাই 0.5 এবং 1.0 এর মধ্যে একটি AUC রয়েছে:

6টি ইতিবাচক উদাহরণ এবং 6টি নেতিবাচক উদাহরণ সহ একটি সংখ্যা রেখা৷           উদাহরণের ক্রম হল ঋণাত্মক, ঋণাত্মক, ঋণাত্মক, ঋণাত্মক,           ইতিবাচক, নেতিবাচক, ইতিবাচক, ইতিবাচক, নেতিবাচক, ইতিবাচক, ইতিবাচক           ইতিবাচক

AUC আপনার শ্রেণীবিন্যাস থ্রেশহোল্ডের জন্য সেট করা যেকোনো মান উপেক্ষা করে। পরিবর্তে, AUC সমস্ত সম্ভাব্য শ্রেণীবিভাগ থ্রেশহোল্ড বিবেচনা করে।

আরও তথ্যের জন্য শ্রেণীবিভাগ দেখুন: মেশিন লার্নিং ক্র্যাশ কোর্সে ROC এবং AUC

বর্ধিত বাস্তবতা

#ছবি

একটি প্রযুক্তি যা একটি কম্পিউটার-উত্পাদিত চিত্রকে বাস্তব জগতের একজন ব্যবহারকারীর দৃষ্টিভঙ্গির উপর তুলে ধরে, এইভাবে একটি যৌগিক দৃশ্য প্রদান করে।

অটোএনকোডার

#ভাষা
#ছবি

একটি সিস্টেম যা ইনপুট থেকে সবচেয়ে গুরুত্বপূর্ণ তথ্য বের করতে শেখে। অটোএনকোডার হল একটি এনকোডার এবং ডিকোডারের সংমিশ্রণ। অটোএনকোডারগুলি নিম্নলিখিত দ্বি-পদক্ষেপ প্রক্রিয়ার উপর নির্ভর করে:

  1. এনকোডার ইনপুটকে একটি (সাধারণত) ক্ষতিকর নিম্ন-মাত্রিক (মধ্যবর্তী) বিন্যাসে ম্যাপ করে।
  2. ডিকোডার নিম্ন-মাত্রিক বিন্যাসটিকে মূল উচ্চ-মাত্রিক ইনপুট বিন্যাসে ম্যাপ করে মূল ইনপুটের একটি ক্ষতিকারক সংস্করণ তৈরি করে।

এনকোডারের মধ্যবর্তী বিন্যাস থেকে যতটা সম্ভব ঘনিষ্ঠভাবে মূল ইনপুট পুনর্গঠন করার জন্য ডিকোডার প্রচেষ্টার মাধ্যমে অটোএনকোডারদের এন্ড-টু-এন্ড প্রশিক্ষিত করা হয়। মধ্যবর্তী বিন্যাসটি মূল বিন্যাসের চেয়ে ছোট (নিম্ন-মাত্রিক) হওয়ায়, অটোএনকোডারকে ইনপুটে কোন তথ্য অপরিহার্য তা শিখতে বাধ্য করা হয় এবং আউটপুটটি ইনপুটের সাথে পুরোপুরি অভিন্ন হবে না।

যেমন:

  • যদি ইনপুট ডেটা একটি গ্রাফিক হয়, অ-নির্ভুল অনুলিপিটি মূল গ্রাফিকের অনুরূপ হবে, তবে কিছুটা পরিবর্তিত হবে। সম্ভবত অ-নির্ভুল অনুলিপি মূল গ্রাফিক থেকে শব্দ সরিয়ে দেয় বা কিছু অনুপস্থিত পিক্সেল পূরণ করে।
  • যদি ইনপুট ডেটা পাঠ্য হয় তবে একটি অটোএনকোডার নতুন পাঠ্য তৈরি করবে যা মূল পাঠ্যের অনুকরণ করে (কিন্তু অনুরূপ নয়)।

পরিবর্তনশীল অটোএনকোডারগুলিও দেখুন।

স্বয়ংক্রিয় মূল্যায়ন

#ভাষা
#generativeAI

একটি মডেলের আউটপুট গুণমান বিচার করতে সফ্টওয়্যার ব্যবহার করে.

যখন মডেল আউটপুট তুলনামূলকভাবে সহজবোধ্য হয়, তখন একটি স্ক্রিপ্ট বা প্রোগ্রাম মডেলের আউটপুটকে সোনালী প্রতিক্রিয়ার সাথে তুলনা করতে পারে। এই ধরনের স্বয়ংক্রিয় মূল্যায়নকে কখনও কখনও প্রোগ্রামেটিক মূল্যায়ন বলা হয়। মেট্রিক্স যেমন ROUGE বা BLEU প্রায়ই প্রোগ্রামেটিক মূল্যায়নের জন্য উপযোগী।

যখন মডেল আউটপুট জটিল হয় বা এর কোনো সঠিক উত্তর থাকে না , তখন একটি স্বয়ংক্রিয় এমএল প্রোগ্রাম নামে পরিচিত একটি স্বয়ংক্রিয় মূল্যায়ন করে।

মানুষের মূল্যায়নের সাথে বৈসাদৃশ্য।

অটোমেশন পক্ষপাত

#দায়িত্বশীল

যখন একজন মানবিক সিদ্ধান্ত গ্রহণকারী অটোমেশন ছাড়াই তৈরি তথ্যের উপর একটি স্বয়ংক্রিয় সিদ্ধান্ত-প্রণয়ন ব্যবস্থার দ্বারা প্রণীত সুপারিশগুলিকে সমর্থন করে, এমনকি যখন স্বয়ংক্রিয় সিদ্ধান্ত গ্রহণের সিস্টেম ত্রুটি করে।

আরও তথ্যের জন্য মেশিন লার্নিং ক্র্যাশ কোর্সে ন্যায্যতা: পক্ষপাতের প্রকারগুলি দেখুন।

অটোএমএল

মেশিন লার্নিং মডেল তৈরির জন্য যেকোনো স্বয়ংক্রিয় প্রক্রিয়া। অটোএমএল স্বয়ংক্রিয়ভাবে নিম্নলিখিত কাজগুলি করতে পারে:

অটোএমএল ডেটা বিজ্ঞানীদের জন্য উপযোগী কারণ এটি তাদের মেশিন লার্নিং পাইপলাইন তৈরিতে সময় এবং শ্রম বাঁচাতে পারে এবং ভবিষ্যদ্বাণীর নির্ভুলতা উন্নত করতে পারে। এটি অ-বিশেষজ্ঞদের জন্যও দরকারী, তাদের কাছে জটিল মেশিন লার্নিং কাজগুলিকে আরও অ্যাক্সেসযোগ্য করে তোলে।

আরও তথ্যের জন্য মেশিন লার্নিং ক্র্যাশ কোর্সে অটোমেটেড মেশিন লার্নিং (অটোএমএল) দেখুন।

অটোরাটার মূল্যায়ন

#ভাষা
#generativeAI
একটি জেনারেটিভ এআই মডেলের আউটপুটের গুণমান বিচার করার জন্য একটি হাইব্রিড প্রক্রিয়া যা মানুষের মূল্যায়নকে স্বয়ংক্রিয় মূল্যায়নের সাথে একত্রিত করে। একটি অটোরাটার হল একটি এমএল মডেল যা মানুষের মূল্যায়ন দ্বারা তৈরি ডেটার উপর প্রশিক্ষিত। আদর্শভাবে, একজন অটোরাটার একজন মানুষের মূল্যায়নকারীকে অনুকরণ করতে শেখে।

প্রি-বিল্ট অটোরেটর উপলব্ধ, তবে সেরা অটোরেটরগুলি বিশেষভাবে আপনি যে কাজটি মূল্যায়ন করছেন তার জন্য সূক্ষ্ম সুর করা হয়।

অটো রিগ্রেসিভ মডেল

#ভাষা
#ছবি
#generativeAI

একটি মডেল যা তার নিজের পূর্বের ভবিষ্যদ্বাণীগুলির উপর ভিত্তি করে একটি ভবিষ্যদ্বাণী অনুমান করে৷ উদাহরণস্বরূপ, অটো-রিগ্রেসিভ ল্যাঙ্গুয়েজ মডেলগুলি পূর্বে ভবিষ্যদ্বাণী করা টোকেনের উপর ভিত্তি করে পরবর্তী টোকেনের পূর্বাভাস দেয়। সমস্ত ট্রান্সফরমার -ভিত্তিক বৃহৎ ভাষার মডেলগুলি স্বয়ংক্রিয়-রিগ্রেসিভ।

বিপরীতে, GAN- ভিত্তিক ইমেজ মডেলগুলি সাধারণত অটো-রিগ্রেসিভ হয় না কারণ তারা একটি একক ফরোয়ার্ড-পাসে একটি ছবি তৈরি করে এবং ধাপে ধাপে নয়। যাইহোক, কিছু ইমেজ জেনারেশন মডেল অটো-রিগ্রেসিভ কারণ তারা ধাপে ধাপে একটি ইমেজ তৈরি করে।

সহায়ক ক্ষতি

একটি লস ফাংশন - একটি নিউরাল নেটওয়ার্ক মডেলের প্রধান ক্ষতি ফাংশনের সাথে একত্রে ব্যবহৃত - যা প্রাথমিক পুনরাবৃত্তির সময় প্রশিক্ষণকে ত্বরান্বিত করতে সাহায্য করে যখন ওজন এলোমেলোভাবে শুরু হয়।

অক্জিলিয়ারী লস ফাংশনগুলি কার্যকর গ্রেডিয়েন্টগুলিকে আগের স্তরগুলিতে ঠেলে দেয়। এটি অদৃশ্য গ্রেডিয়েন্ট সমস্যা মোকাবেলা করে প্রশিক্ষণের সময় একত্রিত হওয়া সহজ করে।

k এ গড় নির্ভুলতা

#ভাষা
#মেট্রিক

একটি একক প্রম্পটে মডেলের কর্মক্ষমতা সংক্ষিপ্ত করার জন্য একটি মেট্রিক যা র‌্যাঙ্ক করা ফলাফল তৈরি করে, যেমন বইয়ের সুপারিশের একটি সংখ্যাযুক্ত তালিকা। k- এ গড় নির্ভুলতা হল, ভাল, প্রতিটি প্রাসঙ্গিক ফলাফলের জন্য k মানের নির্ভুলতার গড়। k এ গড় নির্ভুলতার সূত্রটি তাই:

\[{\text{average precision at k}} = \frac{1}{n} \sum_{i=1}^n {\text{precision at k for each relevant item} } \]

কোথায়:

  • \(n\) তালিকায় প্রাসঙ্গিক আইটেমের সংখ্যা।

k এ প্রত্যাহার সঙ্গে বৈসাদৃশ্য।

অক্ষ-সারিবদ্ধ অবস্থা

#df

একটি সিদ্ধান্ত গাছে , একটি শর্ত যা শুধুমাত্র একটি একক বৈশিষ্ট্য জড়িত। উদাহরণস্বরূপ, যদি area একটি বৈশিষ্ট্য হয়, তাহলে নিম্নলিখিতটি একটি অক্ষ-সারিবদ্ধ শর্ত:

area > 200

তির্যক অবস্থার সাথে বৈসাদৃশ্য।

backpropagation

#মৌলিক

অ্যালগরিদম যা নিউরাল নেটওয়ার্কগুলিতে গ্রেডিয়েন্ট ডিসেন্ট প্রয়োগ করে৷

একটি নিউরাল নেটওয়ার্ক প্রশিক্ষণ নিম্নলিখিত দুই-পাস চক্রের অনেক পুনরাবৃত্তি জড়িত:

  1. ফরওয়ার্ড পাসের সময়, সিস্টেম ভবিষ্যদ্বাণী(গুলি) প্রদানের জন্য উদাহরণগুলির একটি ব্যাচ প্রক্রিয়া করে। সিস্টেম প্রতিটি লেবেল মানের সাথে প্রতিটি ভবিষ্যদ্বাণী তুলনা করে। ভবিষ্যদ্বাণী এবং লেবেল মানের মধ্যে পার্থক্য হল সেই উদাহরণের ক্ষতি । বর্তমান ব্যাচের মোট ক্ষতি গণনা করার জন্য সিস্টেমটি সমস্ত উদাহরণের জন্য ক্ষতিগুলিকে একত্রিত করে।
  2. ব্যাকওয়ার্ড পাসের সময় (ব্যাকপ্রপাগেশন), সিস্টেমটি সমস্ত লুকানো স্তর(গুলি) এর সমস্ত নিউরনের ওজন সামঞ্জস্য করে ক্ষতি হ্রাস করে।

নিউরাল নেটওয়ার্কে প্রায়ই অনেক লুকানো স্তর জুড়ে অনেক নিউরন থাকে। এই নিউরনগুলির প্রতিটি বিভিন্ন উপায়ে সামগ্রিক ক্ষতিতে অবদান রাখে। ব্যাকপ্রোপ্যাগেশন নির্দিষ্ট নিউরনগুলিতে প্রয়োগ করা ওজন বাড়ানো বা হ্রাস করা নির্ধারণ করে।

শেখার হার হল একটি গুণক যা প্রতিটি পশ্চাদগামী পাস প্রতিটি ওজন বৃদ্ধি বা হ্রাস করার মাত্রা নিয়ন্ত্রণ করে। একটি বড় শেখার হার প্রতিটি ওজন একটি ছোট শেখার হারের চেয়ে বেশি বৃদ্ধি বা হ্রাস করবে।

ক্যালকুলাস পদে, ব্যাকপ্রোপগেশন চেইন নিয়ম প্রয়োগ করে। ক্যালকুলাস থেকে অর্থাৎ, ব্যাকপ্রোপগেশন প্রতিটি প্যারামিটারের ক্ষেত্রে ত্রুটির আংশিক ডেরিভেটিভ গণনা করে।

কয়েক বছর আগে, এমএল অনুশীলনকারীদের ব্যাকপ্রোপগেশন বাস্তবায়নের জন্য কোড লিখতে হয়েছিল। কেরাসের মতো আধুনিক ML APIগুলি এখন আপনার জন্য ব্যাকপ্রোপগেশন প্রয়োগ করে৷ ফাউ!

আরও তথ্যের জন্য মেশিন লার্নিং ক্র্যাশ কোর্সে নিউরাল নেটওয়ার্ক দেখুন।

ব্যাগিং

#df

একটি দলকে প্রশিক্ষণ দেওয়ার একটি পদ্ধতি যেখানে প্রতিটি উপাদান মডেল প্রতিস্থাপন সহ নমুনাযুক্ত প্রশিক্ষণ উদাহরণগুলির একটি এলোমেলো উপসেটে প্রশিক্ষণ দেয়। উদাহরণস্বরূপ, একটি এলোমেলো বন হল ব্যাগিংয়ের সাথে প্রশিক্ষিত সিদ্ধান্ত গাছের একটি সংগ্রহ।

ব্যাগিং শব্দটি b ootstrap agg regat ing এর জন্য সংক্ষিপ্ত।

আরও তথ্যের জন্য ডিসিশন ফরেস্ট কোর্সে এলোমেলো বন দেখুন।

শব্দের ব্যাগ

#ভাষা

ক্রম নির্বিশেষে একটি বাক্যাংশ বা প্যাসেজে শব্দের উপস্থাপনা। উদাহরণস্বরূপ, শব্দের ব্যাগ নিম্নলিখিত তিনটি বাক্যাংশকে অভিন্নভাবে উপস্থাপন করে:

  • কুকুর লাফ দেয়
  • কুকুর লাফিয়ে
  • কুকুর লাফ দেয়

প্রতিটি শব্দ একটি স্পার্স ভেক্টরের একটি সূচকে ম্যাপ করা হয়, যেখানে ভেক্টরের শব্দভান্ডারের প্রতিটি শব্দের জন্য একটি সূচক থাকে। উদাহরণস্বরূপ, কুকুরের লাফানো শব্দগুচ্ছটি একটি বৈশিষ্ট্য ভেক্টরে ম্যাপ করা হয়েছে যা , কুকুর এবং লাফ শব্দের সাথে সম্পর্কিত তিনটি সূচকে শূন্য নয়। অ-শূন্য মান নিম্নলিখিত যে কোনো হতে পারে:

  • একটি শব্দের উপস্থিতি বোঝাতে একটি 1।
  • ব্যাগে একটি শব্দ কতবার উপস্থিত হয় তার একটি গণনা। উদাহরণস্বরূপ, যদি বাক্যাংশটি মেরুন কুকুর মেরুন পশমযুক্ত একটি কুকুর হয় , তাহলে মেরুন এবং কুকুর উভয়কেই 2 হিসাবে উপস্থাপন করা হবে, অন্য শব্দগুলিকে 1 হিসাবে উপস্থাপন করা হবে।
  • আরও কিছু মান, যেমন ব্যাগে একটি শব্দ কতবার উপস্থিত হয় তার সংখ্যার লগারিদম।

ভিত্তিরেখা

#মেট্রিক

অন্য মডেল (সাধারণত, একটি আরও জটিল) কতটা ভাল পারফর্ম করছে তা তুলনা করার জন্য একটি রেফারেন্স পয়েন্ট হিসাবে ব্যবহৃত একটি মডেল । উদাহরণস্বরূপ, একটি লজিস্টিক রিগ্রেশন মডেল একটি গভীর মডেলের জন্য একটি ভাল বেসলাইন হিসাবে কাজ করতে পারে।

একটি নির্দিষ্ট সমস্যার জন্য, বেসলাইন মডেল ডেভেলপারদের ন্যূনতম প্রত্যাশিত কর্মক্ষমতা পরিমাপ করতে সাহায্য করে যা একটি নতুন মডেলকে নতুন মডেলের উপযোগী হওয়ার জন্য অর্জন করতে হবে।

ব্যাচ

#মৌলিক

একটি প্রশিক্ষণের পুনরাবৃত্তিতে ব্যবহৃত উদাহরণের সেট। ব্যাচের আকার একটি ব্যাচে উদাহরণের সংখ্যা নির্ধারণ করে।

একটি ব্যাচ কিভাবে একটি যুগের সাথে সম্পর্কিত তার ব্যাখ্যার জন্য epoch দেখুন।

আরও তথ্যের জন্য লিনিয়ার রিগ্রেশন: মেশিন লার্নিং ক্র্যাশ কোর্সে হাইপারপ্যারামিটার দেখুন।

ব্যাচ অনুমান

#টেনসরফ্লো
#GoogleCloud

ছোট সাবসেটে বিভক্ত একাধিক লেবেলবিহীন উদাহরণের পূর্বাভাস অনুমান করার প্রক্রিয়া ("ব্যাচ")।

ব্যাচ ইনফারেন্স অ্যাক্সিলারেটর চিপগুলির সমান্তরাল বৈশিষ্ট্যগুলির সুবিধা নিতে পারে৷ অর্থাৎ, একাধিক অ্যাক্সিলারেটর একই সাথে লেবেলবিহীন উদাহরণের বিভিন্ন ব্যাচে ভবিষ্যদ্বাণী করতে পারে, নাটকীয়ভাবে প্রতি সেকেন্ডে অনুমানের সংখ্যা বৃদ্ধি করে।

আরও তথ্যের জন্য মেশিন লার্নিং ক্র্যাশ কোর্সে প্রোডাকশন এমএল সিস্টেম: স্ট্যাটিক বনাম গতিশীল অনুমান দেখুন।

ব্যাচ স্বাভাবিককরণ

একটি লুকানো স্তরে অ্যাক্টিভেশন ফাংশনের ইনপুট বা আউটপুটকে স্বাভাবিক করা । ব্যাচ স্বাভাবিককরণ নিম্নলিখিত সুবিধা প্রদান করতে পারে:

ব্যাচ আকার

#মৌলিক

একটি ব্যাচে উদাহরণের সংখ্যা। উদাহরণস্বরূপ, যদি ব্যাচের আকার 100 হয়, তাহলে মডেলটি প্রতি পুনরাবৃত্তি 100টি উদাহরণ প্রক্রিয়া করে।

নিম্নলিখিত জনপ্রিয় ব্যাচ আকার কৌশল:

  • স্টোকাস্টিক গ্রেডিয়েন্ট ডিসেন্ট (SGD) , যার ব্যাচের আকার 1।
  • সম্পূর্ণ ব্যাচ, যেখানে ব্যাচের আকার পুরো প্রশিক্ষণ সেটের উদাহরণের সংখ্যা। উদাহরণস্বরূপ, যদি প্রশিক্ষণ সেটে এক মিলিয়ন উদাহরণ থাকে, তাহলে ব্যাচের আকার এক মিলিয়ন উদাহরণ হবে। সম্পূর্ণ ব্যাচ সাধারণত একটি অদক্ষ কৌশল।
  • মিনি-ব্যাচ যেখানে ব্যাচের আকার সাধারণত 10 থেকে 1000 এর মধ্যে হয়। মিনি-ব্যাচ সাধারণত সবচেয়ে কার্যকরী কৌশল।

আরও তথ্যের জন্য নিম্নলিখিত দেখুন:

বায়েসিয়ান নিউরাল নেটওয়ার্ক

একটি সম্ভাব্য নিউরাল নেটওয়ার্ক যা ওজন এবং আউটপুটগুলিতে অনিশ্চয়তার জন্য দায়ী। একটি স্ট্যান্ডার্ড নিউরাল নেটওয়ার্ক রিগ্রেশন মডেল সাধারণত একটি স্কেলার মান ভবিষ্যদ্বাণী করে ; উদাহরণস্বরূপ, একটি আদর্শ মডেল 853,000 একটি বাড়ির দামের পূর্বাভাস দেয়। বিপরীতে, একটি Bayesian নিউরাল নেটওয়ার্ক মান বিতরণের পূর্বাভাস দেয়; উদাহরণস্বরূপ, একটি বায়েসিয়ান মডেল 67,200 এর আদর্শ বিচ্যুতি সহ 853,000 এর একটি বাড়ির মূল্য ভবিষ্যদ্বাণী করে।

একটি Bayesian নিউরাল নেটওয়ার্ক ওজন এবং ভবিষ্যদ্বাণীতে অনিশ্চয়তা গণনা করতে বেইসের উপপাদ্যের উপর নির্ভর করে। একটি Bayesian নিউরাল নেটওয়ার্ক কার্যকর হতে পারে যখন অনিশ্চয়তা পরিমাপ করা গুরুত্বপূর্ণ, যেমন ফার্মাসিউটিক্যালস সম্পর্কিত মডেলগুলিতে। Bayesian নিউরাল নেটওয়ার্ক ওভারফিটিং প্রতিরোধে সাহায্য করতে পারে।

Bayesian অপ্টিমাইজেশান

একটি বেসিয়ান শেখার কৌশল ব্যবহার করে অনিশ্চয়তা পরিমাপ করে এমন একটি সারোগেট অপ্টিমাইজ করে গণনামূলকভাবে ব্যয়বহুল উদ্দেশ্যমূলক ফাংশনগুলিকে অপ্টিমাইজ করার জন্য একটি সম্ভাব্য রিগ্রেশন মডেল কৌশল। যেহেতু Bayesian অপ্টিমাইজেশান নিজেই খুব ব্যয়বহুল, এটি সাধারণত ব্যয়বহুল-টু-মূল্যায়নের কাজগুলিকে অপ্টিমাইজ করতে ব্যবহৃত হয় যেগুলিতে স্বল্প সংখ্যক পরামিতি রয়েছে, যেমন হাইপারপ্যারামিটার নির্বাচন করা।

বেলম্যান সমীকরণ

#আরএল

শক্তিবৃদ্ধি শেখার ক্ষেত্রে, নিম্নোক্ত পরিচয়টি সর্বোত্তম Q-ফাংশন দ্বারা সন্তুষ্ট:

\[Q(s, a) = r(s, a) + \gamma \mathbb{E}_{s'|s,a} \max_{a'} Q(s', a')\]

রিইনফোর্সমেন্ট লার্নিং অ্যালগরিদম নিম্নলিখিত আপডেট নিয়ম ব্যবহার করে Q-লার্নিং তৈরি করতে এই পরিচয়টি প্রয়োগ করে:

\[Q(s,a) \gets Q(s,a) + \alpha \left[r(s,a) + \gamma \displaystyle\max_{\substack{a_1}} Q(s',a') - Q(s,a) \right] \]

শক্তিবৃদ্ধি শেখার বাইরে, বেলম্যান সমীকরণে গতিশীল প্রোগ্রামিং-এর অ্যাপ্লিকেশন রয়েছে। বেলম্যান সমীকরণের জন্য উইকিপিডিয়া এন্ট্রি দেখুন।

BERT (ট্রান্সফরমার থেকে দ্বিমুখী এনকোডার প্রতিনিধিত্ব)

#ভাষা

পাঠ্য উপস্থাপনার জন্য একটি মডেল আর্কিটেকচার। একটি প্রশিক্ষিত BERT মডেল পাঠ্য শ্রেণিবিন্যাস বা অন্যান্য ML কাজের জন্য একটি বড় মডেলের অংশ হিসাবে কাজ করতে পারে।

BERT এর নিম্নলিখিত বৈশিষ্ট্য রয়েছে:

BERT এর ভেরিয়েন্টগুলির মধ্যে রয়েছে:

ওপেন সোর্সিং বিইআরটি দেখুন: বিইআরটি-এর সংক্ষিপ্ত বিবরণের জন্য প্রাকৃতিক ভাষা প্রক্রিয়াকরণের জন্য অত্যাধুনিক প্রাক-প্রশিক্ষণ

পক্ষপাত (নৈতিকতা/ন্যায়)

#দায়িত্বশীল
#মৌলিক

1. কিছু জিনিস, মানুষ বা গোষ্ঠীর প্রতি স্টিরিওটাইপিং, কুসংস্কার বা পক্ষপাতিত্ব। এই পক্ষপাতগুলি ডেটা সংগ্রহ এবং ব্যাখ্যা, একটি সিস্টেমের নকশা এবং ব্যবহারকারীরা কীভাবে একটি সিস্টেমের সাথে যোগাযোগ করে তা প্রভাবিত করতে পারে। এই ধরনের পক্ষপাতের ফর্মগুলির মধ্যে রয়েছে:

2. একটি নমুনা বা রিপোর্টিং পদ্ধতি দ্বারা প্রবর্তিত পদ্ধতিগত ত্রুটি। এই ধরনের পক্ষপাতের ফর্মগুলির মধ্যে রয়েছে:

মেশিন লার্নিং মডেল বা ভবিষ্যদ্বাণী পক্ষপাতিত্ব শব্দের সাথে বিভ্রান্ত হবেন না।

আরও তথ্যের জন্য মেশিন লার্নিং ক্র্যাশ কোর্সে ন্যায্যতা: পক্ষপাতের প্রকারগুলি দেখুন।

পক্ষপাত (গণিত) বা পক্ষপাত শব্দ

#মৌলিক

একটি উত্স থেকে একটি বাধা বা অফসেট. বায়াস হল মেশিন লার্নিং মডেলের একটি প্যারামিটার, যা নিম্নলিখিতগুলির যে কোনো একটি দ্বারা চিহ্নিত করা হয়:

  • w 0

উদাহরণস্বরূপ, নিম্নোক্ত সূত্রে পক্ষপাত হল b :

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

একটি সাধারণ দ্বি-মাত্রিক লাইনে, পক্ষপাত মানে শুধু "y-ইন্টারসেপ্ট।" উদাহরণস্বরূপ, নিম্নলিখিত চিত্রে লাইনের পক্ষপাত হল 2।

0.5 এর ঢাল সহ একটি লাইনের প্লট এবং 2 এর একটি পক্ষপাত (y-ইন্টারসেপ্ট)।

পক্ষপাত বিদ্যমান কারণ সমস্ত মডেল মূল (0,0) থেকে শুরু হয় না। উদাহরণস্বরূপ, ধরুন একটি বিনোদন পার্কে প্রবেশের জন্য 2 ইউরো এবং একজন গ্রাহক থাকার প্রতি ঘন্টার জন্য অতিরিক্ত 0.5 ইউরো। অতএব, মোট খরচ ম্যাপিং একটি মডেল 2 এর পক্ষপাতী কারণ সর্বনিম্ন খরচ হল 2 ইউরো।

নৈতিকতা এবং ন্যায্যতা বা ভবিষ্যদ্বাণী পক্ষপাতের সাথে পক্ষপাতিত্বের সাথে বিভ্রান্ত হওয়া উচিত নয়।

আরও তথ্যের জন্য মেশিন লার্নিং ক্র্যাশ কোর্সে লিনিয়ার রিগ্রেশন দেখুন।

দ্বিমুখী

#ভাষা

এমন একটি শব্দ যা একটি সিস্টেমকে বর্ণনা করতে ব্যবহৃত হয় যা পাঠ্যের একটি লক্ষ্য বিভাগের পূর্ববর্তী এবং অনুসরণ করে এমন পাঠ্যকে মূল্যায়ন করে। বিপরীতে, একটি ইউনিডাইরেকশনাল সিস্টেম শুধুমাত্র পাঠ্যের একটি লক্ষ্য বিভাগের আগে থাকা পাঠ্যকে মূল্যায়ন করে।

উদাহরণস্বরূপ, একটি মুখোশযুক্ত ভাষা মডেল বিবেচনা করুন যা অবশ্যই নিম্নলিখিত প্রশ্নে আন্ডারলাইন প্রতিনিধিত্বকারী শব্দ বা শব্দগুলির সম্ভাব্যতা নির্ধারণ করবে:

আপনার সাথে _____ কি?

একটি একমুখী ভাষা মডেলকে শুধুমাত্র "কী", "is", এবং "the" শব্দ দ্বারা প্রদত্ত প্রেক্ষাপটের উপর ভিত্তি করে তার সম্ভাবনার ভিত্তি করতে হবে। বিপরীতে, একটি দ্বিমুখী ভাষা মডেল "সহ" এবং "আপনি" থেকে প্রসঙ্গ লাভ করতে পারে, যা মডেলটিকে আরও ভাল ভবিষ্যদ্বাণী তৈরি করতে সহায়তা করতে পারে।

দ্বিমুখী ভাষার মডেল

#ভাষা

একটি ভাষা মডেল যা পূর্ববর্তী এবং পরবর্তী পাঠ্যের উপর ভিত্তি করে পাঠ্যের একটি উদ্ধৃতিতে একটি প্রদত্ত টোকেন একটি নির্দিষ্ট স্থানে উপস্থিত থাকার সম্ভাবনা নির্ধারণ করে।

বিগগ্রাম

#সেক
#ভাষা

একটি N-গ্রাম যার মধ্যে N=2।

বাইনারি শ্রেণীবিভাগ

#মৌলিক

এক ধরনের শ্রেণীবিন্যাস টাস্ক যা দুটি পারস্পরিক একচেটিয়া শ্রেণীর একটির পূর্বাভাস দেয়:

উদাহরণস্বরূপ, নিম্নলিখিত দুটি মেশিন লার্নিং মডেল প্রতিটি বাইনারি শ্রেণীবিভাগ সম্পাদন করে:

  • একটি মডেল যা নির্ধারণ করে যে ইমেল বার্তাগুলি স্প্যাম (পজিটিভ ক্লাস) না স্প্যাম (নেতিবাচক ক্লাস)।
  • একটি মডেল যা একজন ব্যক্তির একটি নির্দিষ্ট রোগ (পজিটিভ ক্লাস) আছে কিনা বা সেই রোগ (নেতিবাচক শ্রেণী) নেই কিনা তা নির্ধারণ করতে চিকিৎসা লক্ষণগুলি মূল্যায়ন করে।

বহু-শ্রেণীর শ্রেণীবিভাগের সাথে বৈসাদৃশ্য।

লজিস্টিক রিগ্রেশন এবং শ্রেণীবিভাগ থ্রেশহোল্ড দেখুন।

আরও তথ্যের জন্য মেশিন লার্নিং ক্র্যাশ কোর্সে শ্রেণিবিন্যাস দেখুন।

বাইনারি অবস্থা

#df

একটি সিদ্ধান্ত গাছে , এমন একটি শর্ত যার শুধুমাত্র দুটি সম্ভাব্য ফলাফল রয়েছে, সাধারণত হ্যাঁ বা না । উদাহরণস্বরূপ, নিম্নলিখিত একটি বাইনারি শর্ত:

temperature >= 100

অ-বাইনারি অবস্থার সাথে বৈসাদৃশ্য।

আরও তথ্যের জন্য ডিসিশন ফরেস্ট কোর্সে শর্তের প্রকার দেখুন।

বিনিং

bucketing জন্য সমার্থক.

BLEU (দ্বিভাষিক মূল্যায়ন আন্ডারস্টাডি)

#ভাষা

মেশিন অনুবাদের মূল্যায়নের জন্য 0.0 এবং 1.0 এর মধ্যে একটি মেট্রিক, উদাহরণস্বরূপ, স্প্যানিশ থেকে জাপানি পর্যন্ত।

একটি স্কোর গণনা করার জন্য, BLEU সাধারণত একটি ML মডেলের অনুবাদ ( জেনারেটেড টেক্সট ) একজন মানব বিশেষজ্ঞের অনুবাদের ( রেফারেন্স টেক্সট ) সাথে তুলনা করে। যে ডিগ্রীতে N-গ্রাম জেনারেট করা টেক্সট এবং রেফারেন্স টেক্সট মেলে তা BLEU স্কোর নির্ধারণ করে।

এই মেট্রিকের মূল কাগজটি হল BLEU: মেশিন অনুবাদের স্বয়ংক্রিয় মূল্যায়নের একটি পদ্ধতি

এছাড়াও BLEURT দেখুন।

BLEURT (ট্রান্সফরমার থেকে দ্বিভাষিক মূল্যায়ন আন্ডারস্টাডি)

#ভাষা

এক ভাষা থেকে অন্য ভাষায়, বিশেষ করে ইংরেজিতে এবং থেকে মেশিন অনুবাদের মূল্যায়নের জন্য একটি মেট্রিক।

ইংরেজিতে এবং থেকে অনুবাদের জন্য, BLEURT BLEU এর চেয়ে মানব রেটিংগুলির সাথে আরও ঘনিষ্ঠভাবে সারিবদ্ধ করে। BLEU এর বিপরীতে, BLEURT শব্দার্থগত (অর্থ) মিলের উপর জোর দেয় এবং প্যারাফ্রেজিংকে মিটমাট করতে পারে।

BLEURT একটি প্রাক-প্রশিক্ষিত বৃহৎ ভাষার মডেলের উপর নির্ভর করে ( BERT সঠিক হতে) যেটি মানব অনুবাদকদের পাঠ্যের উপর সূক্ষ্ম সুর করা হয়।

এই মেট্রিকের মূল কাগজটি হল BLEURT: টেক্সট জেনারেশনের জন্য রোবাস্ট মেট্রিক্স শেখা

boosting

একটি মেশিন লার্নিং কৌশল যা পুনরাবৃত্তিমূলকভাবে সহজ এবং খুব নির্ভুল নয় ক্লাসিফায়ারের একটি সেটকে একত্রিত করে (যাকে "দুর্বল" ক্লাসিফায়ার হিসাবে উল্লেখ করা হয়) উচ্চ নির্ভুলতা সহ একটি শ্রেণীবিভাগে (একটি "শক্তিশালী" শ্রেণীবিভাগকারী) মডেলটি বর্তমানে ভুল শ্রেণীবদ্ধ করা হচ্ছে এমন উদাহরণগুলিকে বাড়িয়ে তুলে

গ্রেডিয়েন্ট বুস্টেড সিদ্ধান্ত গাছ দেখুন? আরও তথ্যের জন্য ডিসিশন ফরেস্ট কোর্সে।

আবদ্ধ বাক্স

#ছবি

একটি ছবিতে, ( x , y ) আগ্রহের একটি এলাকার চারপাশে একটি আয়তক্ষেত্রের স্থানাঙ্ক, যেমন নীচের ছবিতে কুকুর।

সোফায় বসে থাকা কুকুরের ছবি। একটি সবুজ আবদ্ধ বাক্স           (275, 1271) এবং নীচে-ডান-এর উপরে-বাম স্থানাঙ্ক সহ           (2954, 2761) এর স্থানাঙ্ক কুকুরের শরীরকে ঘেরাও করে

সম্প্রচার

একটি ম্যাট্রিক্স গণিত অপারেশনে একটি অপারেন্ডের আকারকে সেই ক্রিয়াকলাপের জন্য সামঞ্জস্যপূর্ণ মাত্রায় প্রসারিত করা। উদাহরণস্বরূপ, রৈখিক বীজগণিতের জন্য ম্যাট্রিক্স সংযোজন ক্রিয়াকলাপের দুটি অপারেন্ডের একই মাত্রা থাকতে হবে। ফলস্বরূপ, n দৈর্ঘ্যের ভেক্টরে আপনি আকৃতির ম্যাট্রিক্স (m, n) যোগ করতে পারবেন না। ব্রডকাস্টিং প্রতিটি কলামের নিচে একই মান প্রতিলিপি করে আকৃতির ম্যাট্রিক্স (m, n) দৈর্ঘ্যের ভেক্টরটিকে কার্যত প্রসারিত করে এই ক্রিয়াকলাপটিকে সক্ষম করে।

আরও বিস্তারিত জানার জন্য NumPy-এ সম্প্রচারের নিম্নলিখিত বিবরণ দেখুন।

বালতি

#মৌলিক

একটি একক বৈশিষ্ট্যকে একাধিক বাইনারি বৈশিষ্ট্যে রূপান্তর করা যাকে বলা হয় বালতি বা বিন , সাধারণত একটি মান পরিসরের উপর ভিত্তি করে। কাটা বৈশিষ্ট্যটি সাধারণত একটি অবিচ্ছিন্ন বৈশিষ্ট্য

উদাহরণস্বরূপ, তাপমাত্রাকে একটি অবিচ্ছিন্ন ফ্লোটিং-পয়েন্ট বৈশিষ্ট্য হিসাবে উপস্থাপন করার পরিবর্তে, আপনি তাপমাত্রার রেঞ্জগুলিকে আলাদা বালতিতে কাটতে পারেন, যেমন:

  • <= 10 ডিগ্রি সেলসিয়াস হবে "ঠান্ডা" বালতি।
  • 11 - 24 ডিগ্রি সেলসিয়াস "নাতিশীতোষ্ণ" বালতি হবে।
  • >= 25 ডিগ্রি সেলসিয়াস হবে "উষ্ণ" বালতি।

মডেলটি একই বালতিতে প্রতিটি মানকে অভিন্নভাবে বিবেচনা করবে। উদাহরণস্বরূপ, মান 13 এবং 22 উভয়ই নাতিশীতোষ্ণ বালতিতে রয়েছে, তাই মডেল দুটি মানকে অভিন্নভাবে বিবেচনা করে।

আরও তথ্যের জন্য সংখ্যাসূচক ডেটা দেখুন: মেশিন লার্নিং ক্র্যাশ কোর্সে বিনিং

ক্রমাঙ্কন স্তর

একটি পোস্ট-পূর্বাভাস সমন্বয়, সাধারণত ভবিষ্যদ্বাণী পক্ষপাতের জন্য অ্যাকাউন্ট। সামঞ্জস্যপূর্ণ ভবিষ্যদ্বাণী এবং সম্ভাব্যতাগুলি একটি পর্যবেক্ষণ করা লেবেলের সেটের বিতরণের সাথে মেলে।

প্রার্থী প্রজন্ম

#রিসিস্টেম

একটি সুপারিশ সিস্টেম দ্বারা নির্বাচিত সুপারিশের প্রাথমিক সেট৷ উদাহরণস্বরূপ, একটি বইয়ের দোকান বিবেচনা করুন যা 100,000 শিরোনাম অফার করে। প্রার্থী প্রজন্মের পর্যায় একটি নির্দিষ্ট ব্যবহারকারীর জন্য উপযুক্ত বইয়ের একটি অনেক ছোট তালিকা তৈরি করে, বলুন 500। কিন্তু এমনকি 500টি বইও ব্যবহারকারীর কাছে সুপারিশ করার মতো অনেক বেশি। পরবর্তী, আরও ব্যয়বহুল, একটি সুপারিশ ব্যবস্থার পর্যায়গুলি (যেমন স্কোরিং এবং পুনরায় র‌্যাঙ্কিং ) সেই 500 কে অনেক ছোট, আরও দরকারী সুপারিশের সেটে কমিয়ে দেয়।

আরও তথ্যের জন্য সুপারিশ সিস্টেম কোর্সে প্রার্থী প্রজন্মের ওভারভিউ দেখুন।

প্রার্থীর নমুনা

একটি প্রশিক্ষণ-সময় অপ্টিমাইজেশান যা সমস্ত ইতিবাচক লেবেলের জন্য একটি সম্ভাব্যতা গণনা করে, উদাহরণস্বরূপ, সফটম্যাক্স ব্যবহার করে, কিন্তু শুধুমাত্র নেতিবাচক লেবেলের একটি এলোমেলো নমুনার জন্য। উদাহরণস্বরূপ, বিগল এবং কুকুর লেবেলযুক্ত একটি উদাহরণ দেওয়া হয়েছে, প্রার্থীর স্যাম্পলিং পূর্বাভাসিত সম্ভাব্যতা এবং সংশ্লিষ্ট ক্ষতির শর্তাবলী গণনা করে:

  • বিগল
  • কুকুর
  • অবশিষ্ট নেতিবাচক শ্রেণীর একটি এলোমেলো উপসেট (উদাহরণস্বরূপ, cat , lollipop , fence )।

ধারণাটি হল যে নেতিবাচক শ্রেণীগুলি কম ঘন ঘন নেতিবাচক শক্তিবৃদ্ধি থেকে শিখতে পারে যতক্ষণ না ইতিবাচক শ্রেণীগুলি সর্বদা সঠিক ইতিবাচক শক্তিবৃদ্ধি পায়, এবং এটি বাস্তবিকই পরীক্ষামূলকভাবে পর্যবেক্ষণ করা হয়।

প্রার্থীর নমুনা প্রশিক্ষণের অ্যালগরিদমগুলির তুলনায় গণনাগতভাবে বেশি দক্ষ যা সমস্ত নেতিবাচক শ্রেণীর জন্য পূর্বাভাস গণনা করে, বিশেষ করে যখন নেতিবাচক শ্রেণীর সংখ্যা খুব বেশি হয়।

শ্রেণীবদ্ধ তথ্য

#মৌলিক

সম্ভাব্য মানগুলির একটি নির্দিষ্ট সেট থাকা বৈশিষ্ট্যগুলি ৷ উদাহরণ স্বরূপ, traffic-light-state নামে একটি শ্রেণীবদ্ধ বৈশিষ্ট্য বিবেচনা করুন, যেটিতে শুধুমাত্র নিম্নলিখিত তিনটি সম্ভাব্য মানগুলির মধ্যে একটি থাকতে পারে:

  • red
  • yellow
  • green

traffic-light-state একটি শ্রেণীবদ্ধ বৈশিষ্ট্য হিসাবে উপস্থাপন করে, একটি মডেল চালকের আচরণের উপর red , green এবং yellow বিভিন্ন প্রভাব শিখতে পারে।

শ্রেণীগত বৈশিষ্ট্যগুলিকে কখনও কখনও পৃথক বৈশিষ্ট্য বলা হয়।

সংখ্যাসূচক তথ্যের সাথে বৈসাদৃশ্য।

আরও তথ্যের জন্য মেশিন লার্নিং ক্র্যাশ কোর্সে শ্রেণীবদ্ধ ডেটা নিয়ে কাজ করা দেখুন।

কার্যকারণ ভাষা মডেল

#ভাষা

একমুখী ভাষা মডেলের প্রতিশব্দ।

ভাষা মডেলিংয়ে বিভিন্ন দিকনির্দেশক পদ্ধতির বিপরীতে দ্বিমুখী ভাষার মডেল দেখুন।

কেন্দ্রিক

# ক্লাস্টারিং

একটি k-মান বা k-মিডিয়ান অ্যালগরিদম দ্বারা নির্ধারিত একটি ক্লাস্টারের কেন্দ্র৷ উদাহরণস্বরূপ, k যদি 3 হয়, তাহলে k-মান বা k-মিডিয়ান অ্যালগরিদম 3টি সেন্ট্রোয়েড খুঁজে পায়।

আরও তথ্যের জন্য ক্লাস্টারিং কোর্সে ক্লাস্টারিং অ্যালগরিদম দেখুন।

সেন্ট্রয়েড-ভিত্তিক ক্লাস্টারিং

# ক্লাস্টারিং

ক্লাস্টারিং অ্যালগরিদমের একটি বিভাগ যা ডেটাকে অ-হাইরার্কিকাল ক্লাস্টারে সংগঠিত করে। k- মানে হল সর্বাধিক ব্যবহৃত সেন্ট্রোয়েড-ভিত্তিক ক্লাস্টারিং অ্যালগরিদম।

শ্রেণিবদ্ধ ক্লাস্টারিং অ্যালগরিদমের সাথে বৈসাদৃশ্য।

আরও তথ্যের জন্য ক্লাস্টারিং কোর্সে ক্লাস্টারিং অ্যালগরিদম দেখুন।

চেইন-অফ-থট প্রম্পটিং

#ভাষা
#generativeAI

একটি প্রম্পট ইঞ্জিনিয়ারিং কৌশল যা একটি বৃহৎ ভাষা মডেল (LLM) কে ধাপে ধাপে তার যুক্তি ব্যাখ্যা করতে উৎসাহিত করে। উদাহরণস্বরূপ, দ্বিতীয় বাক্যে বিশেষ মনোযোগ দিয়ে নিম্নলিখিত প্রম্পটটি বিবেচনা করুন:

7 সেকেন্ডে প্রতি ঘন্টায় 0 থেকে 60 মাইল বেগে যাওয়া গাড়িতে একজন চালক কতটি জি ফোর্স অনুভব করবে? উত্তরে, সমস্ত প্রাসঙ্গিক গণনা দেখান।

এলএলএম এর প্রতিক্রিয়া সম্ভবত:

  • উপযুক্ত স্থানে 0, 60, এবং 7 মান প্লাগ করে পদার্থবিজ্ঞানের সূত্রের একটি ক্রম দেখান।
  • ব্যাখ্যা করুন কেন এটি সেই সূত্রগুলি বেছে নিয়েছে এবং বিভিন্ন ভেরিয়েবলের অর্থ কী।

চেইন-অফ-থট প্রম্পটিং এলএলএমকে সমস্ত গণনা সম্পাদন করতে বাধ্য করে, যা আরও সঠিক উত্তরের দিকে নিয়ে যেতে পারে। উপরন্তু, চেইন-অফ-থট প্রম্পটিং ব্যবহারকারীকে LLM-এর পদক্ষেপগুলি পরীক্ষা করতে সক্ষম করে উত্তরটি অর্থপূর্ণ কিনা তা নির্ধারণ করতে।

চ্যাট

#ভাষা
#generativeAI

একটি ML সিস্টেমের সাথে একটি পিছনে এবং সামনে কথোপকথনের বিষয়বস্তু, সাধারণত একটি বড় ভাষা মডেল । একটি চ্যাটে পূর্ববর্তী মিথস্ক্রিয়া (আপনি কী টাইপ করেছেন এবং কীভাবে বৃহৎ ভাষার মডেল প্রতিক্রিয়া জানিয়েছেন) চ্যাটের পরবর্তী অংশগুলির প্রসঙ্গ হয়ে ওঠে।

একটি চ্যাটবট একটি বড় ভাষা মডেলের একটি অ্যাপ্লিকেশন।

চেকপয়েন্ট

প্রশিক্ষণের সময় বা প্রশিক্ষণ শেষ হওয়ার পরে একটি মডেলের প্যারামিটারের অবস্থা ক্যাপচার করে এমন ডেটা। উদাহরণস্বরূপ, প্রশিক্ষণের সময়, আপনি করতে পারেন:

  1. প্রশিক্ষণ বন্ধ করুন, সম্ভবত ইচ্ছাকৃতভাবে বা সম্ভবত কিছু ত্রুটির ফলাফল হিসাবে।
  2. চেকপয়েন্ট দখল করুন।
  3. পরে, চেকপয়েন্টটি পুনরায় লোড করুন, সম্ভবত বিভিন্ন হার্ডওয়্যারে।
  4. প্রশিক্ষণ পুনরায় শুরু করুন।

ক্লাস

#মৌলিক

একটি বিভাগ যা একটি লেবেল অন্তর্গত হতে পারে৷ যেমন:

একটি শ্রেণিবিন্যাস মডেল একটি শ্রেণির পূর্বাভাস দেয়। বিপরীতে, একটি রিগ্রেশন মডেল একটি শ্রেণির পরিবর্তে একটি সংখ্যার পূর্বাভাস দেয়।

আরও তথ্যের জন্য মেশিন লার্নিং ক্র্যাশ কোর্সে শ্রেণিবিন্যাস দেখুন।

শ্রেণিবিন্যাস মডেল

#মৌলিক

একটি মডেল যার ভবিষ্যদ্বাণী একটি ক্লাস । উদাহরণস্বরূপ, নিম্নলিখিত সমস্ত শ্রেণীবিভাগ মডেল:

  • একটি মডেল যা একটি ইনপুট বাক্যের ভাষার ভবিষ্যদ্বাণী করে (ফরাসি? স্প্যানিশ? ইতালীয়?)।
  • একটি মডেল যা গাছের প্রজাতির ভবিষ্যদ্বাণী করে (ম্যাপেল? ওক? বাওবাব?)।
  • একটি মডেল যা একটি নির্দিষ্ট চিকিৎসা অবস্থার জন্য ইতিবাচক বা নেতিবাচক শ্রেণীর পূর্বাভাস দেয়।

বিপরীতে, রিগ্রেশন মডেলগুলি ক্লাসের পরিবর্তে সংখ্যার পূর্বাভাস দেয়।

দুটি সাধারণ ধরনের শ্রেণিবিন্যাস মডেল হল:

শ্রেণীবিভাগ থ্রেশহোল্ড

#মৌলিক

একটি বাইনারি শ্রেণীবিভাগে , 0 এবং 1 এর মধ্যে একটি সংখ্যা যা একটি লজিস্টিক রিগ্রেশন মডেলের কাঁচা আউটপুটকে ধনাত্মক শ্রেণি বা নেতিবাচক শ্রেণির একটি ভবিষ্যদ্বাণীতে রূপান্তর করে। মনে রাখবেন যে শ্রেণীবিন্যাস থ্রেশহোল্ড এমন একটি মান যা একজন মানুষ বেছে নেয়, মডেল প্রশিক্ষণ দ্বারা নির্বাচিত একটি মান নয়।

একটি লজিস্টিক রিগ্রেশন মডেল 0 এবং 1 এর মধ্যে একটি কাঁচা মান আউটপুট করে। তারপর:

  • যদি এই কাঁচা মানটি শ্রেণিবিন্যাসের থ্রেশহোল্ডের চেয়ে বেশি হয়, তাহলে ধনাত্মক শ্রেণির পূর্বাভাস দেওয়া হয়।
  • যদি এই কাঁচা মানটি শ্রেণিবিন্যাসের থ্রেশহোল্ডের চেয়ে কম হয়, তাহলে নেতিবাচক শ্রেণির পূর্বাভাস দেওয়া হয়।

উদাহরণস্বরূপ, ধরুন শ্রেণীবিন্যাস থ্রেশহোল্ড হল 0.8। যদি কাঁচা মান 0.9 হয়, তাহলে মডেলটি ইতিবাচক শ্রেণীর পূর্বাভাস দেয়। যদি কাঁচা মান 0.7 হয়, তাহলে মডেলটি নেতিবাচক শ্রেণীর পূর্বাভাস দেয়।

শ্রেণীবিন্যাস থ্রেশহোল্ডের পছন্দ দৃঢ়ভাবে মিথ্যা ইতিবাচক এবং মিথ্যা নেতিবাচক সংখ্যাকে প্রভাবিত করে।

আরও তথ্যের জন্য মেশিন লার্নিং ক্র্যাশ কোর্সে থ্রেশহোল্ড এবং কনফিউশন ম্যাট্রিক্স দেখুন।

শ্রেণিবিন্যাসকারী

#মৌলিক

একটি শ্রেণিবিন্যাস মডেলের জন্য একটি নৈমিত্তিক শব্দ।

শ্রেণী-ভারসাম্যহীন ডেটাসেট

#মৌলিক

একটি শ্রেণিবিন্যাসের সমস্যার জন্য একটি ডেটাসেট যেখানে প্রতিটি শ্রেণীর লেবেলের মোট সংখ্যা উল্লেখযোগ্যভাবে আলাদা। উদাহরণস্বরূপ, একটি বাইনারি শ্রেণিবিন্যাস ডেটাসেট বিবেচনা করুন যার দুটি লেবেল নিম্নরূপ বিভক্ত:

  • 1,000,000 নেতিবাচক লেবেল
  • 10টি ইতিবাচক লেবেল

নেতিবাচক থেকে ইতিবাচক লেবেলের অনুপাত হল 100,000 থেকে 1, তাই এটি একটি শ্রেণী-ভারসাম্যহীন ডেটাসেট।

বিপরীতে, নিম্নলিখিত ডেটাসেটটি শ্রেণী-ভারসাম্যহীন নয় কারণ নেতিবাচক লেবেলের সাথে ইতিবাচক লেবেলের অনুপাত তুলনামূলকভাবে 1-এর কাছাকাছি:

  • 517 নেতিবাচক লেবেল
  • 483 ইতিবাচক লেবেল

মাল্টি-ক্লাস ডেটাসেটগুলিও শ্রেণী-ভারসাম্যহীন হতে পারে। উদাহরণস্বরূপ, নিম্নলিখিত মাল্টি-ক্লাস ক্লাসিফিকেশন ডেটাসেটটিও শ্রেণী-ভারসাম্যহীন কারণ একটি লেবেলে অন্য দুটির চেয়ে অনেক বেশি উদাহরণ রয়েছে:

  • "সবুজ" শ্রেণী সহ 1,000,000 লেবেল
  • "বেগুনি" ক্লাস সহ 200টি লেবেল
  • "কমলা" ক্লাস সহ 350টি লেবেল

এছাড়াও এনট্রপি , সংখ্যাগরিষ্ঠ শ্রেণী এবং সংখ্যালঘু শ্রেণী দেখুন।

ক্লিপিং

#মৌলিক

নিম্নলিখিত যে কোনো একটি বা উভয়টি করে বহিরাগতদের পরিচালনা করার একটি কৌশল:

  • সর্বাধিক থ্রেশহোল্ডের চেয়ে বেশি বৈশিষ্ট্যের মানগুলিকে সেই সর্বাধিক থ্রেশহোল্ডে হ্রাস করা৷
  • সেই ন্যূনতম থ্রেশহোল্ড পর্যন্ত ন্যূনতম থ্রেশহোল্ডের চেয়ে কম বৈশিষ্ট্যের মানগুলি বৃদ্ধি করা৷

উদাহরণস্বরূপ, ধরুন যে একটি নির্দিষ্ট বৈশিষ্ট্যের <0.5% মান 40-60 রেঞ্জের বাইরে পড়ে। এই ক্ষেত্রে, আপনি নিম্নলিখিত করতে পারেন:

  • 60-এর বেশি (সর্বোচ্চ থ্রেশহোল্ড) সমস্ত মান ঠিক 60 হতে ক্লিপ করুন।
  • 40 এর নিচে সব মান ক্লিপ করুন (সর্বনিম্ন থ্রেশহোল্ড) ঠিক 40 হতে হবে।

বহিরাগতরা মডেলের ক্ষতি করতে পারে, কখনও কখনও প্রশিক্ষণের সময় ওজন উপচে পড়ে। কিছু আউটলিয়ারও নাটকীয়ভাবে নির্ভুলতার মতো মেট্রিক্স নষ্ট করতে পারে। ক্লিপিং ক্ষতি সীমাবদ্ধ করার একটি সাধারণ কৌশল।

গ্রেডিয়েন্ট ক্লিপিং প্রশিক্ষণের সময় একটি নির্দিষ্ট সীমার মধ্যে গ্রেডিয়েন্ট মানগুলিকে জোর করে।

আরও তথ্যের জন্য সংখ্যাসূচক ডেটা দেখুন: মেশিন লার্নিং ক্র্যাশ কোর্সে সাধারণীকরণ

মেঘ TPU

#টেনসরফ্লো
#GoogleCloud

Google ক্লাউডে মেশিন লার্নিং ওয়ার্কলোডের গতি বাড়ানোর জন্য ডিজাইন করা একটি বিশেষ হার্ডওয়্যার অ্যাক্সিলারেটর।

ক্লাস্টারিং

# ক্লাস্টারিং

গ্রুপিং সম্পর্কিত উদাহরণগুলি , বিশেষ করে তত্ত্বাবধানহীন শিক্ষার সময়। একবার সমস্ত উদাহরণ গোষ্ঠীবদ্ধ হয়ে গেলে, একজন মানুষ ঐচ্ছিকভাবে প্রতিটি ক্লাস্টারে অর্থ সরবরাহ করতে পারে।

অনেক ক্লাস্টারিং অ্যালগরিদম বিদ্যমান। উদাহরণস্বরূপ, k-মানে অ্যালগরিদম ক্লাস্টার উদাহরণগুলি একটি সেন্ট্রোয়েডের সাথে তাদের নৈকট্যের উপর ভিত্তি করে, যেমনটি নিম্নলিখিত চিত্রটিতে রয়েছে:

একটি দ্বি-মাত্রিক গ্রাফ যেখানে x-অক্ষকে গাছের প্রস্থ লেবেল করা হয়েছে,           এবং y-অক্ষকে গাছের উচ্চতা লেবেল করা হয়েছে। গ্রাফটিতে দুটি রয়েছে           সেন্ট্রোয়েড এবং কয়েক ডজন ডেটা পয়েন্ট। তথ্য পয়েন্ট হয়           তাদের নৈকট্যের উপর ভিত্তি করে শ্রেণীবদ্ধ করা হয়েছে। অর্থাৎ ডেটা পয়েন্ট           এক সেন্ট্রোয়েডের নিকটতমকে ক্লাস্টার 1 হিসাবে শ্রেণীবদ্ধ করা হয়, যখন সেগুলি           অন্যান্য সেন্ট্রোয়েডের নিকটতমকে ক্লাস্টার 2 হিসাবে শ্রেণীবদ্ধ করা হয়েছে।

একজন মানব গবেষক তখন ক্লাস্টারগুলি পর্যালোচনা করতে পারেন এবং উদাহরণস্বরূপ, ক্লাস্টার 1 কে "বামন গাছ" এবং ক্লাস্টার 2 কে "পূর্ণ আকারের গাছ" হিসাবে লেবেল করতে পারেন।

আরেকটি উদাহরণ হিসাবে, একটি কেন্দ্র বিন্দু থেকে উদাহরণের দূরত্বের উপর ভিত্তি করে একটি ক্লাস্টারিং অ্যালগরিদম বিবেচনা করুন, নিম্নরূপ চিত্রিত:

কয়েক ডজন ডেটা পয়েন্ট প্রায় এককেন্দ্রিক বৃত্তে সাজানো হয়েছে           ডার্ট বোর্ডের কেন্দ্রের চারপাশে গর্তের মতো। সবচেয়ে ভিতরের রিং           ডেটা পয়েন্টের ক্লাস্টার 1, মধ্যম রিং হিসাবে শ্রেণীবদ্ধ করা হয়           ক্লাস্টার 2 হিসাবে শ্রেণীবদ্ধ করা হয়, এবং সবচেয়ে বাইরের রিং হিসাবে           ক্লাস্টার 3।

আরও তথ্যের জন্য ক্লাস্টারিং কোর্স দেখুন।

সহ-অভিযোজন

যখন নিউরন সম্পূর্ণরূপে নেটওয়ার্কের আচরণের উপর নির্ভর করার পরিবর্তে নির্দিষ্ট অন্যান্য নিউরনের আউটপুটগুলির উপর প্রায় একচেটিয়াভাবে নির্ভর করে প্রশিক্ষণের ডেটাতে প্যাটার্নের পূর্বাভাস দেয়। যখন সহ-অভিযোজন ঘটায় যে প্যাটার্নগুলি বৈধকরণ ডেটাতে উপস্থিত থাকে না, তখন সহ-অভিযোজন ওভারফিটিং ঘটায়। ড্রপআউট নিয়মিতকরণ সহ-অভিযোজন হ্রাস করে কারণ ড্রপআউট নিশ্চিত করে যে নিউরনগুলি শুধুমাত্র নির্দিষ্ট অন্যান্য নিউরনের উপর নির্ভর করতে পারে না।

সহযোগী ফিল্টারিং

#রিসিস্টেম

অন্য অনেক ব্যবহারকারীর স্বার্থের উপর ভিত্তি করে একজন ব্যবহারকারীর স্বার্থ সম্পর্কে ভবিষ্যদ্বাণী করা। সহযোগিতামূলক ফিল্টারিং প্রায়ই সুপারিশ সিস্টেমে ব্যবহৃত হয়।

আরও তথ্যের জন্য সুপারিশ সিস্টেম কোর্সে সহযোগী ফিল্টারিং দেখুন।

ধারণা প্রবাহ

বৈশিষ্ট্য এবং লেবেলের মধ্যে সম্পর্কের পরিবর্তন। সময়ের সাথে সাথে, ধারণার প্রবাহ একটি মডেলের গুণমানকে হ্রাস করে।

প্রশিক্ষণের সময়, মডেল প্রশিক্ষণ সেটের বৈশিষ্ট্য এবং তাদের লেবেলের মধ্যে সম্পর্ক শিখে। যদি প্রশিক্ষণ সেটের লেবেলগুলি বাস্তব-জগতের জন্য ভাল প্রক্সি হয়, তাহলে মডেলটিকে বাস্তব জগতের ভাল ভবিষ্যদ্বাণী করা উচিত । যাইহোক, ধারণার প্রবাহের কারণে, মডেলের ভবিষ্যদ্বাণী সময়ের সাথে সাথে অধঃপতন হতে থাকে।

উদাহরণস্বরূপ, একটি বাইনারি শ্রেণিবিন্যাস মডেল বিবেচনা করুন যা ভবিষ্যদ্বাণী করে যে একটি নির্দিষ্ট গাড়ির মডেল "জ্বালানি সাশ্রয়ী" কিনা। অর্থাৎ, বৈশিষ্ট্যগুলি হতে পারে:

  • গাড়ির ওজন
  • ইঞ্জিন সংকোচন
  • সংক্রমণ প্রকার

যখন লেবেলটি হয়:

  • জ্বালানী সাশ্রয়ী
  • জ্বালানী সাশ্রয়ী নয়

যাইহোক, "জ্বালানি সাশ্রয়ী গাড়ি" ধারণাটি পরিবর্তিত হচ্ছে। 1994 সালে জ্বালানি সাশ্রয়ী লেবেলযুক্ত একটি গাড়ির মডেল প্রায় অবশ্যই 2024 সালে জ্বালানী সাশ্রয়ী নয় বলে লেবেল করা হবে। ধারণার প্রবাহে ভুগছেন এমন একটি মডেল সময়ের সাথে সাথে কম এবং কম দরকারী ভবিষ্যদ্বাণী করতে থাকে।

অস্থিরতার সাথে তুলনা এবং বৈসাদৃশ্য।

অবস্থা

#df

একটি ডিসিশন ট্রিতে , যে কোনো নোড যা একটি অভিব্যক্তিকে মূল্যায়ন করে। উদাহরণস্বরূপ, একটি সিদ্ধান্ত গাছের নিম্নলিখিত অংশে দুটি শর্ত রয়েছে:

দুটি শর্ত সমন্বিত একটি সিদ্ধান্ত গাছ: (x > 0) এবং           (y > 0)।

একটি শর্তকে বিভক্ত বা পরীক্ষাও বলা হয়।

পাতার সাথে বৈপরীত্য অবস্থা।

আরও দেখুন:

আরও তথ্যের জন্য ডিসিশন ফরেস্ট কোর্সে শর্তের প্রকার দেখুন।

বিভ্রান্তি

#ভাষা

হ্যালুসিনেশনের প্রতিশব্দ।

কনফ্যাবুলেশন সম্ভবত হ্যালুসিনেশনের চেয়ে প্রযুক্তিগতভাবে আরও সঠিক শব্দ। যাইহোক, হ্যালুসিনেশন প্রথম জনপ্রিয় হয়ে ওঠে।

কনফিগারেশন

একটি মডেলকে প্রশিক্ষণের জন্য ব্যবহৃত প্রাথমিক সম্পত্তি মান নির্ধারণের প্রক্রিয়া, যার মধ্যে রয়েছে:

মেশিন লার্নিং প্রকল্পগুলিতে, কনফিগারেশন একটি বিশেষ কনফিগারেশন ফাইলের মাধ্যমে বা নিম্নলিখিতগুলির মতো কনফিগারেশন লাইব্রেরি ব্যবহার করে করা যেতে পারে:

নিশ্চিতকরণ পক্ষপাত

#দায়িত্বশীল

এমনভাবে তথ্য অনুসন্ধান, ব্যাখ্যা, অনুগ্রহ এবং স্মরণ করার প্রবণতা যা একজনের পূর্ব-বিদ্যমান বিশ্বাস বা অনুমানকে নিশ্চিত করে। মেশিন লার্নিং ডেভেলপাররা অসাবধানতাবশত এমনভাবে ডেটা সংগ্রহ বা লেবেল করতে পারে যা তাদের বিদ্যমান বিশ্বাসকে সমর্থন করে এমন ফলাফলকে প্রভাবিত করে। নিশ্চিতকরণ পক্ষপাত হল অন্তর্নিহিত পক্ষপাতের একটি রূপ।

এক্সপেরিমেন্টারের পক্ষপাত হল এক ধরনের নিশ্চিতকরণ পক্ষপাত যেখানে একজন পরীক্ষক পূর্ব-বিদ্যমান হাইপোথিসিস নিশ্চিত না হওয়া পর্যন্ত মডেলের প্রশিক্ষণ চালিয়ে যান।

বিভ্রান্তি ম্যাট্রিক্স

#মৌলিক

একটি NxN টেবিল যা একটি শ্রেণীবিভাগ মডেল তৈরি করা সঠিক এবং ভুল ভবিষ্যদ্বাণীগুলির সংখ্যা সংক্ষিপ্ত করে। উদাহরণস্বরূপ, একটি বাইনারি শ্রেণীবিভাগ মডেলের জন্য নিম্নলিখিত বিভ্রান্তি ম্যাট্রিক্স বিবেচনা করুন:

টিউমার (ভবিষ্যদ্বাণী করা) অ-টিউমার (ভবিষ্যদ্বাণী করা)
টিউমার (স্থল সত্য) 18 (TP) 1 (FN)
অ-টিউমার (স্থল সত্য) 6 (FP) 452 (TN)

পূর্ববর্তী বিভ্রান্তি ম্যাট্রিক্স নিম্নলিখিত দেখায়:

  • 19টি ভবিষ্যদ্বাণীর মধ্যে যেখানে গ্রাউন্ড ট্রুথ টিউমার ছিল, মডেলটি সঠিকভাবে 18টি এবং ভুলভাবে 1 শ্রেণীবদ্ধ করেছে।
  • 458টি ভবিষ্যদ্বাণীর মধ্যে যেখানে গ্রাউন্ড ট্রুথ ছিল নন-টিউমার, মডেলটি সঠিকভাবে 452টি এবং ভুলভাবে 6টি শ্রেণীবদ্ধ করেছে।

বহু-শ্রেণীর শ্রেণীবিভাগ সমস্যার জন্য বিভ্রান্তি ম্যাট্রিক্স আপনাকে ভুলের ধরণ সনাক্ত করতে সাহায্য করতে পারে। উদাহরণস্বরূপ, একটি 3-শ্রেণীর মাল্টি-ক্লাস ক্লাসিফিকেশন মডেলের জন্য নিম্নলিখিত বিভ্রান্তি ম্যাট্রিক্স বিবেচনা করুন যা তিনটি ভিন্ন আইরিস প্রকার (ভার্জিনিকা, ভার্সিকলার এবং সেটোসা) শ্রেণীবদ্ধ করে। যখন গ্রাউন্ড ট্রুথ ভার্জিনিকা ছিল, তখন কনফিউশন ম্যাট্রিক্স দেখায় যে সেটোসার তুলনায় মডেলটির ভুলভাবে ভার্সিকলার ভবিষ্যদ্বাণী করার সম্ভাবনা অনেক বেশি ছিল:

সেতোসা (ভবিষ্যদ্বাণী করা) ভার্সিকলার (ভবিষ্যদ্বাণী করা) ভার্জিনিকা (ভবিষ্যদ্বাণী করা)
সেতোসা (ভূমি সত্য) ৮৮ 12 0
ভার্সিকলার (ভূমি সত্য) 6 141 7
ভার্জিনিকা (ভূমি সত্য) 2 27 109

আরেকটি উদাহরণ হিসাবে, একটি বিভ্রান্তি ম্যাট্রিক্স প্রকাশ করতে পারে যে হাতে লেখা অঙ্কগুলি চিনতে প্রশিক্ষিত একটি মডেল ভুলভাবে 4 এর পরিবর্তে 9 বা ভুলভাবে 7 এর পরিবর্তে 1 ভবিষ্যদ্বাণী করে।

বিভ্রান্তি ম্যাট্রিক্সে যথার্থতা এবং প্রত্যাহার সহ বিভিন্ন কর্মক্ষমতা মেট্রিক্স গণনা করার জন্য পর্যাপ্ত তথ্য রয়েছে।

নির্বাচনী এলাকা পার্সিং

#ভাষা

একটি বাক্যকে ছোট ব্যাকরণগত কাঠামোতে বিভক্ত করা ("নির্ধারক")। ML সিস্টেমের একটি পরবর্তী অংশ, যেমন একটি প্রাকৃতিক ভাষা বোঝার মডেল, মূল বাক্যের চেয়ে উপাদানগুলিকে আরও সহজে পার্স করতে পারে। উদাহরণস্বরূপ, নিম্নলিখিত বাক্যটি বিবেচনা করুন:

আমার বন্ধু দুটি বিড়াল দত্তক.

একজন নির্বাচনী পার্সার এই বাক্যটিকে নিম্নলিখিত দুটি উপাদানে ভাগ করতে পারেন:

  • আমার বন্ধু একটি বিশেষ্য বাক্যাংশ।
  • গৃহীত দুই বিড়াল একটি ক্রিয়া বাক্যাংশ।

এই উপাদানগুলিকে আরও ছোট উপাদানগুলিতে বিভক্ত করা যেতে পারে। উদাহরণস্বরূপ, ক্রিয়াপদ বাক্যাংশ

দুটি বিড়াল দত্তক

আরও উপবিভক্ত করা যেতে পারে:

  • গৃহীত একটি ক্রিয়া।
  • দুটি বিড়াল আরেকটি বিশেষ্য বাক্যাংশ।

প্রাসঙ্গিক ভাষা এম্বেডিং

#ভাষা
#generativeAI

একটি এমবেডিং যা শব্দ এবং বাক্যাংশগুলিকে "বোঝার" কাছাকাছি আসে যেভাবে সাবলীল মানুষের বক্তারা করতে পারেন। প্রাসঙ্গিক ভাষা এম্বেডিং জটিল বাক্য গঠন, শব্দার্থবিদ্যা এবং প্রসঙ্গ বুঝতে পারে।

উদাহরণস্বরূপ, ইংরেজি শব্দ cow এর এমবেডিং বিবেচনা করুন। পুরানো এম্বেডিং যেমন word2vec ইংরেজি শব্দগুলিকে উপস্থাপন করতে পারে যেমন গাভী থেকে ষাঁড় পর্যন্ত এম্বেড করার স্থানের দূরত্ব ewe (স্ত্রী ভেড়া) থেকে রাম (পুরুষ ভেড়া) বা মহিলা থেকে পুরুষের দূরত্বের সমান। প্রাসঙ্গিক ভাষা এম্বেডিংগুলি স্বীকার করে আরও এক ধাপ এগিয়ে যেতে পারে যে ইংরেজি ভাষাভাষীরা কখনও কখনও গরু বা ষাঁড়ের অর্থ বোঝাতে গরু শব্দটি ব্যবহার করে।

প্রসঙ্গ উইন্ডো

#ভাষা
#generativeAI

প্রদত্ত প্রম্পটে একটি মডেল প্রক্রিয়া করতে পারে এমন টোকেনের সংখ্যা। প্রসঙ্গ উইন্ডো যত বড় হবে, মডেলটি প্রম্পটে সুসংগত এবং সামঞ্জস্যপূর্ণ প্রতিক্রিয়া প্রদান করতে তত বেশি তথ্য ব্যবহার করতে পারে।

ক্রমাগত বৈশিষ্ট্য

#মৌলিক

সম্ভাব্য মানের অসীম পরিসর সহ একটি ভাসমান-বিন্দু বৈশিষ্ট্য , যেমন তাপমাত্রা বা ওজন।

পৃথক বৈশিষ্ট্য সঙ্গে বৈসাদৃশ্য.

সুবিধার নমুনা

দ্রুত পরীক্ষা চালানোর জন্য বৈজ্ঞানিকভাবে সংগ্রহ করা হয়নি এমন ডেটাসেট ব্যবহার করা। পরবর্তীতে, বৈজ্ঞানিকভাবে সংগৃহীত ডেটাসেটে স্যুইচ করা অপরিহার্য।

অভিন্নতা

#মৌলিক

প্রতিটি পুনরাবৃত্তির সাথে ক্ষতির মানগুলি খুব কম বা একেবারেই না পরিবর্তিত হলে এমন একটি অবস্থায় পৌঁছে যায়। উদাহরণস্বরূপ, নিম্নলিখিত ক্ষতির বক্ররেখাটি প্রায় 700 পুনরাবৃত্তিতে একত্রিত হওয়ার পরামর্শ দেয়:

কার্টেসিয়ান প্লট। এক্স-অক্ষ ক্ষতি। Y-অক্ষ হল প্রশিক্ষণের সংখ্যা           পুনরাবৃত্তি প্রথম কয়েক পুনরাবৃত্তির সময় ক্ষতি খুব বেশি, কিন্তু           তীব্রভাবে ড্রপ প্রায় 100 পুনরাবৃত্তির পরে, ক্ষতি এখনও আছে           অবতরণ কিন্তু অনেক বেশি ধীরে ধীরে। প্রায় 700 পুনরাবৃত্তির পরে,           ক্ষতি সমতল থাকে।

একটি মডেল একত্রিত হয় যখন অতিরিক্ত প্রশিক্ষণ মডেল উন্নত করবে না।

গভীর শিক্ষায় , ক্ষতির মান কখনও কখনও স্থির থাকে বা শেষ পর্যন্ত নামার আগে অনেক পুনরাবৃত্তির জন্য প্রায় তাই থাকে। ধ্রুবক ক্ষতির মানগুলির দীর্ঘ সময়ের মধ্যে, আপনি সাময়িকভাবে অভিসারের একটি মিথ্যা ধারণা পেতে পারেন।

তাড়াতাড়ি থামানোও দেখুন।

আরও তথ্যের জন্য মেশিন লার্নিং ক্র্যাশ কোর্সে মডেল কনভারজেন্স এবং লস কার্ভ দেখুন।

উত্তল ফাংশন

একটি ফাংশন যেখানে ফাংশনের গ্রাফের উপরের অঞ্চলটি একটি উত্তল সেট । প্রোটোটাইপিকাল উত্তল ফাংশনটি U অক্ষরের মতো কিছু আকৃতির। উদাহরণস্বরূপ, নিম্নলিখিত সমস্ত উত্তল ফাংশন:

U-আকৃতির বক্ররেখা, প্রতিটি একক ন্যূনতম বিন্দু সহ।

বিপরীতে, নিম্নলিখিত ফাংশন উত্তল নয়। লক্ষ্য করুন কিভাবে গ্রাফের উপরের অঞ্চলটি উত্তল সেট নয়:

দুটি ভিন্ন স্থানীয় ন্যূনতম বিন্দু সহ একটি W- আকৃতির বক্ররেখা।

একটি কঠোরভাবে উত্তল ফাংশনের ঠিক একটি স্থানীয় সর্বনিম্ন বিন্দু থাকে, যা বিশ্বব্যাপী সর্বনিম্ন বিন্দুও। ক্লাসিক U-আকৃতির ফাংশনগুলি কঠোরভাবে উত্তল ফাংশন। যাইহোক, কিছু উত্তল ফাংশন (উদাহরণস্বরূপ, সরলরেখা) U-আকৃতির নয়।

আরও তথ্যের জন্য মেশিন লার্নিং ক্র্যাশ কোর্সে কনভারজেন্স এবং উত্তল ফাংশন দেখুন।

উত্তল অপ্টিমাইজেশান

একটি উত্তল ফাংশনের সর্বনিম্ন খুঁজে পেতে গ্রেডিয়েন্ট ডিসেন্টের মতো গাণিতিক কৌশল ব্যবহার করার প্রক্রিয়া। মেশিন লার্নিংয়ে প্রচুর গবেষণা বিভিন্ন সমস্যাকে উত্তল অপ্টিমাইজেশান সমস্যা হিসাবে প্রণয়ন এবং সেই সমস্যাগুলিকে আরও দক্ষতার সাথে সমাধান করার উপর দৃষ্টি নিবদ্ধ করেছে।

সম্পূর্ণ বিবরণের জন্য, বয়েড এবং ভ্যানডেনবার্গ, উত্তল অপ্টিমাইজেশন দেখুন।

উত্তল সেট

ইউক্লিডীয় স্থানের একটি উপসেট যাতে উপসেটের যেকোনো দুটি বিন্দুর মধ্যে আঁকা একটি রেখা সম্পূর্ণরূপে উপসেটের মধ্যে থাকে। উদাহরণস্বরূপ, নিম্নলিখিত দুটি আকার উত্তল সেট:

একটি আয়তক্ষেত্রের একটি চিত্র। ডিম্বাকৃতির আরেকটি চিত্র।

বিপরীতে, নিম্নলিখিত দুটি আকার উত্তল সেট নয়:

একটি অনুপস্থিত স্লাইস সহ একটি পাই-চার্টের একটি চিত্র৷           একটি বন্য অনিয়মিত বহুভুজের আরেকটি চিত্র।

আবর্তন

#ছবি

গণিতে, আকস্মিকভাবে বলতে গেলে, দুটি ফাংশনের মিশ্রণ। মেশিন লার্নিং-এ, একটি কনভোলিউশন কনভোলিউশনাল ফিল্টার এবং ইনপুট ম্যাট্রিক্সকে মিশ্রিত করে ওজন প্রশিক্ষণের জন্য।

মেশিন লার্নিং-এ "কনভোলিউশন" শব্দটি প্রায়শই কনভোলিউশনাল অপারেশন বা কনভোল্যুশনাল লেয়ারকে বোঝানোর একটি সংক্ষিপ্ত উপায়।

কনভল্যুশন ছাড়া, একটি মেশিন লার্নিং অ্যালগরিদমকে একটি বড় টেনসরের প্রতিটি কোষের জন্য একটি পৃথক ওজন শিখতে হবে। উদাহরণস্বরূপ, 2K x 2K চিত্রগুলিতে একটি মেশিন লার্নিং অ্যালগরিদম প্রশিক্ষণকে 4M পৃথক ওজন খুঁজে বের করতে বাধ্য করা হবে। কনভোল্যুশনের জন্য ধন্যবাদ, একটি মেশিন লার্নিং অ্যালগরিদমকে শুধুমাত্র কনভোলিউশনাল ফিল্টারে প্রতিটি সেলের জন্য ওজন খুঁজে বের করতে হয়, যা মডেলটিকে প্রশিক্ষণের জন্য প্রয়োজনীয় স্মৃতিকে নাটকীয়ভাবে হ্রাস করে। যখন কনভোলিউশনাল ফিল্টার প্রয়োগ করা হয়, তখন এটি কেবল কোষ জুড়ে প্রতিলিপি করা হয় যাতে প্রতিটি ফিল্টার দ্বারা গুণিত হয়।

আরও তথ্যের জন্য ইমেজ ক্লাসিফিকেশন কোর্সে কনভোলিউশনাল নিউরাল নেটওয়ার্কের পরিচয় দেখুন।

convolutional ফিল্টার

#ছবি

দুই অভিনেতার একজন কনভোল্যুশনাল অপারেশনে । (অন্য অভিনেতাটি একটি ইনপুট ম্যাট্রিক্সের একটি স্লাইস।) একটি কনভোলিউশনাল ফিল্টার হল একটি ম্যাট্রিক্স যার র্যাঙ্ক ইনপুট ম্যাট্রিক্সের সমান, কিন্তু একটি ছোট আকার। উদাহরণস্বরূপ, একটি 28x28 ইনপুট ম্যাট্রিক্স দেওয়া হলে, ফিল্টারটি 28x28 এর চেয়ে ছোট যে কোনো 2D ম্যাট্রিক্স হতে পারে।

ফটোগ্রাফিক ম্যানিপুলেশনে, একটি কনভোলিউশনাল ফিল্টারের সমস্ত কোষ সাধারণত এক এবং শূন্যের একটি ধ্রুবক প্যাটার্নে সেট করা হয়। মেশিন লার্নিং-এ, কনভোলিউশনাল ফিল্টারগুলি সাধারণত এলোমেলো সংখ্যার সাথে বীজযুক্ত হয় এবং তারপরে নেটওয়ার্ক আদর্শ মানগুলিকে প্রশিক্ষণ দেয়

আরও তথ্যের জন্য ইমেজ ক্লাসিফিকেশন কোর্সে কনভোলিউশন দেখুন।

আবর্তিত স্তর

#ছবি

একটি গভীর নিউরাল নেটওয়ার্কের একটি স্তর যেখানে একটি কনভোলিউশনাল ফিল্টার একটি ইনপুট ম্যাট্রিক্স বরাবর যায়। উদাহরণস্বরূপ, নিম্নলিখিত 3x3 কনভোলিউশনাল ফিল্টার বিবেচনা করুন:

নিম্নলিখিত মান সহ একটি 3x3 ম্যাট্রিক্স: [[0,1,0], [1,0,1], [0,1,0]]

নিম্নলিখিত অ্যানিমেশনটি 5x5 ইনপুট ম্যাট্রিক্সের সাথে জড়িত 9টি রূপান্তরমূলক ক্রিয়াকলাপ সমন্বিত একটি রূপান্তরমূলক স্তর দেখায়। লক্ষ্য করুন যে প্রতিটি কনভোলিউশনাল অপারেশন ইনপুট ম্যাট্রিক্সের একটি ভিন্ন 3x3 স্লাইসে কাজ করে। ফলস্বরূপ 3x3 ম্যাট্রিক্স (ডানদিকে) 9টি কনভোল্যুশনাল অপারেশনের ফলাফল নিয়ে গঠিত:

দুটি ম্যাট্রিক্স দেখানো একটি অ্যানিমেশন। প্রথম ম্যাট্রিক্স হল 5x5           ম্যাট্রিক্স: [[128,97,53,201,198], [35,22,25,200,195],           [37,24,28,197,182], [33,28,92,195,179], [31,40,100,192,177]]।           দ্বিতীয় ম্যাট্রিক্স হল 3x3 ম্যাট্রিক্স:           [[181,303,618], [115,338,605], [169,351,560]]।           দ্বিতীয় ম্যাট্রিক্সটি কনভোলিউশনাল প্রয়োগ করে গণনা করা হয়           ফিল্টার [[0, 1, 0], [1, 0, 1], [0, 1, 0]] জুড়ে           5x5 ম্যাট্রিক্সের বিভিন্ন 3x3 উপসেট।

আরও তথ্যের জন্য চিত্র শ্রেণীবিভাগ কোর্সে সম্পূর্ণ সংযুক্ত স্তরগুলি দেখুন৷

কনভোল্যুশনাল নিউরাল নেটওয়ার্ক

#ছবি

একটি নিউরাল নেটওয়ার্ক যেখানে অন্তত একটি স্তর একটি কনভোলিউশনাল স্তর । একটি সাধারণ কনভোলিউশনাল নিউরাল নেটওয়ার্ক নিম্নলিখিত স্তরগুলির কিছু সমন্বয় নিয়ে গঠিত:

কনভোল্যুশনাল নিউরাল নেটওয়ার্কগুলি নির্দিষ্ট ধরণের সমস্যা যেমন ইমেজ স্বীকৃতিতে দুর্দান্ত সাফল্য পেয়েছে।

convolutional অপারেশন

#ছবি

নিম্নলিখিত দুই-পদক্ষেপ গাণিতিক অপারেশন:

  1. কনভোলিউশনাল ফিল্টার এবং একটি ইনপুট ম্যাট্রিক্সের একটি স্লাইসের উপাদান-ভিত্তিক গুণ। (ইনপুট ম্যাট্রিক্সের স্লাইসটি কনভোলিউশনাল ফিল্টারের মতো একই র্যাঙ্ক এবং আকার রয়েছে।)
  2. ফলিত পণ্য ম্যাট্রিক্সে সমস্ত মানের সমষ্টি।

উদাহরণস্বরূপ, নিম্নলিখিত 5x5 ইনপুট ম্যাট্রিক্স বিবেচনা করুন:

5x5 ম্যাট্রিক্স: [[128,97,53,201,198], [35,22,25,200,195],           [37,24,28,197,182], [33,28,92,195,179], [31,40,100,192,177]]।

এখন নিম্নলিখিত 2x2 কনভোলিউশনাল ফিল্টারটি কল্পনা করুন:

2x2 ম্যাট্রিক্স: [[1, 0], [0, 1]]

প্রতিটি কনভোলিউশনাল অপারেশন ইনপুট ম্যাট্রিক্সের একটি একক 2x2 স্লাইস জড়িত। উদাহরণস্বরূপ, ধরুন আমরা ইনপুট ম্যাট্রিক্সের উপরের-বাম দিকে 2x2 স্লাইস ব্যবহার করি। সুতরাং, এই স্লাইসে কনভল্যুশন অপারেশনটি নিম্নরূপ দেখায়:

কনভোলিউশনাল ফিল্টার [[1, 0], [0, 1]] উপরে-বামে প্রয়োগ করা হচ্ছে           ইনপুট ম্যাট্রিক্সের 2x2 বিভাগ, যা [[128,97], [35,22]]।           কনভোলিউশনাল ফিল্টার 128 এবং 22 কে অক্ষত রাখে, কিন্তু শূন্য           97 এবং 35 এর বাইরে। ফলস্বরূপ, কনভোলিউশন অপারেশন ফল দেয়           মান 150 (128+22)।

একটি কনভোলিউশনাল লেয়ারে কনভোলিউশনাল ক্রিয়াকলাপগুলির একটি সিরিজ থাকে, প্রতিটি ইনপুট ম্যাট্রিক্সের একটি আলাদা স্লাইসে কাজ করে।

খরচ

#মেট্রিক

ক্ষতির প্রতিশব্দ।

সহ-প্রশিক্ষণ

একটি আধা-তত্ত্বাবধানে শেখার পদ্ধতি বিশেষভাবে উপযোগী যখন নিম্নলিখিত সমস্ত শর্ত সত্য হয়:

সহ-প্রশিক্ষণ মূলত স্বাধীন সংকেতকে একটি শক্তিশালী সংকেতে পরিবর্ধন করে। উদাহরণস্বরূপ, একটি শ্রেণিবিন্যাস মডেল বিবেচনা করুন যা পৃথক ব্যবহৃত গাড়িগুলিকে ভাল বা খারাপ হিসাবে শ্রেণীবদ্ধ করে৷ ভবিষ্যদ্বাণীমূলক বৈশিষ্ট্যগুলির একটি সেট গাড়ির বছর, তৈরি এবং মডেলের মতো সামগ্রিক বৈশিষ্ট্যগুলিতে ফোকাস করতে পারে; ভবিষ্যদ্বাণীমূলক বৈশিষ্ট্যগুলির আরেকটি সেট পূর্ববর্তী মালিকের ড্রাইভিং রেকর্ড এবং গাড়ির রক্ষণাবেক্ষণের ইতিহাসের উপর ফোকাস করতে পারে।

সহ-প্রশিক্ষণের মূল গবেষণাপত্রটি ব্লাম এবং মিচেলের সহ-প্রশিক্ষণের সাথে লেবেলযুক্ত এবং লেবেলবিহীন ডেটা একত্রিত করা

বিপরীত ন্যায্যতা

#দায়িত্বশীল
#মেট্রিক

একটি ন্যায্যতা মেট্রিক যা পরীক্ষা করে যে একটি শ্রেণীবিন্যাস মডেল একজন ব্যক্তির জন্য একই ফলাফল দেয় কি না এটি অন্য ব্যক্তির জন্য একই ফলাফল দেয় যা প্রথমটির সাথে অভিন্ন, এক বা একাধিক সংবেদনশীল বৈশিষ্ট্যের ক্ষেত্রে। কাউন্টারফ্যাকচুয়াল ন্যায্যতার জন্য একটি শ্রেণীবিভাগ মডেলের মূল্যায়ন একটি মডেলের পক্ষপাতের সম্ভাব্য উত্সগুলিকে সারফেস করার একটি পদ্ধতি।

আরও তথ্যের জন্য নিচের যেকোনো একটি দেখুন:

কভারেজ পক্ষপাত

#দায়িত্বশীল

নির্বাচনের পক্ষপাত দেখুন।

ক্র্যাশ ব্লসম

#ভাষা

একটি অস্পষ্ট অর্থ সহ একটি বাক্য বা বাক্যাংশ। ক্র্যাশ ফুল প্রাকৃতিক ভাষা বোঝার ক্ষেত্রে একটি উল্লেখযোগ্য সমস্যা উপস্থাপন করে। উদাহরণস্বরূপ, শিরোনাম রেড টেপ হোল্ডস আপ স্কাইস্ক্র্যাপার একটি ক্র্যাশ ব্লসম কারণ একটি NLU মডেল শিরোনামটিকে আক্ষরিক বা রূপকভাবে ব্যাখ্যা করতে পারে।

সমালোচক

#আরএল

ডিপ কিউ-নেটওয়ার্কের প্রতিশব্দ।

ক্রস-এনট্রপি

#মেট্রিক

মাল্টি-ক্লাস ক্লাসিফিকেশন সমস্যায় লগ লসের সাধারণীকরণ। ক্রস-এনট্রপি দুটি সম্ভাব্যতা বন্টনের মধ্যে পার্থক্য পরিমাপ করে। বিভ্রান্তিও দেখুন।

ক্রস-বৈধকরণ

প্রশিক্ষণ সেট থেকে আটকে রাখা এক বা একাধিক নন-ওভারল্যাপিং ডেটা সাবসেটের বিপরীতে মডেল পরীক্ষা করে একটি মডেল নতুন ডেটাতে কতটা ভালোভাবে সাধারণীকরণ করবে তা অনুমান করার একটি প্রক্রিয়া।

ক্রমবর্ধমান বিতরণ ফাংশন (CDF)

#মেট্রিক

একটি ফাংশন যা লক্ষ্য মানের থেকে কম বা সমান নমুনার ফ্রিকোয়েন্সি নির্ধারণ করে। উদাহরণস্বরূপ, ক্রমাগত মানগুলির একটি স্বাভাবিক বন্টন বিবেচনা করুন। একটি CDF আপনাকে বলে যে আনুমানিক 50% নমুনা গড় থেকে কম বা সমান হওয়া উচিত এবং আনুমানিক 84% নমুনা গড় থেকে উপরে একটি আদর্শ বিচ্যুতির চেয়ে কম বা সমান হওয়া উচিত।

ডি

তথ্য বিশ্লেষণ

নমুনা, পরিমাপ এবং ভিজ্যুয়ালাইজেশন বিবেচনা করে ডেটা বোঝার প্রাপ্তি। ডেটা বিশ্লেষণ বিশেষভাবে উপযোগী হতে পারে যখন একটি ডেটাসেট প্রথম প্রাপ্ত হয়, কেউ প্রথম মডেল তৈরি করার আগে। সিস্টেমের সাথে পরীক্ষাগুলি এবং ডিবাগিং সমস্যাগুলি বোঝার ক্ষেত্রেও এটি অত্যন্ত গুরুত্বপূর্ণ৷

তথ্য বৃদ্ধি

#ছবি

কৃত্রিমভাবে অতিরিক্ত উদাহরণ তৈরি করতে বিদ্যমান উদাহরণগুলিকে রূপান্তর করে প্রশিক্ষণের উদাহরণের পরিসর এবং সংখ্যা বৃদ্ধি করা। উদাহরণ স্বরূপ, ধরুন ছবিগুলি আপনার বৈশিষ্ট্যগুলির মধ্যে একটি, কিন্তু আপনার ডেটাসেটে মডেলটির জন্য প্রয়োজনীয় অ্যাসোসিয়েশন শেখার জন্য যথেষ্ট ইমেজ উদাহরণ নেই৷ আদর্শভাবে, আপনার মডেলকে সঠিকভাবে প্রশিক্ষণ দিতে সক্ষম করার জন্য আপনি আপনার ডেটাসেটে পর্যাপ্ত লেবেলযুক্ত ছবি যুক্ত করবেন। যদি এটি সম্ভব না হয়, তবে ডেটা বর্ধন প্রতিটি চিত্রকে ঘোরাতে, প্রসারিত করতে এবং প্রতিফলিত করে মূল ছবির অনেকগুলি রূপ তৈরি করতে পারে, সম্ভবত চমৎকার প্রশিক্ষণ সক্ষম করার জন্য যথেষ্ট লেবেলযুক্ত ডেটা প্রদান করে।

ডেটাফ্রেম

#মৌলিক

মেমরিতে ডেটাসেট উপস্থাপনের জন্য একটি জনপ্রিয় পান্ডা ডেটা টাইপ।

একটি ডেটাফ্রেম একটি টেবিল বা স্প্রেডশীটের সাথে সাদৃশ্যপূর্ণ। একটি ডেটাফ্রেমের প্রতিটি কলামের একটি নাম (একটি শিরোনাম) থাকে এবং প্রতিটি সারি একটি অনন্য সংখ্যা দ্বারা চিহ্নিত করা হয়।

একটি ডেটাফ্রেমের প্রতিটি কলাম একটি 2D অ্যারের মতো গঠন করা হয়, প্রতিটি কলামের নিজস্ব ডেটা টাইপ বরাদ্দ করা যেতে পারে।

অফিসিয়াল pandas.DataFrame রেফারেন্স পৃষ্ঠাও দেখুন।

ডেটা সমান্তরালতা

প্রশিক্ষণ বা অনুমান স্কেলিং করার একটি উপায় যা একটি সম্পূর্ণ মডেলকে একাধিক ডিভাইসে প্রতিলিপি করে এবং তারপর প্রতিটি ডিভাইসে ইনপুট ডেটার একটি উপসেট পাস করে। ডেটা সমান্তরালতা খুব বড় ব্যাচের মাপের প্রশিক্ষণ এবং অনুমান সক্ষম করতে পারে; যাইহোক, ডেটা সমান্তরালতার জন্য মডেলটি সমস্ত ডিভাইসে ফিট করার জন্য যথেষ্ট ছোট হওয়া প্রয়োজন।

ডেটা সমান্তরালতা সাধারণত প্রশিক্ষণ এবং অনুমানকে গতি দেয়।

এছাড়াও মডেল সমান্তরাল দেখুন.

ডেটাসেট API (tf.data)

#টেনসরফ্লো

একটি উচ্চ-স্তরের TensorFlow API ডেটা পড়ার জন্য এবং এটিকে একটি ফর্মে রূপান্তরিত করার জন্য যা একটি মেশিন লার্নিং অ্যালগরিদমের প্রয়োজন। একটি tf.data.Dataset অবজেক্ট উপাদানগুলির একটি ক্রম প্রতিনিধিত্ব করে, যার প্রতিটি উপাদানে এক বা একাধিক Tensors থাকে। একটি tf.data.Iterator অবজেক্ট একটি Dataset উপাদানগুলিতে অ্যাক্সেস প্রদান করে।

ডেটা সেট বা ডেটাসেট

#মৌলিক

নিম্নোক্ত বিন্যাসগুলির মধ্যে একটিতে সাধারণত (কিন্তু একচেটিয়াভাবে নয়) সংগঠিত কাঁচা ডেটার একটি সংগ্রহ:

  • একটি স্প্রেডশীট
  • CSV (কমা-বিভক্ত মান) বিন্যাসে একটি ফাইল

সিদ্ধান্তের সীমানা

একটি বাইনারি শ্রেণী বা বহু-শ্রেণীর শ্রেণীবিভাগ সমস্যায় মডেল দ্বারা শেখা ক্লাসের মধ্যে বিভাজক। উদাহরণস্বরূপ, একটি বাইনারি শ্রেণীবিভাগের সমস্যাকে উপস্থাপন করে নিম্নলিখিত চিত্রটিতে, সিদ্ধান্তের সীমানা হল কমলা শ্রেণি এবং নীল শ্রেণির মধ্যে সীমান্ত:

একটি শ্রেণী এবং অন্য শ্রেণীর মধ্যে একটি সু-সংজ্ঞায়িত সীমানা।

সিদ্ধান্ত বন

#df

একাধিক সিদ্ধান্ত গাছ থেকে তৈরি একটি মডেল। একটি সিদ্ধান্ত বন তার সিদ্ধান্ত গাছের পূর্বাভাস একত্রিত করে একটি ভবিষ্যদ্বাণী করে। জনপ্রিয় ধরনের সিদ্ধান্ত বনের মধ্যে রয়েছে এলোমেলো বন এবং গ্রেডিয়েন্ট বুস্টেড গাছ

আরও তথ্যের জন্য ডিসিশন ফরেস্ট কোর্সের সিদ্ধান্ত বন বিভাগটি দেখুন।

সিদ্ধান্ত থ্রেশহোল্ড

শ্রেণীবিভাগ থ্রেশহোল্ডের প্রতিশব্দ।

সিদ্ধান্ত গাছ

#df

ক্রমানুসারে সংগঠিত শর্ত এবং পাতার একটি সেটের সমন্বয়ে একটি তত্ত্বাবধানে শিক্ষার মডেল। উদাহরণস্বরূপ, নিম্নলিখিত একটি সিদ্ধান্ত গাছ:

চারটি শর্তের সমন্বয়ে একটি সিদ্ধান্ত গাছ সাজানো হয়েছে           অনুক্রমিকভাবে, যা পাঁচটি পাতার দিকে নিয়ে যায়।

ডিকোডার

#ভাষা

সাধারণভাবে, যে কোনো ML সিস্টেম যা একটি প্রক্রিয়াকৃত, ঘন বা অভ্যন্তরীণ উপস্থাপনা থেকে আরও কাঁচা, বিক্ষিপ্ত বা বাহ্যিক উপস্থাপনায় রূপান্তরিত হয়।

ডিকোডারগুলি প্রায়শই একটি বড় মডেলের একটি উপাদান, যেখানে তারা প্রায়শই একটি এনকোডারের সাথে যুক্ত হয়।

সিকোয়েন্স-টু-সিকোয়েন্স কাজগুলিতে , একটি ডিকোডার পরবর্তী ক্রম অনুমান করার জন্য এনকোডার দ্বারা তৈরি অভ্যন্তরীণ অবস্থা দিয়ে শুরু হয়।

ট্রান্সফরমার আর্কিটেকচারের মধ্যে একটি ডিকোডারের সংজ্ঞার জন্য ট্রান্সফরমার পড়ুন।

আরও তথ্যের জন্য মেশিন লার্নিং ক্র্যাশ কোর্সে বড় ভাষার মডেলগুলি দেখুন।

গভীর মডেল

#মৌলিক

একটি নিউরাল নেটওয়ার্ক যাতে একাধিক লুকানো স্তর থাকে।

একটি গভীর মডেলকে গভীর নিউরাল নেটওয়ার্কও বলা হয়।

প্রশস্ত মডেলের সাথে বৈসাদৃশ্য।

গভীর নিউরাল নেটওয়ার্ক

গভীর মডেলের প্রতিশব্দ।

গভীর Q-নেটওয়ার্ক (DQN)

#আরএল

কিউ-লার্নিং- এ, একটি গভীর নিউরাল নেটওয়ার্ক যা কিউ-ফাংশনগুলির পূর্বাভাস দেয়।

সমালোচক ডিপ কিউ-নেটওয়ার্কের প্রতিশব্দ।

জনসংখ্যাগত সমতা

#দায়িত্বশীল
#মেট্রিক

একটি ন্যায্যতা মেট্রিক যা একটি মডেলের শ্রেণীবিভাগের ফলাফল একটি প্রদত্ত সংবেদনশীল বৈশিষ্ট্যের উপর নির্ভরশীল না হলে সন্তুষ্ট হয়৷

উদাহরণস্বরূপ, যদি লিলিপুটিয়ান এবং ব্রোবডিংনাগিয়ান উভয়ই গ্লুবডুবড্রিব বিশ্ববিদ্যালয়ে আবেদন করে, তাহলে জনসংখ্যাগত সমতা অর্জন করা হয় যদি লিলিপুটিয়ানদের ভর্তির শতাংশ ব্রোবডিংনাগিয়ানদের ভর্তির শতাংশের সমান হয়, তা নির্বিশেষে যে একটি গোষ্ঠী অন্যের তুলনায় গড়ে বেশি যোগ্য কিনা।

সমতাপূর্ণ প্রতিকূলতা এবং সুযোগের সমতার সাথে বৈসাদৃশ্য, যা শ্রেণীবিভাগের ফলাফলকে সংবেদনশীল বৈশিষ্ট্যের উপর নির্ভর করার অনুমতি দেয়, কিন্তু নির্দিষ্ট নির্দিষ্ট গ্রাউন্ড ট্রুথ লেবেলগুলির জন্য সংবেদনশীল বৈশিষ্ট্যের উপর নির্ভর করার জন্য শ্রেণীবিভাগের ফলাফলকে অনুমতি দেয় না। ডেমোগ্রাফিক সমতা অপ্টিমাইজ করার সময় ট্রেডঅফ অন্বেষণ করার একটি ভিজ্যুয়ালাইজেশনের জন্য "স্মার্ট মেশিন লার্নিং দিয়ে বৈষম্যের আক্রমণ" দেখুন।

আরও তথ্যের জন্য মেশিন লার্নিং ক্র্যাশ কোর্সে ফেয়ারনেস: ডেমোগ্রাফিক প্যারিটি দেখুন।

denoising

#ভাষা

স্ব-তত্ত্বাবধানে শিক্ষার একটি সাধারণ পদ্ধতি যার মধ্যে:

  1. গোলমাল কৃত্রিমভাবে ডেটাসেটে যোগ করা হয়।
  2. মডেল গোলমাল অপসারণ করার চেষ্টা করে।

Denoising লেবেলবিহীন উদাহরণ থেকে শেখার সক্ষম করে। মূল ডেটাসেট লক্ষ্য বা লেবেল হিসাবে কাজ করে এবং কোলাহলপূর্ণ ডেটা ইনপুট হিসাবে কাজ করে।

কিছু মুখোশযুক্ত ভাষা মডেল নিম্নরূপ denoising ব্যবহার করে:

  1. কিছু টোকেন মাস্ক করে লেবেলবিহীন বাক্যে কৃত্রিমভাবে নয়েজ যোগ করা হয়।
  2. মডেল মূল টোকেন ভবিষ্যদ্বাণী করার চেষ্টা করে।

ঘন বৈশিষ্ট্য

#মৌলিক

একটি বৈশিষ্ট্য যেখানে বেশিরভাগ বা সমস্ত মান অশূন্য, সাধারণত ফ্লোটিং-পয়েন্ট মানগুলির একটি টেনসর ৷ উদাহরণস্বরূপ, নিম্নলিখিত 10-উপাদান টেনসরটি ঘন কারণ এর 9টি মান অশূন্য:

8 3 7 5 2 4 0 4 9 6

স্পার্স বৈশিষ্ট্যের সাথে বৈসাদৃশ্য।

ঘন স্তর

সম্পূর্ণভাবে সংযুক্ত স্তরের সমার্থক।

গভীরতা

#মৌলিক

একটি নিউরাল নেটওয়ার্কে নিম্নলিখিতগুলির সমষ্টি:

উদাহরণস্বরূপ, পাঁচটি লুকানো স্তর এবং একটি আউটপুট স্তর সহ একটি নিউরাল নেটওয়ার্কের গভীরতা 6।

লক্ষ্য করুন যে ইনপুট স্তর গভীরতা প্রভাবিত করে না।

গভীরভাবে বিভাজ্য কনভোলিউশনাল নিউরাল নেটওয়ার্ক (sepCNN)

#ছবি

ইনসেপশনের উপর ভিত্তি করে একটি কনভোল্যুশনাল নিউরাল নেটওয়ার্ক আর্কিটেকচার, কিন্তু যেখানে ইনসেপশন মডিউলগুলি গভীরভাবে বিভাজ্য কনভোলিউশন দিয়ে প্রতিস্থাপিত হয়। Xception নামেও পরিচিত।

একটি গভীরতা অনুসারে বিভাজ্য কনভোলিউশন (এছাড়াও বিভাজ্য কনভোলিউশন হিসাবে সংক্ষিপ্ত) একটি স্ট্যান্ডার্ড 3D কনভোলিউশনকে দুটি পৃথক কনভোলিউশন অপারেশনে পরিণত করে যেগুলি গণনাগতভাবে আরও দক্ষ: প্রথমত, একটি গভীরতার দিক দিয়ে কনভোলিউশন, যার গভীরতা 1 (n ✕ n ✕ 1), এবং তারপরে দ্বিতীয়, একটি বিন্দু অনুযায়ী 1-এর দৈর্ঘ্য এবং 1-এর দৈর্ঘ্যের সঙ্গে ✕ n)।

আরও জানতে, দেখুন এক্সসেপশন: ডিপ লার্নিং উইথ ডেপথওয়াইজ সেপারেবল কনভোলিউশন

প্রাপ্ত লেবেল

প্রক্সি লেবেলের প্রতিশব্দ।

ডিভাইস

#টেনসরফ্লো
#GoogleCloud

নিম্নলিখিত দুটি সম্ভাব্য সংজ্ঞা সহ একটি ওভারলোড শব্দ:

  1. হার্ডওয়্যারের একটি বিভাগ যা CPUs, GPUs, এবং TPUs সহ একটি TensorFlow সেশন চালাতে পারে।
  2. যখন অ্যাক্সিলারেটর চিপস (GPUs বা TPUs) তে একটি ML মডেলকে প্রশিক্ষণ দেওয়া হয়, তখন সিস্টেমের সেই অংশ যা আসলে টেনসর এবং এম্বেডিংগুলিকে ম্যানিপুলেট করে। ডিভাইসটি অ্যাক্সিলারেটর চিপগুলিতে চলে। বিপরীতে, হোস্ট সাধারণত একটি CPU-তে চলে।

ডিফারেনশিয়াল গোপনীয়তা

মেশিন লার্নিং-এ, কোনো সংবেদনশীল ডেটা (উদাহরণস্বরূপ, একজন ব্যক্তির ব্যক্তিগত তথ্য) সুরক্ষিত করার জন্য একটি বেনামী পদ্ধতি যা একটি মডেলের প্রশিক্ষণ সেটে অন্তর্ভূক্ত হয়। এই পদ্ধতি নিশ্চিত করে যে মডেলটি একটি নির্দিষ্ট ব্যক্তির সম্পর্কে অনেক কিছু শিখতে বা মনে রাখে না। সংবেদনশীল প্রশিক্ষণ ডেটা প্রকাশের ঝুঁকি হ্রাস করে পৃথক ডেটা পয়েন্টগুলিকে অস্পষ্ট করতে মডেল প্রশিক্ষণের সময় নমুনা এবং শব্দ যোগ করার মাধ্যমে এটি সম্পন্ন করা হয়।

মেশিন লার্নিংয়ের বাইরেও ডিফারেনশিয়াল প্রাইভেসি ব্যবহার করা হয়। উদাহরণস্বরূপ, বিভিন্ন জনসংখ্যার জন্য পণ্য ব্যবহারের পরিসংখ্যান গণনা করার সময় ডেটা বিজ্ঞানীরা কখনও কখনও পৃথক গোপনীয়তা রক্ষা করতে ডিফারেনশিয়াল গোপনীয়তা ব্যবহার করেন।

মাত্রা হ্রাস

একটি বৈশিষ্ট্য ভেক্টরে একটি নির্দিষ্ট বৈশিষ্ট্য উপস্থাপন করতে ব্যবহৃত মাত্রার সংখ্যা হ্রাস করা, সাধারণত একটি এমবেডিং ভেক্টরে রূপান্তর করে।

মাত্রা

ওভারলোড করা শব্দের নিম্নলিখিত সংজ্ঞাগুলির যেকোনো একটি আছে:

  • একটি টেনসরে স্থানাঙ্কের স্তরের সংখ্যা। যেমন:

    • একটি স্কেলার শূন্য মাত্রা আছে; উদাহরণস্বরূপ, ["Hello"]
    • একটি ভেক্টর একটি মাত্রা আছে; উদাহরণস্বরূপ, [3, 5, 7, 11]
    • একটি ম্যাট্রিক্সের দুটি মাত্রা আছে; উদাহরণস্বরূপ, [[2, 4, 18], [5, 7, 14]] । আপনি একটি স্থানাঙ্ক সহ একটি এক-মাত্রিক ভেক্টরে একটি নির্দিষ্ট ঘরকে অনন্যভাবে নির্দিষ্ট করতে পারেন; একটি দ্বি-মাত্রিক ম্যাট্রিক্সে একটি নির্দিষ্ট ঘরকে স্বতন্ত্রভাবে নির্দিষ্ট করতে আপনার দুটি স্থানাঙ্কের প্রয়োজন।
  • একটি বৈশিষ্ট্য ভেক্টরে এন্ট্রির সংখ্যা।

  • একটি এম্বেডিং স্তরে উপাদানের সংখ্যা।

সরাসরি প্রম্পটিং

#ভাষা
#generativeAI

জিরো-শট প্রম্পটিং- এর প্রতিশব্দ।

পৃথক বৈশিষ্ট্য

#মৌলিক

সম্ভাব্য মানগুলির একটি সীমিত সেট সহ একটি বৈশিষ্ট্য । উদাহরণস্বরূপ, একটি বৈশিষ্ট্য যার মান শুধুমাত্র প্রাণী , উদ্ভিজ্জ বা খনিজ হতে পারে একটি পৃথক (বা শ্রেণীবদ্ধ) বৈশিষ্ট্য।

ক্রমাগত বৈশিষ্ট্য সঙ্গে বৈসাদৃশ্য.

বৈষম্যমূলক মডেল

একটি মডেল যা এক বা একাধিক বৈশিষ্ট্যের একটি সেট থেকে লেবেলগুলির পূর্বাভাস দেয়৷ আরও আনুষ্ঠানিকভাবে, বৈষম্যমূলক মডেলগুলি বৈশিষ্ট্য এবং ওজন প্রদত্ত একটি আউটপুটের শর্তসাপেক্ষ সম্ভাব্যতা সংজ্ঞায়িত করে; সেটা হল:

p(output | features, weights)

উদাহরণস্বরূপ, একটি মডেল যা ভবিষ্যদ্বাণী করে যে একটি ইমেল বৈশিষ্ট্য এবং ওজন থেকে স্প্যাম কিনা তা একটি বৈষম্যমূলক মডেল।

শ্রেণীবিভাগ এবং রিগ্রেশন মডেল সহ তত্ত্বাবধান করা শেখার মডেলগুলির বেশিরভাগই বৈষম্যমূলক মডেল।

জেনারেটিভ মডেলের সাথে বৈসাদৃশ্য।

বৈষম্যকারী

একটি সিস্টেম যা নির্ধারণ করে যে উদাহরণগুলি আসল নাকি নকল।

বিকল্পভাবে, একটি জেনারেটিভ অ্যাডভারসারিয়াল নেটওয়ার্কের মধ্যে থাকা সাবসিস্টেম যা নির্ধারণ করে যে জেনারেটরের দ্বারা তৈরি উদাহরণগুলি আসল নাকি নকল।

আরও তথ্যের জন্য GAN কোর্সে বৈষম্যকারী দেখুন।

ভিন্ন প্রভাব

#দায়িত্বশীল

বিভিন্ন জনসংখ্যার উপগোষ্ঠীকে অসমভাবে প্রভাবিত করে এমন লোকদের সম্পর্কে সিদ্ধান্ত নেওয়া। এটি সাধারণত এমন পরিস্থিতিতে বোঝায় যেখানে একটি অ্যালগরিদমিক সিদ্ধান্ত নেওয়ার প্রক্রিয়া কিছু উপগোষ্ঠীকে অন্যদের তুলনায় বেশি ক্ষতি বা উপকার করে।

উদাহরণস্বরূপ, ধরুন একটি অ্যালগরিদম যা একটি ক্ষুদ্র-গৃহঋণের জন্য একটি লিলিপুটিয়ানের যোগ্যতা নির্ধারণ করে তাদের মেইলিং ঠিকানায় একটি নির্দিষ্ট পোস্টাল কোড থাকলে তাদের "অযোগ্য" হিসাবে শ্রেণীবদ্ধ করার সম্ভাবনা বেশি। লিটল-এন্ডিয়ান লিলিপুটিয়ানদের তুলনায় যদি বিগ-এন্ডিয়ান লিলিপুটিয়ানদের এই পোস্টাল কোড সহ মেইলিং ঠিকানার সম্ভাবনা বেশি থাকে, তাহলে এই অ্যালগরিদমটি ভিন্ন প্রভাব ফেলতে পারে।

বৈষম্যপূর্ণ চিকিত্সার সাথে বৈপরীত্য, যা বৈষম্যের উপর দৃষ্টি নিবদ্ধ করে যার ফলস্বরূপ যখন উপগোষ্ঠীর বৈশিষ্ট্যগুলি একটি অ্যালগরিদমিক সিদ্ধান্ত গ্রহণের প্রক্রিয়ার সুস্পষ্ট ইনপুট হয়।

পৃথক চিকিত্সা

#দায়িত্বশীল

একটি অ্যালগরিদমিক সিদ্ধান্ত গ্রহণের প্রক্রিয়ার মধ্যে বিষয়গুলির সংবেদনশীল বৈশিষ্ট্যগুলিকে ফ্যাক্টরিং করা যাতে মানুষের বিভিন্ন উপগোষ্ঠীকে আলাদাভাবে বিবেচনা করা হয়।

উদাহরণস্বরূপ, একটি অ্যালগরিদম বিবেচনা করুন যা লিলিপুটিয়ানদের তাদের ঋণের আবেদনে দেওয়া তথ্যের ভিত্তিতে একটি ক্ষুদ্র-গৃহঋণের জন্য যোগ্যতা নির্ধারণ করে। যদি অ্যালগরিদম একটি ইনপুট হিসাবে বিগ-এন্ডিয়ান বা লিটল-এন্ডিয়ান হিসাবে একটি লিলিপুটিয়ানের অধিভুক্তি ব্যবহার করে, তবে এটি সেই মাত্রার সাথে বৈষম্যমূলক চিকিত্সা কার্যকর করছে।

বৈষম্যমূলক প্রভাবের সাথে বৈসাদৃশ্য, যা উপগোষ্ঠীর উপর অ্যালগরিদমিক সিদ্ধান্তের সামাজিক প্রভাবগুলিতে বৈষম্যের উপর দৃষ্টি নিবদ্ধ করে, সেই উপগোষ্ঠীগুলি মডেলের ইনপুট কিনা তা নির্বিশেষে।

পাতন

#generativeAI

একটি মডেলের আকার ( শিক্ষক হিসাবে পরিচিত) একটি ছোট মডেলে (যা ছাত্র হিসাবে পরিচিত) হ্রাস করার প্রক্রিয়া যা যথাসম্ভব বিশ্বস্ততার সাথে আসল মডেলের ভবিষ্যদ্বাণীগুলিকে অনুকরণ করে৷ পাতন কার্যকর কারণ ছোট মডেলের বড় মডেলের (শিক্ষক) তুলনায় দুটি মূল সুবিধা রয়েছে:

  • দ্রুত অনুমান সময়
  • স্মৃতিশক্তি এবং শক্তির ব্যবহার হ্রাস

যাইহোক, ছাত্রের ভবিষ্যদ্বাণীগুলি সাধারণত শিক্ষকের ভবিষ্যদ্বাণীগুলির মতো ভাল হয় না।

ডিস্টিলেশন শিক্ষার্থী এবং শিক্ষক মডেলের ভবিষ্যদ্বাণীগুলির আউটপুটগুলির মধ্যে পার্থক্যের উপর ভিত্তি করে ক্ষতির কার্যকারিতা কমাতে ছাত্র মডেলকে প্রশিক্ষণ দেয়।

নিম্নোক্ত পদগুলির সাথে পাতনের তুলনা করুন এবং বৈসাদৃশ্য করুন:

আরও তথ্যের জন্য এলএলএম দেখুন: মেশিন লার্নিং ক্র্যাশ কোর্সে ফাইন-টিউনিং, ডিস্টিলেশন এবং প্রম্পট ইঞ্জিনিয়ারিং

বিতরণ

প্রদত্ত বৈশিষ্ট্য বা লেবেলের জন্য বিভিন্ন মানের ফ্রিকোয়েন্সি এবং পরিসর। একটি ডিস্ট্রিবিউশন ক্যাপচার করে যে একটি নির্দিষ্ট মান কতটা সম্ভব।

নিম্নলিখিত চিত্র দুটি ভিন্ন বিতরণের হিস্টোগ্রাম দেখায়:

  • বাম দিকে, সম্পদের একটি ক্ষমতা আইন বন্টন বনাম সেই সম্পদের অধিকারী লোকের সংখ্যা।
  • ডানদিকে, উচ্চতার একটি স্বাভাবিক বন্টন বনাম সেই উচ্চতার অধিকারী লোকের সংখ্যা।

দুটি হিস্টোগ্রাম। একটি হিস্টোগ্রাম এর সাথে একটি পাওয়ার আইন বন্টন দেখায়           x-অক্ষে সম্পদ এবং সেই সম্পদে থাকা লোকের সংখ্যা           y-অক্ষ। বেশির ভাগ লোকেরই খুব কম সম্পদ আছে, আর কিছু লোকের আছে           অনেক সম্পদ। অন্য হিস্টোগ্রাম একটি স্বাভাবিক বন্টন দেখায়           x-অক্ষের উচ্চতা এবং সেই উচ্চতার লোকের সংখ্যা সহ           y-অক্ষের উপর। অধিকাংশ মানুষ গড় কাছাকাছি কোথাও ক্লাস্টার হয়.

প্রতিটি বৈশিষ্ট্য এবং লেবেলের ডিস্ট্রিবিউশন বোঝা আপনাকে কীভাবে মানগুলিকে স্বাভাবিক করতে হবে এবং আউটলায়ারগুলি সনাক্ত করতে হবে তা নির্ধারণ করতে সহায়তা করতে পারে।

বিতরণের বাইরে শব্দগুচ্ছ এমন একটি মানকে বোঝায় যা ডেটাসেটে প্রদর্শিত হয় না বা খুব বিরল। উদাহরণস্বরূপ, বিড়ালের ছবি সমন্বিত ডেটাসেটের জন্য শনি গ্রহের একটি চিত্র বিতরণের বাইরে বিবেচিত হবে।

বিভাজক ক্লাস্টারিং

# ক্লাস্টারিং

অনুক্রমিক ক্লাস্টারিং দেখুন।

ডাউনস্যাম্পলিং

#ছবি

ওভারলোড করা শব্দ যার অর্থ নিম্নলিখিত যেকোন একটি হতে পারে:

  • একটি মডেলকে আরও দক্ষতার সাথে প্রশিক্ষণ দেওয়ার জন্য একটি বৈশিষ্ট্যে তথ্যের পরিমাণ হ্রাস করা। উদাহরণস্বরূপ, একটি চিত্র সনাক্তকরণ মডেল প্রশিক্ষণের আগে, উচ্চ-রেজোলিউশনের চিত্রগুলিকে নিম্ন-রেজোলিউশন বিন্যাসে নামিয়ে আনা।
  • কম-প্রতিনিধিত্বশীল ক্লাসের মডেল প্রশিক্ষণ উন্নত করার জন্য ওভার-রিপ্রেজেন্টেড ক্লাসের উদাহরণগুলির একটি অসামঞ্জস্যপূর্ণভাবে কম শতাংশের উপর প্রশিক্ষণ। উদাহরণস্বরূপ, একটি শ্রেণী-ভারসাম্যহীন ডেটাসেটে , মডেলগুলি সংখ্যাগরিষ্ঠ শ্রেণী সম্পর্কে অনেক কিছু শিখতে থাকে এবং সংখ্যালঘু শ্রেণী সম্পর্কে যথেষ্ট নয়। ডাউনস্যাম্পলিং সংখ্যাগরিষ্ঠ এবং সংখ্যালঘু শ্রেণীর প্রশিক্ষণের পরিমাণের ভারসাম্য বজায় রাখতে সাহায্য করে।

আরও তথ্যের জন্য ডেটাসেট দেখুন: মেশিন লার্নিং ক্র্যাশ কোর্সে ভারসাম্যহীন ডেটাসেট

ডিকিউএন

#আরএল

ডিপ কিউ-নেটওয়ার্কের সংক্ষিপ্ত রূপ।

ড্রপআউট নিয়মিতকরণ

নিয়মিতকরণের একটি ফর্ম যা নিউরাল নেটওয়ার্কের প্রশিক্ষণে কার্যকর। ড্রপআউট নিয়মিতকরণ একটি একক গ্রেডিয়েন্ট ধাপের জন্য একটি নেটওয়ার্ক স্তরে একটি নির্দিষ্ট সংখ্যক ইউনিটের র্যান্ডম নির্বাচনকে সরিয়ে দেয়। যত বেশি ইউনিট বাদ পড়বে, নিয়মিতকরণ তত শক্তিশালী হবে। এটি ছোট নেটওয়ার্কগুলির একটি দ্রুতগতিপূর্ণভাবে বৃহৎ সংযোজন অনুকরণ করার জন্য নেটওয়ার্ককে প্রশিক্ষণের অনুরূপ। সম্পূর্ণ বিশদ বিবরণের জন্য, ড্রপআউট দেখুন: ওভারফিটিং থেকে নিউরাল নেটওয়ার্ক প্রতিরোধ করার একটি সহজ উপায়

গতিশীল

#মৌলিক

ঘন ঘন বা ক্রমাগত কিছু করা। গতিশীল এবং অনলাইন শব্দগুলি মেশিন লার্নিং এর সমার্থক শব্দ। নিম্নলিখিতগুলি মেশিন লার্নিংয়ে গতিশীল এবং অনলাইনের সাধারণ ব্যবহার:

  • একটি গতিশীল মডেল (বা অনলাইন মডেল ) হল একটি মডেল যা ঘন ঘন বা ক্রমাগত পুনরায় প্রশিক্ষণ দেওয়া হয়।
  • ডায়নামিক ট্রেনিং (বা অনলাইন ট্রেনিং ) হল ঘন ঘন বা একটানা প্রশিক্ষণের প্রক্রিয়া।
  • গতিশীল অনুমান (বা অনলাইন অনুমান ) হল চাহিদার উপর পূর্বাভাস তৈরি করার প্রক্রিয়া।

গতিশীল মডেল

#মৌলিক

একটি মডেল যা ঘন ঘন (সম্ভবত এমনকি ক্রমাগত) পুনরায় প্রশিক্ষিত হয়। একটি গতিশীল মডেল হল একটি "আজীবন শিক্ষার্থী" যা ক্রমাগত বিকশিত ডেটার সাথে খাপ খায়। একটি গতিশীল মডেল একটি অনলাইন মডেল হিসাবেও পরিচিত।

স্ট্যাটিক মডেলের সাথে বৈসাদৃশ্য।

উদগ্রীব মৃত্যুদন্ড

#টেনসরফ্লো

একটি টেনসরফ্লো প্রোগ্রামিং পরিবেশ যেখানে অপারেশনগুলি অবিলম্বে চলে। বিপরীতে, গ্রাফ এক্সিকিউশনে বলা ক্রিয়াকলাপগুলি স্পষ্টভাবে মূল্যায়ন না হওয়া পর্যন্ত চলবে না। Aager execution হল একটি অপরিহার্য ইন্টারফেস , অনেকটা প্রোগ্রামিং ভাষার কোডের মত। গ্রাফ এক্সিকিউশন প্রোগ্রামের চেয়ে আগ্রহী এক্সিকিউশন প্রোগ্রামগুলি সাধারণত ডিবাগ করা অনেক সহজ।

তাড়াতাড়ি থামানো

#মৌলিক

নিয়মিতকরণের একটি পদ্ধতি যা প্রশিক্ষণের ক্ষতি কমানোর আগে প্রশিক্ষণ শেষ করে। প্রারম্ভিক বন্ধে, আপনি ইচ্ছাকৃতভাবে মডেলের প্রশিক্ষণ বন্ধ করে দেন যখন একটি বৈধতা ডেটাসেটের ক্ষতি বাড়তে থাকে; যে, যখন সাধারণীকরণ কর্মক্ষমতা খারাপ হয়.

আর্থ মুভারের দূরত্ব (EMD)

#মেট্রিক

দুটি বিতরণের আপেক্ষিক মিলের একটি পরিমাপ। আর্থ মুভারের দূরত্ব যত কম হবে, বন্টন তত বেশি হবে।

দূরত্ব সম্পাদনা করুন

#ভাষা
#মেট্রিক

দুটি টেক্সট স্ট্রিং একে অপরের সাথে কতটা অনুরূপ তার একটি পরিমাপ। মেশিন লার্নিং-এ, দূরত্ব সম্পাদনা নিম্নলিখিত কারণগুলির জন্য দরকারী:

  • সম্পাদনা দূরত্ব গণনা করা সহজ।
  • দূরত্ব সম্পাদনা দুটি স্ট্রিং একে অপরের অনুরূপ বলে পরিচিত তুলনা করতে পারে।
  • দূরত্ব সম্পাদনা করুন বিভিন্ন স্ট্রিং একটি প্রদত্ত স্ট্রিং অনুরূপ ডিগ্রী নির্ধারণ করতে পারে.

সম্পাদনা দূরত্বের বেশ কয়েকটি সংজ্ঞা রয়েছে, প্রতিটি ভিন্ন স্ট্রিং অপারেশন ব্যবহার করে। একটি উদাহরণের জন্য Levenshtein দূরত্ব দেখুন।

Einsum স্বরলিপি

কিভাবে দুটি টেনসরকে একত্রিত করা হবে তা বর্ণনা করার জন্য একটি দক্ষ স্বরলিপি। একটি টেনসরের উপাদানগুলিকে অন্য টেনসরের উপাদানগুলির দ্বারা গুণ করে এবং তারপর পণ্যগুলির সমষ্টি করে টেনসরগুলিকে একত্রিত করা হয়। Einsum স্বরলিপি প্রতিটি টেনসরের অক্ষ চিহ্নিত করতে চিহ্ন ব্যবহার করে, এবং সেই একই চিহ্নগুলিকে নতুন ফলস্বরূপ টেনসরের আকৃতি নির্দিষ্ট করার জন্য পুনর্বিন্যাস করা হয়।

NumPy একটি সাধারণ Einsum বাস্তবায়ন প্রদান করে।

এম্বেডিং স্তর

#ভাষা
#মৌলিক

একটি বিশেষ লুকানো স্তর যা একটি উচ্চ-মাত্রিক শ্রেণীগত বৈশিষ্ট্যের উপর প্রশিক্ষণ দেয় যা ধীরে ধীরে একটি নিম্ন মাত্রার এম্বেডিং ভেক্টর শিখতে পারে। একটি এম্বেডিং স্তর একটি নিউরাল নেটওয়ার্ককে শুধুমাত্র উচ্চ-মাত্রিক শ্রেণীগত বৈশিষ্ট্যের উপর প্রশিক্ষণের চেয়ে অনেক বেশি দক্ষতার সাথে প্রশিক্ষণ দিতে সক্ষম করে।

উদাহরণস্বরূপ, পৃথিবী বর্তমানে প্রায় 73,000 গাছের প্রজাতিকে সমর্থন করে। ধরুন গাছের প্রজাতি আপনার মডেলের একটি বৈশিষ্ট্য , তাই আপনার মডেলের ইনপুট স্তরে একটি এক-হট ভেক্টর 73,000 উপাদান রয়েছে। উদাহরণস্বরূপ, সম্ভবত baobab এই মত কিছু প্রতিনিধিত্ব করা হবে:

73,000 উপাদানের একটি অ্যারে। প্রথম 6,232 উপাদান মান ধরে রাখে      0. পরবর্তী উপাদান মান 1 ধারণ করে। চূড়ান্ত 66,767 উপাদান ধারণ করে      মান শূন্য।

একটি 73,000-এলিমেন্ট অ্যারে খুব দীর্ঘ। আপনি যদি মডেলটিতে একটি এম্বেডিং স্তর যোগ না করেন, তাহলে 72,999 শূন্য গুণ করার কারণে প্রশিক্ষণটি খুব সময়সাপেক্ষ হতে চলেছে। সম্ভবত আপনি 12টি মাত্রা সমন্বিত করার জন্য এম্বেডিং স্তরটি বেছে নিন। ফলস্বরূপ, এম্বেডিং স্তরটি ধীরে ধীরে প্রতিটি গাছের প্রজাতির জন্য একটি নতুন এমবেডিং ভেক্টর শিখবে।

কিছু পরিস্থিতিতে, হ্যাশিং একটি এম্বেডিং স্তরের একটি যুক্তিসঙ্গত বিকল্প।

আরও তথ্যের জন্য মেশিন লার্নিং ক্র্যাশ কোর্সে এমবেডিং দেখুন।

এম্বেডিং স্থান

#ভাষা

উচ্চ-মাত্রিক ভেক্টর স্থান থেকে বৈশিষ্ট্যযুক্ত ডি-ডাইমেনশনাল ভেক্টর স্পেস ম্যাপ করা হয়। এমবেডিং স্পেসকে স্ট্রাকচার ক্যাপচার করার জন্য প্রশিক্ষিত করা হয় যা উদ্দেশ্যপ্রণোদিত অ্যাপ্লিকেশনের জন্য অর্থপূর্ণ।

দুটি এমবেডিংয়ের ডট পণ্য তাদের সাদৃশ্যের একটি পরিমাপ।

এমবেডিং ভেক্টর

#ভাষা

বিস্তৃতভাবে বলতে গেলে, কোনো লুকানো স্তর থেকে নেওয়া ফ্লোটিং-পয়েন্ট সংখ্যার একটি অ্যারে যা সেই লুকানো স্তরের ইনপুটগুলিকে বর্ণনা করে। প্রায়শই, একটি এমবেডিং ভেক্টর হল একটি এমবেডিং স্তরে প্রশিক্ষিত ফ্লোটিং-পয়েন্ট সংখ্যার অ্যারে। উদাহরণস্বরূপ, ধরুন একটি এম্বেডিং স্তরকে অবশ্যই পৃথিবীতে 73,000টি গাছের প্রজাতির জন্য একটি এমবেডিং ভেক্টর শিখতে হবে। সম্ভবত নিম্নলিখিত অ্যারেটি একটি বাওবাব গাছের জন্য এমবেডিং ভেক্টর:

12টি উপাদানের একটি অ্যারে, প্রতিটিতে একটি ফ্লোটিং-পয়েন্ট নম্বর রয়েছে           0.0 এবং 1.0 এর মধ্যে।

একটি এম্বেডিং ভেক্টর এলোমেলো সংখ্যার একটি গুচ্ছ নয়। একটি এমবেডিং স্তর প্রশিক্ষণের মাধ্যমে এই মানগুলি নির্ধারণ করে, যেভাবে একটি নিউরাল নেটওয়ার্ক প্রশিক্ষণের সময় অন্যান্য ওজন শেখে। অ্যারের প্রতিটি উপাদান একটি গাছের প্রজাতির কিছু বৈশিষ্ট্য বরাবর একটি রেটিং। কোন উপাদান কোন গাছের প্রজাতির বৈশিষ্ট্য উপস্থাপন করে? এটা মানুষের জন্য নির্ধারণ করা খুব কঠিন।

একটি এমবেডিং ভেক্টরের গাণিতিকভাবে উল্লেখযোগ্য অংশ হল যে অনুরূপ আইটেমগুলিতে ভাসমান-বিন্দু সংখ্যার অনুরূপ সেট রয়েছে। উদাহরণ স্বরূপ, অনুরূপ গাছের প্রজাতির ভিন্ন ভিন্ন বৃক্ষের প্রজাতির তুলনায় ভাসমান-বিন্দু সংখ্যার আরও অনুরূপ সেট রয়েছে। রেডউডস এবং সিকোইয়াস গাছের প্রজাতি সম্পর্কিত, তাই তাদের রেডউডস এবং নারকেল পামের তুলনায় ভাসমান-পয়েন্টিং সংখ্যার আরও অনুরূপ সেট থাকবে। এমবেডিং ভেক্টরের সংখ্যাগুলি আপনি প্রতিবার মডেলটিকে পুনরায় প্রশিক্ষণ দেওয়ার সময় পরিবর্তিত হবে, এমনকি যদি আপনি অভিন্ন ইনপুট দিয়ে মডেলটিকে পুনরায় প্রশিক্ষণ দেন।

অভিজ্ঞতামূলক ক্রমবর্ধমান বিতরণ ফাংশন (eCDF বা EDF)

#মেট্রিক

একটি বাস্তব ডেটাসেট থেকে পরীক্ষামূলক পরিমাপের উপর ভিত্তি করে একটি ক্রমবর্ধমান বিতরণ ফাংশন । x-অক্ষ বরাবর যেকোনো বিন্দুতে ফাংশনের মান হল ডেটাসেটে পর্যবেক্ষণের ভগ্নাংশ যা নির্দিষ্ট মানের থেকে কম বা সমান।

অভিজ্ঞতামূলক ঝুঁকি হ্রাস (ERM)

প্রশিক্ষণ সেটে ক্ষতি কম করে এমন ফাংশন নির্বাচন করা। কাঠামোগত ঝুঁকি কমানোর সাথে বৈসাদৃশ্য।

এনকোডার

#ভাষা

সাধারণভাবে, যে কোনো ML সিস্টেম যা একটি কাঁচা, বিক্ষিপ্ত, বা বাহ্যিক উপস্থাপনা থেকে আরও প্রক্রিয়াকৃত, ঘন বা আরও অভ্যন্তরীণ উপস্থাপনায় রূপান্তরিত হয়।

এনকোডারগুলি প্রায়শই একটি বড় মডেলের একটি উপাদান, যেখানে তারা প্রায়শই একটি ডিকোডারের সাথে যুক্ত হয়। কিছু ট্রান্সফরমার ডিকোডারের সাথে এনকোডার যুক্ত করে, যদিও অন্যান্য ট্রান্সফরমার শুধুমাত্র এনকোডার বা শুধুমাত্র ডিকোডার ব্যবহার করে।

কিছু সিস্টেম শ্রেণীবিভাগ বা রিগ্রেশন নেটওয়ার্কে ইনপুট হিসাবে এনকোডারের আউটপুট ব্যবহার করে।

সিকোয়েন্স-টু-সিকোয়েন্স কাজগুলিতে , একটি এনকোডার একটি ইনপুট সিকোয়েন্স নেয় এবং একটি অভ্যন্তরীণ অবস্থা (একটি ভেক্টর) প্রদান করে। তারপর, ডিকোডার পরবর্তী ক্রম অনুমান করতে সেই অভ্যন্তরীণ অবস্থা ব্যবহার করে।

ট্রান্সফরমার আর্কিটেকচারে একটি এনকোডারের সংজ্ঞার জন্য ট্রান্সফরমার পড়ুন।

আরও তথ্যের জন্য LLMs দেখুন: মেশিন লার্নিং ক্র্যাশ কোর্সে একটি বড় ভাষা মডেল কী

ensemble

স্বাধীনভাবে প্রশিক্ষিত মডেলের একটি সংগ্রহ যার ভবিষ্যদ্বাণী গড় বা একত্রিত। অনেক ক্ষেত্রে, একটি দল একটি একক মডেলের চেয়ে ভাল ভবিষ্যদ্বাণী তৈরি করে। উদাহরণ স্বরূপ, একটি এলোমেলো বন হল একাধিক সিদ্ধান্ত গাছ থেকে তৈরি একটি দল। নোট করুন যে সমস্ত সিদ্ধান্ত বন ensembles হয় না.

আরও তথ্যের জন্য মেশিন লার্নিং ক্র্যাশ কোর্সে র্যান্ডম ফরেস্ট দেখুন।

এনট্রপি

#df
#মেট্রিক

তথ্য তত্ত্বে , সম্ভাব্যতা বন্টন কতটা অপ্রত্যাশিত তার বর্ণনা। বিকল্পভাবে, প্রতিটি উদাহরণে কতটা তথ্য রয়েছে তা হিসাবে এনট্রপিকেও সংজ্ঞায়িত করা হয়। একটি ডিস্ট্রিবিউশনের সর্বোচ্চ সম্ভাব্য এনট্রপি থাকে যখন একটি র্যান্ডম ভেরিয়েবলের সমস্ত মান সমানভাবে সম্ভব হয়।

দুটি সম্ভাব্য মান "0" এবং "1" সহ একটি সেটের এনট্রপি (উদাহরণস্বরূপ, একটি বাইনারি শ্রেণিবিন্যাস সমস্যায় লেবেল) নিম্নলিখিত সূত্র রয়েছে:

H = -p লগ p - q লগ q = -p লগ p - (1-p) * লগ (1-p)

কোথায়:

  • H হল এনট্রপি।
  • p হল "1" উদাহরণের ভগ্নাংশ।
  • q হল "0" উদাহরণের ভগ্নাংশ। উল্লেখ্য যে q = (1 - p)
  • লগ সাধারণত লগ 2 হয়। এই ক্ষেত্রে, এনট্রপি ইউনিট একটি বিট।

উদাহরণস্বরূপ, নিম্নলিখিত অনুমান করুন:

  • 100টি উদাহরণে "1" মান রয়েছে
  • 300টি উদাহরণে "0" মান রয়েছে

অতএব, এনট্রপি মান হল:

  • p = 0.25
  • q = 0.75
  • H = (-0.25) লগ 2 (0.25) - (0.75) লগ 2 (0.75) = 0.81 বিট প্রতি উদাহরণ

একটি সেট যা পুরোপুরি ভারসাম্যপূর্ণ (উদাহরণস্বরূপ, 200 "0" s এবং 200 "1"s) প্রতি উদাহরণে 1.0 বিট এনট্রপি থাকবে। একটি সেট আরও ভারসাম্যহীন হওয়ার সাথে সাথে এর এনট্রপি 0.0 এর দিকে চলে যায়।

ডিসিশন ট্রিতে , এনট্রপি শ্রেণীবিভাগের সিদ্ধান্ত গাছের বৃদ্ধির সময় বিভাজনকারীকে শর্ত নির্বাচন করতে সাহায্য করার জন্য তথ্য অর্জন করতে সাহায্য করে।

এনট্রপির সাথে তুলনা করুন:

এনট্রপিকে প্রায়শই শ্যাননের এনট্রপি বলা হয়।

আরও তথ্যের জন্য ডিসিশন ফরেস্ট কোর্সে সংখ্যাসূচক বৈশিষ্ট্য সহ বাইনারি শ্রেণীবিভাগের জন্য সঠিক স্প্লিটার দেখুন।

পরিবেশ

#আরএল

শক্তিবৃদ্ধি শেখার ক্ষেত্রে, যে বিশ্বে এজেন্ট থাকে এবং এজেন্টকে সেই বিশ্বের অবস্থা পর্যবেক্ষণ করতে দেয়। উদাহরণস্বরূপ, প্রতিনিধিত্ব করা বিশ্ব দাবার মত একটি খেলা, অথবা একটি গোলকধাঁধা মত একটি শারীরিক জগত হতে পারে। যখন এজেন্ট পরিবেশে একটি ক্রিয়া প্রয়োগ করে, তখন পরিবেশ রাজ্যগুলির মধ্যে রূপান্তরিত হয়।

পর্ব

#আরএল

শক্তিবৃদ্ধি শেখার মধ্যে, এজেন্ট দ্বারা বারবার চেষ্টা প্রতিটি একটি পরিবেশ শিখতে.

যুগ

#মৌলিক

পুরো প্রশিক্ষণ সেটের উপর একটি সম্পূর্ণ প্রশিক্ষণ পাস যাতে প্রতিটি উদাহরণ একবার প্রক্রিয়া করা হয়েছে।

একটি যুগ N / ব্যাচ আকারের প্রশিক্ষণের পুনরাবৃত্তির প্রতিনিধিত্ব করে, যেখানে N হল মোট উদাহরণের সংখ্যা।

উদাহরণস্বরূপ, নিম্নলিখিতটি ধরুন:

  • ডেটাসেটটিতে 1,000টি উদাহরণ রয়েছে।
  • ব্যাচ আকার 50 উদাহরণ.

অতএব, একটি একক যুগের জন্য 20টি পুনরাবৃত্তি প্রয়োজন:

1 epoch = (N/batch size) = (1,000 / 50) = 20 iterations

আরও তথ্যের জন্য লিনিয়ার রিগ্রেশন: মেশিন লার্নিং ক্র্যাশ কোর্সে হাইপারপ্যারামিটার দেখুন।

epsilon লোভী নীতি

#আরএল

শক্তিবৃদ্ধি শেখার ক্ষেত্রে, এমন একটি নীতি যা হয় এপসিলন সম্ভাবনার সাথে একটি এলোমেলো নীতি অনুসরণ করে বা অন্যথায় একটি লোভী নীতি অনুসরণ করে। উদাহরণস্বরূপ, যদি এপিসিলন 0.9 হয়, তাহলে নীতিটি 90% সময় একটি এলোমেলো নীতি এবং 10% সময় একটি লোভী নীতি অনুসরণ করে।

ধারাবাহিক পর্বে, অ্যালগরিদম এপসিলনের মান হ্রাস করে যাতে একটি এলোমেলো নীতি অনুসরণ করা থেকে একটি লোভী নীতি অনুসরণ করে। নীতি পরিবর্তন করে, এজেন্ট প্রথমে এলোমেলোভাবে পরিবেশ অন্বেষণ করে এবং তারপর লোভের সাথে এলোমেলো অনুসন্ধানের ফলাফলগুলিকে কাজে লাগায়।

সুযোগের সমতা

#দায়িত্বশীল
#মেট্রিক

একটি মডেল একটি সংবেদনশীল বৈশিষ্ট্যের সমস্ত মানগুলির জন্য সমানভাবে পছন্দসই ফলাফলের পূর্বাভাস দিচ্ছে কিনা তা মূল্যায়ন করার জন্য একটি ন্যায্যতা মেট্রিক ৷ অন্য কথায়, যদি একটি মডেলের জন্য আকাঙ্খিত ফলাফল ইতিবাচক শ্রেণী হয়, তাহলে লক্ষ্য হবে প্রকৃত ইতিবাচক হার সব দলের জন্য একই।

সুযোগের সমতা সমান মতভেদের সাথে সম্পর্কিত, যার জন্য সত্য ইতিবাচক হার এবং মিথ্যা ধনাত্মক হার উভয়ই সকল দলের জন্য একই হওয়া প্রয়োজন।

ধরুন Glubbdubdrib ইউনিভার্সিটি লিলিপুটিয়ান এবং ব্রবডিংনাগিয়ান উভয়কেই একটি কঠোর গণিত প্রোগ্রামে ভর্তি করেছে। লিলিপুটিয়ানদের মাধ্যমিক বিদ্যালয়গুলি গণিত ক্লাসের একটি শক্তিশালী পাঠ্যক্রম অফার করে এবং বেশিরভাগ শিক্ষার্থীই বিশ্ববিদ্যালয়ের প্রোগ্রামের জন্য যোগ্য। ব্রবডিংনাগিয়ানদের মাধ্যমিক বিদ্যালয়গুলি মোটেও গণিতের ক্লাস অফার করে না এবং ফলস্বরূপ, তাদের অনেক কম শিক্ষার্থীই যোগ্য। সুযোগের সমতা জাতীয়তা (লিলিপুটিয়ান বা ব্রোবডিংনাগিয়ান) এর ক্ষেত্রে "ভর্তি" এর পছন্দের লেবেলের জন্য সন্তুষ্ট হয় যদি যোগ্য শিক্ষার্থীরা লিলিপুটিয়ান বা ব্রোবডিংনাগিয়ান নির্বিশেষে ভর্তি হওয়ার সমান সম্ভাবনা থাকে।

উদাহরণস্বরূপ, ধরুন 100 জন লিলিপুটিয়ান এবং 100 জন ব্রোবডিংনাগিয়ান Glubbdubdrib বিশ্ববিদ্যালয়ে আবেদন করেন এবং ভর্তির সিদ্ধান্ত নিম্নরূপ নেওয়া হয়:

সারণী 1. লিলিপুটিয়ান আবেদনকারীরা (90% যোগ্য)

যোগ্য অযোগ্য
ভর্তি হয়েছে 45 3
প্রত্যাখ্যাত 45 7
মোট 90 10
ভর্তিকৃত যোগ্য শিক্ষার্থীর শতাংশ: 45/90 = 50%
প্রত্যাখ্যাত অযোগ্য ছাত্রদের শতাংশ: 7/10 = 70%
ভর্তিকৃত লিলিপুটিয়ান ছাত্রদের মোট শতাংশ: (45+3)/100 = 48%

সারণী 2. ব্রোবডিংনাগিয়ান আবেদনকারীরা (10% যোগ্য):

যোগ্য অযোগ্য
ভর্তি হয়েছে 5 9
প্রত্যাখ্যাত 5 81
মোট 10 90
ভর্তিকৃত যোগ্য শিক্ষার্থীর শতাংশ: 5/10 = 50%
প্রত্যাখ্যাত অযোগ্য ছাত্রদের শতাংশ: 81/90 = 90%
ভর্তিকৃত ব্রোবডিংনাগিয়ান ছাত্রদের মোট শতাংশ: (5+9)/100 = 14%

পূর্বের উদাহরণগুলি যোগ্য ছাত্রদের গ্রহণের সুযোগের সমতাকে সন্তুষ্ট করে কারণ যোগ্য লিলিপুটিয়ান এবং ব্রবডিংনাগিয়ান উভয়েরই ভর্তি হওয়ার 50% সম্ভাবনা রয়েছে।

সুযোগের সমতা সন্তুষ্ট হলেও, নিম্নলিখিত দুটি ন্যায্যতা মেট্রিক সন্তুষ্ট নয়:

  • জনসংখ্যাগত সমতা : লিলিপুটিয়ান এবং ব্রবডিংনাগিয়ানরা বিভিন্ন হারে বিশ্ববিদ্যালয়ে ভর্তি হয়; 48% লিলিপুটিয়ান ছাত্র ভর্তি করা হয়, কিন্তু ব্রবডিংনাগিয়ান ছাত্রদের মাত্র 14% ভর্তি হয়।
  • সমান প্রতিক্রিয়া : যোগ্য লিলিপুটিয়ান এবং ব্রোবডিংনাগিয়ান শিক্ষার্থীরা উভয়ই ভর্তি হওয়ার একই সম্ভাবনা রয়েছে, তবে অযোগ্য লিলিপুটিয়ান এবং ব্রোবডিংনাগিয়ানদের উভয়কেই প্রত্যাখ্যান করার একই সম্ভাবনা রয়েছে তা সন্তুষ্ট নয়। অযোগ্য লিলিপুটিয়ানদের একটি 70% প্রত্যাখ্যানের হার রয়েছে, যেখানে অযোগ্য ব্রোবডিংনাগিয়ানদের 90% প্রত্যাখ্যানের হার রয়েছে।

ন্যায্যতা দেখুন: আরও তথ্যের জন্য মেশিন লার্নিং ক্র্যাশ কোর্সে সুযোগের সাম্যতা

সমান প্রতিকূলতা

#বিভাগীয়
#মেট্রিক

কোনও মডেল ইতিবাচক শ্রেণি এবং নেতিবাচক শ্রেণি উভয়ের ক্ষেত্রে সংবেদনশীল বৈশিষ্ট্যের সমস্ত মানের জন্য সমানভাবে ফলাফলের পূর্বাভাস দিচ্ছে কিনা তা নির্ধারণের জন্য একটি ন্যায্যতা মেট্রিক - কেবল একটি শ্রেণি বা অন্য একচেটিয়াভাবে নয়। অন্য কথায়, সত্যিকারের ইতিবাচক হার এবং মিথ্যা নেতিবাচক হার উভয়ই সমস্ত গ্রুপের জন্য একই হওয়া উচিত।

সমান প্রতিক্রিয়াগুলি সুযোগের সাম্যের সাথে সম্পর্কিত, যা কেবল একটি একক শ্রেণীর (ইতিবাচক বা নেতিবাচক) ত্রুটির হারের উপর দৃষ্টি নিবদ্ধ করে।

উদাহরণস্বরূপ, ধরুন গ্লুববডুবড্রিব বিশ্ববিদ্যালয় লিলিপুটিয়ান এবং ব্রবডিংনাগিয়ান উভয়কেই একটি কঠোর গণিত প্রোগ্রামে স্বীকার করেছে। লিলিপুটিয়ানদের মাধ্যমিক বিদ্যালয়গুলি গণিতের ক্লাসগুলির একটি শক্তিশালী পাঠ্যক্রম সরবরাহ করে এবং বিপুল সংখ্যক শিক্ষার্থী বিশ্ববিদ্যালয় প্রোগ্রামের জন্য যোগ্য। ব্রবডিংগানগিয়ানদের মাধ্যমিক বিদ্যালয়গুলি মোটেও গণিতের ক্লাস সরবরাহ করে না এবং ফলস্বরূপ, তাদের শিক্ষার্থীদের মধ্যে খুব কমই যোগ্য। সমতুল্য প্রতিক্রিয়াগুলি সন্তুষ্ট হয় যে কোনও আবেদনকারী লিলিপুটিয়ান বা ব্রোবডিংনাগিয়ান, যদি তারা যোগ্য হন তবে তারা প্রোগ্রামে ভর্তি হওয়ার সম্ভাবনা সমানভাবে সমানভাবেই রয়েছেন, এবং যদি তারা যোগ্য না হন তবে তারা সমানভাবে প্রত্যাখাত হওয়ার সম্ভাবনা সমান।

ধরুন, 100 লিলিপুটিয়ান এবং 100 ব্রোবডিংনাগিয়ানরা গ্লুববডুবড্রিব বিশ্ববিদ্যালয়ে প্রয়োগ করেন এবং ভর্তির সিদ্ধান্তগুলি নিম্নরূপ করা হয়:

সারণী 3। লিলিপুটিয়ান আবেদনকারীরা (90% যোগ্য)

যোগ্য অযোগ্য
ভর্তি হয়েছে 45 2
প্রত্যাখ্যাত 45 8
মোট 90 10
যোগ্য শিক্ষার্থীদের শতাংশ ভর্তি: 45/90 = 50%
অযোগ্য শিক্ষার্থীদের শতাংশ প্রত্যাখ্যান: 8/10 = 80%
লিলিপুটিয়ান শিক্ষার্থীদের মোট শতাংশ ভর্তি: (45+2)/100 = 47%

সারণী 4। ব্রোবডিংনাগিয়ান আবেদনকারীরা (10% যোগ্য):

যোগ্য অযোগ্য
ভর্তি হয়েছে 5 18
প্রত্যাখ্যাত 5 72
মোট 10 90
যোগ্য শিক্ষার্থীদের শতাংশ ভর্তি: 5/10 = 50%
অযোগ্য শিক্ষার্থীদের শতাংশ প্রত্যাখ্যান: 72/90 = 80%
ব্রোবডিংনাগিয়ান শিক্ষার্থীদের মোট শতাংশ ভর্তি: (5+18)/100 = 23%

সমান প্রতিক্রিয়াগুলি সন্তুষ্ট কারণ যোগ্য লিলিপুটিয়ান এবং ব্রবডিংনাগিয়ান শিক্ষার্থীরা উভয়েরই ভর্তির 50% সম্ভাবনা রয়েছে এবং অযোগ্য লিলিপুটিয়ান এবং ব্রোবডিংনাগিয়ানকে প্রত্যাখ্যান করার 80% সম্ভাবনা রয়েছে।

সমমানের প্রতিকূলতাকে "তত্ত্বাবধানে শিক্ষার ক্ষেত্রে সুযোগের সমতা" নিম্নরূপে সংজ্ঞায়িত করা হয়: "ভবিষ্যদ্বাণীকারী the সুরক্ষিত বৈশিষ্ট্য এ এবং ফলাফলের y এর সাথে সম্মতিযুক্ত সমতুল্য প্রতিকূলতাকে সন্তুষ্ট করে ŷ এবং এ স্বতন্ত্র, ওয়াইয়ের শর্তসাপেক্ষে,"

অনুমানকারী

#টেনসরফ্লো

একটি অবমূল্যায়িত টেনসরফ্লো এপিআই। অনুমানকারীদের পরিবর্তে tf.keras ব্যবহার করুন।

evas

#ভাষা
#generativeAI
#মেট্রিক

প্রাথমিকভাবে এলএলএম মূল্যায়নের জন্য সংক্ষিপ্তসার হিসাবে ব্যবহৃত হয়। আরও বিস্তৃতভাবে, এভালস যে কোনও ধরণের মূল্যায়নের সংক্ষিপ্তসার।

মূল্যায়ন

#ভাষা
#generativeAI
#মেট্রিক

কোনও মডেলের গুণমান পরিমাপ বা একে অপরের বিরুদ্ধে বিভিন্ন মডেল তুলনা করার প্রক্রিয়া।

তদারকি করা মেশিন লার্নিং মডেলটি মূল্যায়ন করতে, আপনি সাধারণত এটি একটি বৈধতা সেট এবং একটি পরীক্ষার সেটের বিরুদ্ধে বিচার করেন। একটি এলএলএম মূল্যায়ন সাধারণত বিস্তৃত মানের এবং সুরক্ষা মূল্যায়ন জড়িত।

উদাহরণ

#মৌলিক

বৈশিষ্ট্যগুলির এক সারির মান এবং সম্ভবত একটি লেবেলতত্ত্বাবধানে শেখার উদাহরণ দুটি সাধারণ বিভাগে পড়ে:

  • একটি লেবেলযুক্ত উদাহরণে এক বা একাধিক বৈশিষ্ট্য এবং একটি লেবেল থাকে। প্রশিক্ষণের সময় লেবেলযুক্ত উদাহরণগুলি ব্যবহৃত হয়।
  • একটি লেবেলযুক্ত উদাহরণে এক বা একাধিক বৈশিষ্ট্য রয়েছে তবে কোনও লেবেল নেই। লেবেলযুক্ত উদাহরণগুলি অনুমানের সময় ব্যবহৃত হয়।

উদাহরণস্বরূপ, ধরুন আপনি শিক্ষার্থীদের পরীক্ষার স্কোরগুলিতে আবহাওয়ার অবস্থার প্রভাব নির্ধারণের জন্য একটি মডেল প্রশিক্ষণ দিচ্ছেন। এখানে তিনটি লেবেলযুক্ত উদাহরণ রয়েছে:

বৈশিষ্ট্য লেবেল
তাপমাত্রা আর্দ্রতা চাপ টেস্ট স্কোর
15 47 998 ভাল
19 34 1020 চমৎকার
18 92 1012 দরিদ্র

এখানে তিনটি লেবেলযুক্ত উদাহরণ রয়েছে:

তাপমাত্রা আর্দ্রতা চাপ
12 62 1014
21 47 1017
19 41 1021

একটি ডেটাসেটের সারি সাধারণত উদাহরণের জন্য কাঁচা উত্স। এটি হ'ল একটি উদাহরণ সাধারণত ডেটাসেটের কলামগুলির একটি উপসেট নিয়ে গঠিত। তদ্ব্যতীত, একটি উদাহরণের বৈশিষ্ট্যগুলিতে সিন্থেটিক বৈশিষ্ট্যগুলি যেমন বৈশিষ্ট্য ক্রসগুলিও অন্তর্ভুক্ত থাকতে পারে।

আরও তথ্যের জন্য মেশিন লার্নিং কোর্সে পরিচিতিতে তদারকি করা পড়াশোনা দেখুন।

অভিজ্ঞতা রিপ্লে

#আরএল

শক্তিবৃদ্ধি শেখার ক্ষেত্রে, প্রশিক্ষণের ডেটাতে অস্থায়ী পারস্পরিক সম্পর্কগুলি হ্রাস করতে ব্যবহৃত একটি ডিকিউএন কৌশল। এজেন্ট একটি রিপ্লে বাফারে রাষ্ট্রীয় রূপান্তর সঞ্চয় করে এবং তারপরে প্রশিক্ষণ ডেটা তৈরি করতে রিপ্লে বাফার থেকে নমুনাগুলি স্থানান্তর করে।

পরীক্ষকের পক্ষপাত

#বিভাগীয়

নিশ্চিতকরণ পক্ষপাত দেখুন।

বিস্ফোরিত গ্রেডিয়েন্ট সমস্যা

#সেক

গভীর নিউরাল নেটওয়ার্কগুলিতে (বিশেষত পুনরাবৃত্ত নিউরাল নেটওয়ার্কগুলি ) গ্রেডিয়েন্টগুলির প্রবণতা আশ্চর্যজনকভাবে খাড়া (উচ্চ) হয়ে ওঠার প্রবণতা। খাড়া গ্রেডিয়েন্টগুলি প্রায়শই একটি গভীর নিউরাল নেটওয়ার্কে প্রতিটি নোডের ওজনে খুব বড় আপডেট করে।

বিস্ফোরিত গ্রেডিয়েন্ট সমস্যা থেকে ভুগছে এমন মডেলগুলি প্রশিক্ষণ দেওয়া কঠিন বা অসম্ভব হয়ে ওঠে। গ্রেডিয়েন্ট ক্লিপিং এই সমস্যাটি প্রশমিত করতে পারে।

বিলুপ্ত গ্রেডিয়েন্ট সমস্যাটির সাথে তুলনা করুন।

#মেট্রিক

একটি "রোল-আপ" বাইনারি শ্রেণিবদ্ধকরণ মেট্রিক যা যথার্থতা এবং প্রত্যাহার উভয়ের উপর নির্ভর করে। এখানে সূত্র আছে:

$$F{_1} = \frac{\text{2 * precision * recall}} {\text{precision + recall}}$$

বাস্তবতা

#generativeAI

এমএল ওয়ার্ল্ডের মধ্যে, এমন একটি সম্পত্তি যা এমন একটি মডেল বর্ণনা করে যার আউটপুট বাস্তবতার উপর ভিত্তি করে। সত্যতা একটি মেট্রিকের চেয়ে একটি ধারণা। উদাহরণস্বরূপ, ধরুন আপনি একটি বৃহত ভাষার মডেলটিতে নিম্নলিখিত প্রম্পটটি প্রেরণ করেছেন:

টেবিল লবণের রাসায়নিক সূত্র কি?

সত্যবাদীতার অনুকূলকরণের একটি মডেল প্রতিক্রিয়া জানাবে:

NaCl

এটি ধরে নেওয়া লোভনীয় যে সমস্ত মডেল সত্যতার উপর ভিত্তি করে হওয়া উচিত। যাইহোক, কিছু প্রম্পট, যেমন নিম্নলিখিতগুলি, একটি জেনারেটর এআই মডেলকে সত্যতার চেয়ে সৃজনশীলতাকে অনুকূল করতে হবে।

আমাকে একজন নভোচারী এবং একটি শুঁয়োপোকা সম্পর্কে একটি লিমেরিক বলুন।

ফলস্বরূপ লিমেরিক বাস্তবতার উপর ভিত্তি করে তৈরি হওয়ার সম্ভাবনা কম।

ভিত্তিহীনতার সাথে বৈপরীত্য।

ন্যায্যতা সীমাবদ্ধতা

#বিভাগীয়
ন্যায্যতার এক বা একাধিক সংজ্ঞা সন্তুষ্ট তা নিশ্চিত করার জন্য একটি অ্যালগরিদমে একটি বাধা প্রয়োগ করা। ন্যায্যতা সীমাবদ্ধতার উদাহরণগুলির মধ্যে রয়েছে:

ন্যায্যতা মেট্রিক

#বিভাগীয়
#মেট্রিক

"ন্যায্যতা" এর একটি গাণিতিক সংজ্ঞা যা পরিমাপযোগ্য। কিছু সাধারণত ব্যবহৃত ন্যায্যতা মেট্রিকগুলির মধ্যে রয়েছে:

অনেক ন্যায্যতা মেট্রিক পারস্পরিক একচেটিয়া; ন্যায্যতা মেট্রিকের অসঙ্গতি দেখুন।

মিথ্যা নেতিবাচক (এফএন)

#মৌলিক
#মেট্রিক

একটি উদাহরণ যেখানে মডেলটি ভুল করে নেতিবাচক শ্রেণীর পূর্বাভাস দেয়। উদাহরণস্বরূপ, মডেলটি ভবিষ্যদ্বাণী করে যে একটি নির্দিষ্ট ইমেল বার্তা স্প্যাম (নেতিবাচক শ্রেণি) নয় , তবে সেই ইমেল বার্তাটি আসলে স্প্যাম

মিথ্যা নেতিবাচক হার

#মেট্রিক

প্রকৃত ইতিবাচক উদাহরণগুলির অনুপাত যার জন্য মডেলটি ভুল করে নেতিবাচক শ্রেণীর পূর্বাভাস দিয়েছে। নিম্নলিখিত সূত্রটি মিথ্যা নেতিবাচক হার গণনা করে:

$$\text{false negative rate} = \frac{\text{false negatives}}{\text{false negatives} + \text{true positives}}$$

আরও তথ্যের জন্য মেশিন লার্নিং ক্র্যাশ কোর্সে থ্রেশহোল্ড এবং কনফিউশন ম্যাট্রিক্স দেখুন।

মিথ্যা ইতিবাচক (এফপি)

#মৌলিক
#মেট্রিক

একটি উদাহরণ যেখানে মডেলটি ভুল করে ইতিবাচক শ্রেণীর পূর্বাভাস দেয়। উদাহরণস্বরূপ, মডেলটি ভবিষ্যদ্বাণী করে যে একটি নির্দিষ্ট ইমেল বার্তা স্প্যাম (ইতিবাচক শ্রেণি), তবে সেই ইমেল বার্তাটি আসলে স্প্যাম নয়

আরও তথ্যের জন্য মেশিন লার্নিং ক্র্যাশ কোর্সে থ্রেশহোল্ড এবং কনফিউশন ম্যাট্রিক্স দেখুন।

মিথ্যা ইতিবাচক হার (এফপিআর)

#মৌলিক
#মেট্রিক

প্রকৃত নেতিবাচক উদাহরণগুলির অনুপাত যার জন্য মডেলটি ভুলভাবে ইতিবাচক শ্রেণীর পূর্বাভাস দিয়েছে। নিম্নলিখিত সূত্রটি মিথ্যা ইতিবাচক হার গণনা করে:

$$\text{false positive rate} = \frac{\text{false positives}}{\text{false positives} + \text{true negatives}}$$

মিথ্যা পজিটিভ রেট হ'ল একটি আরওসি বক্ররেখার এক্স-অক্ষ।

আরও তথ্যের জন্য শ্রেণীবিভাগ দেখুন: মেশিন লার্নিং ক্র্যাশ কোর্সে ROC এবং AUC

বৈশিষ্ট্য

#মৌলিক

একটি মেশিন লার্নিং মডেলের জন্য একটি ইনপুট পরিবর্তনশীল। একটি উদাহরণ এক বা একাধিক বৈশিষ্ট্য নিয়ে গঠিত। উদাহরণস্বরূপ, ধরুন আপনি শিক্ষার্থীদের পরীক্ষার স্কোরগুলিতে আবহাওয়ার অবস্থার প্রভাব নির্ধারণের জন্য একটি মডেল প্রশিক্ষণ দিচ্ছেন। নিম্নলিখিত টেবিলটিতে তিনটি উদাহরণ দেখায়, যার প্রতিটিতে তিনটি বৈশিষ্ট্য এবং একটি লেবেল রয়েছে:

বৈশিষ্ট্য লেবেল
তাপমাত্রা আর্দ্রতা চাপ টেস্ট স্কোর
15 47 998 92
19 34 1020 84
18 92 1012 87

লেবেলের সাথে বিপরীতে।

আরও তথ্যের জন্য মেশিন লার্নিং কোর্সে পরিচিতিতে তদারকি করা পড়াশোনা দেখুন।

বৈশিষ্ট্য ক্রস

#মৌলিক

"ক্রসিং" শ্রেণিবদ্ধ বা বালতিযুক্ত বৈশিষ্ট্যগুলি দ্বারা গঠিত একটি সিন্থেটিক বৈশিষ্ট্য

উদাহরণস্বরূপ, একটি "মেজাজ পূর্বাভাস" মডেল বিবেচনা করুন যা নিম্নলিখিত চারটি বালতিগুলির মধ্যে একটিতে তাপমাত্রা উপস্থাপন করে:

  • freezing
  • chilly
  • temperate
  • warm

এবং নিম্নলিখিত তিনটি বালতিগুলির মধ্যে একটিতে বাতাসের গতি উপস্থাপন করে:

  • still
  • light
  • windy

বৈশিষ্ট্য ক্রস ছাড়াই, লিনিয়ার মডেল পূর্ববর্তী সাতটি বিভিন্ন বালতিগুলির প্রত্যেকটিতে স্বাধীনভাবে প্রশিক্ষণ দেয়। সুতরাং, মডেলটি প্রশিক্ষণ দেয়, উদাহরণস্বরূপ, প্রশিক্ষণ থেকে স্বাধীনভাবে freezing , উদাহরণস্বরূপ, windy

বিকল্পভাবে, আপনি তাপমাত্রা এবং বাতাসের গতির একটি বৈশিষ্ট্য ক্রস তৈরি করতে পারেন। এই সিন্থেটিক বৈশিষ্ট্যটির নিম্নলিখিত 12 টি সম্ভাব্য মান থাকবে:

  • freezing-still
  • freezing-light
  • freezing-windy
  • chilly-still
  • chilly-light
  • chilly-windy
  • temperate-still
  • temperate-light
  • temperate-windy
  • warm-still
  • warm-light
  • warm-windy

ফিচার ক্রসকে ধন্যবাদ, মডেলটি freezing-windy দিন এবং একটি freezing-still দিনের মধ্যে মেজাজের পার্থক্যগুলি শিখতে পারে।

আপনি যদি দুটি বৈশিষ্ট্য থেকে একটি সিন্থেটিক বৈশিষ্ট্য তৈরি করেন যা প্রত্যেকের অনেকগুলি বিভিন্ন বালতি থাকে তবে ফলস্বরূপ বৈশিষ্ট্য ক্রসটিতে সম্ভাব্য সংমিশ্রণগুলির একটি বিশাল সংখ্যক সংমিশ্রণ থাকবে। উদাহরণস্বরূপ, যদি একটি বৈশিষ্ট্যের 1000 টি বালতি থাকে এবং অন্য বৈশিষ্ট্যটিতে 2,000 বালতি থাকে তবে ফলস্বরূপ বৈশিষ্ট্য ক্রসটিতে 2,000,000 বালতি রয়েছে।

আনুষ্ঠানিকভাবে, একটি ক্রস একটি কার্টেসিয়ান পণ্য

বৈশিষ্ট্য ক্রসগুলি বেশিরভাগ লিনিয়ার মডেলগুলির সাথে ব্যবহৃত হয় এবং খুব কমই নিউরাল নেটওয়ার্কগুলির সাথে ব্যবহৃত হয়।

শ্রেণীবদ্ধ ডেটা দেখুন: আরও তথ্যের জন্য মেশিন লার্নিং ক্র্যাশ কোর্সে বৈশিষ্ট্য ক্রস

বৈশিষ্ট্য প্রকৌশল

#মৌলিক
#টেনসরফ্লো

একটি প্রক্রিয়া যা নিম্নলিখিত পদক্ষেপগুলি জড়িত:

  1. কোন বৈশিষ্ট্যগুলি কোনও মডেল প্রশিক্ষণে কার্যকর হতে পারে তা নির্ধারণ করা।
  2. ডেটাসেট থেকে কাঁচা ডেটাগুলিকে সেই বৈশিষ্ট্যগুলির দক্ষ সংস্করণগুলিতে রূপান্তর করা।

উদাহরণস্বরূপ, আপনি নির্ধারণ করতে পারেন যে temperature একটি দরকারী বৈশিষ্ট্য হতে পারে। তারপরে, আপনি বিভিন্ন temperature ব্যাপ্তি থেকে মডেলটি কী শিখতে পারে তা অনুকূল করতে আপনি বালতি নিয়ে পরীক্ষা করতে পারেন।

বৈশিষ্ট্য ইঞ্জিনিয়ারিং কখনও কখনও বৈশিষ্ট্য নিষ্কাশন বা বৈশিষ্ট্য বলা হয়।

সংখ্যার ডেটা দেখুন: আরও তথ্যের জন্য মেশিন লার্নিং ক্র্যাশ কোর্সে বৈশিষ্ট্য ভেক্টর ব্যবহার করে কোনও মডেল কীভাবে ডেটা ইনজেস্ট করে

বৈশিষ্ট্য নিষ্কাশন

নিম্নলিখিত সংজ্ঞাগুলির মধ্যে যে কোনও একটি অতিরিক্ত বোঝা শব্দ:

বৈশিষ্ট্যের গুরুত্ব

#df
#মেট্রিক

পরিবর্তনশীল আমদানির জন্য প্রতিশব্দ।

বৈশিষ্ট্য সেট

#মৌলিক

আপনার মেশিন লার্নিং মডেল ট্রেনগুলি বৈশিষ্ট্যযুক্ত বৈশিষ্ট্যগুলির গ্রুপ। উদাহরণস্বরূপ, এমন একটি মডেলের জন্য একটি সাধারণ বৈশিষ্ট্য সেট যা আবাসন দামের পূর্বাভাস দেয় ডাক কোড, সম্পত্তির আকার এবং সম্পত্তি শর্ত থাকতে পারে।

বৈশিষ্ট্য অনুমান

#টেনসরফ্লো

TF.EXAME প্রোটোকল বাফার থেকে ডেটা বৈশিষ্ট্যগুলি আহরণের জন্য প্রয়োজনীয় তথ্যগুলি বর্ণনা করে। যেহেতু tf.example প্রোটোকল বাফার ডেটার জন্য কেবল একটি ধারক, আপনাকে অবশ্যই নিম্নলিখিতগুলি নির্দিষ্ট করতে হবে:

  • নিষ্কাশনের ডেটা (এটি বৈশিষ্ট্যগুলির কীগুলি)
  • ডেটা টাইপ (উদাহরণস্বরূপ, ভাসমান বা ইনট)
  • দৈর্ঘ্য (স্থির বা পরিবর্তনশীল)

বৈশিষ্ট্য ভেক্টর

#মৌলিক

একটি উদাহরণ সমন্বিত বৈশিষ্ট্য মানগুলির অ্যারে। বৈশিষ্ট্য ভেক্টর প্রশিক্ষণের সময় এবং অনুমানের সময় ইনপুট হয়। উদাহরণস্বরূপ, দুটি পৃথক বৈশিষ্ট্যযুক্ত একটি মডেলের জন্য বৈশিষ্ট্য ভেক্টর হতে পারে:

[0.92, 0.56]

চারটি স্তর: একটি ইনপুট স্তর, দুটি লুকানো স্তর এবং একটি আউটপুট স্তর।           ইনপুট স্তরটিতে দুটি নোড রয়েছে, একটিতে মান রয়েছে           0.92 এবং অন্যটিতে মান 0.56 রয়েছে।

প্রতিটি উদাহরণ বৈশিষ্ট্য ভেক্টরের জন্য বিভিন্ন মান সরবরাহ করে, তাই পরবর্তী উদাহরণের জন্য বৈশিষ্ট্য ভেক্টরটি এমন কিছু হতে পারে:

[0.73, 0.49]

বৈশিষ্ট্য ইঞ্জিনিয়ারিং বৈশিষ্ট্য ভেক্টরে বৈশিষ্ট্যগুলি কীভাবে উপস্থাপন করবেন তা নির্ধারণ করে। উদাহরণস্বরূপ, পাঁচটি সম্ভাব্য মান সহ একটি বাইনারি শ্রেণিবদ্ধ বৈশিষ্ট্যটি এক-হট এনকোডিংয়ের সাথে প্রতিনিধিত্ব করা যেতে পারে। এই ক্ষেত্রে, একটি নির্দিষ্ট উদাহরণের জন্য বৈশিষ্ট্য ভেক্টরের অংশটি চারটি শূন্য এবং তৃতীয় অবস্থানে একটি একক 1.0 সমন্বয়ে গঠিত, নিম্নরূপ:

[0.0, 0.0, 1.0, 0.0, 0.0]

অন্য উদাহরণ হিসাবে, ধরুন আপনার মডেলটিতে তিনটি বৈশিষ্ট্য রয়েছে:

  • এক-হট এনকোডিংয়ের সাথে প্রতিনিধিত্ব করা পাঁচটি সম্ভাব্য মান সহ একটি বাইনারি শ্রেণিবদ্ধ বৈশিষ্ট্য; উদাহরণস্বরূপ: [0.0, 1.0, 0.0, 0.0, 0.0]
  • এক-হট এনকোডিংয়ের সাথে প্রতিনিধিত্ব করা তিনটি সম্ভাব্য মান সহ আরও একটি বাইনারি শ্রেণিবদ্ধ বৈশিষ্ট্য; উদাহরণস্বরূপ: [0.0, 0.0, 1.0]
  • একটি ভাসমান-পয়েন্ট বৈশিষ্ট্য; উদাহরণস্বরূপ: 8.3

এই ক্ষেত্রে, প্রতিটি উদাহরণের জন্য বৈশিষ্ট্য ভেক্টরটি নয়টি মান দ্বারা প্রতিনিধিত্ব করা হবে। পূর্ববর্তী তালিকায় উদাহরণ মানগুলি দেওয়া, বৈশিষ্ট্য ভেক্টরটি হবে:

0.0
1.0
0.0
0.0
0.0
0.0
0.0
1.0
8.3

সংখ্যার ডেটা দেখুন: আরও তথ্যের জন্য মেশিন লার্নিং ক্র্যাশ কোর্সে বৈশিষ্ট্য ভেক্টর ব্যবহার করে কোনও মডেল কীভাবে ডেটা ইনজেস্ট করে

বৈশিষ্ট্য

কোনও ডকুমেন্ট বা ভিডিওর মতো ইনপুট উত্স থেকে বৈশিষ্ট্যগুলি আহরণের প্রক্রিয়া এবং সেই বৈশিষ্ট্যগুলি কোনও বৈশিষ্ট্য ভেক্টরে ম্যাপিং করে।

কিছু এমএল বিশেষজ্ঞ বৈশিষ্ট্য ইঞ্জিনিয়ারিং বা বৈশিষ্ট্য নিষ্কাশনের প্রতিশব্দ হিসাবে বৈশিষ্ট্যগুলি ব্যবহার করেন।

ফেডারেটেড লার্নিং

একটি বিতরণ করা মেশিন লার্নিং পদ্ধতির যা স্মার্টফোনের মতো ডিভাইসে বসবাসকারী বিকেন্দ্রীভূত উদাহরণগুলি ব্যবহার করে মেশিন লার্নিং মডেলগুলিকে প্রশিক্ষণ দেয় । ফেডারেটেড লার্নিংয়ে, ডিভাইসের একটি উপসেট একটি কেন্দ্রীয় সমন্বয়কারী সার্ভার থেকে বর্তমান মডেলটি ডাউনলোড করে। ডিভাইসগুলি মডেলটিতে উন্নতি করতে ডিভাইসগুলিতে সঞ্চিত উদাহরণগুলি ব্যবহার করে। ডিভাইসগুলি তখন সমন্বয় সার্ভারে মডেল উন্নতিগুলি (তবে প্রশিক্ষণের উদাহরণ নয়) আপলোড করে, যেখানে তারা উন্নত গ্লোবাল মডেল উত্পাদন করতে অন্যান্য আপডেটের সাথে একত্রিত হয়। সংহতকরণের পরে, ডিভাইসগুলির দ্বারা গণনা করা মডেল আপডেটগুলি আর প্রয়োজন হয় না এবং এটি বাতিল করা যেতে পারে।

যেহেতু প্রশিক্ষণের উদাহরণগুলি কখনই আপলোড করা হয় না, ফেডারেটেড লার্নিং ফোকাসযুক্ত ডেটা সংগ্রহ এবং ডেটা মিনিমাইজেশনের গোপনীয়তা নীতিগুলি অনুসরণ করে।

আরও তথ্যের জন্য ফেডারেটেড লার্নিং কমিক (হ্যাঁ, একটি কমিক) দেখুন।

প্রতিক্রিয়া লুপ

#মৌলিক

মেশিন লার্নিংয়ে, এমন একটি পরিস্থিতিতে যেখানে কোনও মডেলের ভবিষ্যদ্বাণী একই মডেল বা অন্য কোনও মডেলের প্রশিক্ষণের ডেটা প্রভাবিত করে। উদাহরণস্বরূপ, এমন একটি মডেল যা চলচ্চিত্রের প্রস্তাব দেয় তারা সিনেমাগুলিকে প্রভাবিত করবে যা লোকেরা দেখবে, যা পরবর্তীকালে চলচ্চিত্রের সুপারিশ মডেলগুলিকে প্রভাবিত করবে।

প্রোডাকশন এমএল সিস্টেমগুলি দেখুন: আরও তথ্যের জন্য মেশিন লার্নিং ক্র্যাশ কোর্সে জিজ্ঞাসা করার প্রশ্নগুলি

ফিডফোরওয়ার্ড নিউরাল নেটওয়ার্ক (এফএফএন)

চক্রীয় বা পুনরাবৃত্ত সংযোগ ছাড়াই একটি নিউরাল নেটওয়ার্ক। উদাহরণস্বরূপ, traditional তিহ্যবাহী গভীর নিউরাল নেটওয়ার্কগুলি হ'ল ফিডফোরওয়ার্ড নিউরাল নেটওয়ার্ক। পুনরাবৃত্ত নিউরাল নেটওয়ার্কগুলির সাথে বৈপরীত্য, যা চক্রীয়।

কয়েক শট শেখার

একটি মেশিন লার্নিং পদ্ধতির প্রায়শই অবজেক্ট শ্রেণিবিন্যাসের জন্য ব্যবহৃত হয়, কেবলমাত্র অল্প সংখ্যক প্রশিক্ষণের উদাহরণ থেকে কার্যকর শ্রেণিবদ্ধকরণ মডেলগুলি প্রশিক্ষণের জন্য ডিজাইন করা।

ওয়ান-শট লার্নিং এবং জিরো-শট লার্নিংও দেখুন।

কয়েকটি শট অনুরোধ

#ভাষা
#generativeAI

একটি প্রম্পট যাতে একাধিক (একটি "কয়েকটি") উদাহরণ রয়েছে যা বৃহত্তর ভাষার মডেলটির প্রতিক্রিয়া জানানো উচিত তা প্রদর্শন করে। উদাহরণস্বরূপ, নিম্নলিখিত দীর্ঘ প্রম্পটে দুটি উদাহরণ রয়েছে যা একটি বৃহত ভাষার মডেল দেখায় কীভাবে একটি প্রশ্নের উত্তর দিতে হয়।

একটি প্রম্পটের অংশ নোট
নির্দিষ্ট দেশের সরকারী মুদ্রা কী? আপনি যে প্রশ্নের উত্তর চান তা প্রশ্নের উত্তর দিন।
ফ্রান্স: ইউরো একটি উদাহরণ.
যুক্তরাজ্য: জিবিপি আরেকটি উদাহরণ।
ভারত: আসল ক্যোয়ারী।

কয়েকটি শট প্রম্পটিং সাধারণত শূন্য-শট প্রম্পটিং এবং এক-শট প্রম্পটিংয়ের চেয়ে বেশি পছন্দসই ফলাফল তৈরি করে। তবে কয়েকটি শট প্রম্পটিংয়ের জন্য আরও দীর্ঘতর প্রম্পট প্রয়োজন।

কয়েকটি শট প্রম্পটিং হ'ল প্রম্পট-ভিত্তিক শিক্ষার জন্য প্রয়োগ করা কয়েকটি শট শেখার একটি ফর্ম।

আরও তথ্যের জন্য মেশিন লার্নিং ক্র্যাশ কোর্সে প্রম্পট ইঞ্জিনিয়ারিং দেখুন।

বেহালা

#ভাষা

একটি পাইথন-প্রথম কনফিগারেশন লাইব্রেরি যা আক্রমণাত্মক কোড বা অবকাঠামো ছাড়াই ফাংশন এবং শ্রেণীর মান নির্ধারণ করে। প্যাক্স -এবং অন্যান্য এমএল কোডবেসগুলির ক্ষেত্রে - এই ফাংশন এবং ক্লাসগুলি মডেল এবং প্রশিক্ষণ হাইপারপ্যারামিটারগুলি উপস্থাপন করে।

ফিডল ধরে নেয় যে মেশিন লার্নিং কোডব্যাসগুলি সাধারণত বিভক্ত হয়:

  • গ্রন্থাগার কোড, যা স্তর এবং অপ্টিমাইজারগুলি সংজ্ঞায়িত করে।
  • ডেটাসেট "আঠালো" কোড, যা লাইব্রেরিগুলিকে কল করে এবং সমস্ত কিছু একসাথে কল করে।

ফিডল একটি অযোগ্য এবং পরিবর্তনীয় আকারে আঠালো কোডের কল কাঠামো ক্যাপচার করে।

ফাইন-টিউনিং

#ভাষা
#ছবি
#generativeAI

একটি দ্বিতীয়, টাস্ক-নির্দিষ্ট প্রশিক্ষণ পাস একটি নির্দিষ্ট ব্যবহারের ক্ষেত্রে এর পরামিতিগুলি পরিমার্জন করতে প্রাক-প্রশিক্ষিত মডেলটিতে সম্পাদিত। উদাহরণস্বরূপ, কিছু বড় ভাষার মডেলগুলির জন্য সম্পূর্ণ প্রশিক্ষণের ক্রমটি নিম্নরূপ:

  1. প্রাক-প্রশিক্ষণ: একটি বিশাল সাধারণ ডেটাসেটে একটি বৃহত ভাষার মডেল প্রশিক্ষণ দিন, যেমন সমস্ত ইংরেজি ভাষার উইকিপিডিয়া পৃষ্ঠাগুলি।
  2. সূক্ষ্ম-টিউনিং: প্রাক-প্রশিক্ষিত মডেলটিকে একটি নির্দিষ্ট কাজ সম্পাদনের জন্য প্রশিক্ষণ দিন, যেমন মেডিকেল প্রশ্নের প্রতিক্রিয়া জানানো। ফাইন-টিউনিংয়ে সাধারণত নির্দিষ্ট কার্যের উপর দৃষ্টি নিবদ্ধ করে কয়েকশো বা হাজার হাজার উদাহরণ জড়িত।

অন্য উদাহরণ হিসাবে, একটি বৃহত চিত্র মডেলের সম্পূর্ণ প্রশিক্ষণ ক্রমটি নিম্নরূপ:

  1. প্রাক-প্রশিক্ষণ: উইকিমিডিয়া কমন্সের সমস্ত চিত্রের মতো একটি বিশাল সাধারণ চিত্র ডেটাসেটে একটি বৃহত চিত্রের মডেল প্রশিক্ষণ দিন।
  2. সূক্ষ্ম-টিউনিং: অর্কাসের চিত্র তৈরি করার মতো একটি নির্দিষ্ট কাজ সম্পাদনের জন্য প্রাক-প্রশিক্ষিত মডেলটিকে প্রশিক্ষণ দিন।

সূক্ষ্ম-টিউনিং নিম্নলিখিত কৌশলগুলির যে কোনও সংমিশ্রণকে জড়িত করতে পারে:

  • প্রাক-প্রশিক্ষিত মডেলের বিদ্যমান সমস্ত পরামিতিগুলি সংশোধন করা। এটিকে কখনও কখনও পুরো সূক্ষ্ম-টিউনিং বলা হয়।
  • অন্যান্য বিদ্যমান প্যারামিটারগুলি অপরিবর্তিত রাখার সময় (সাধারণত, আউটপুট স্তরটির নিকটতম স্তরগুলি) প্রাক-প্রশিক্ষিত মডেলের বিদ্যমান কিছু পরামিতিগুলি সংশোধন করা হয় (সাধারণত, ইনপুট স্তরের নিকটতম স্তরগুলি)। প্যারামিটার-দক্ষ টিউনিং দেখুন।
  • আরও স্তর যুক্ত করা, সাধারণত আউটপুট স্তরটির নিকটতম বিদ্যমান স্তরগুলির শীর্ষে।

ফাইন-টিউনিং হ'ল ট্রান্সফার লার্নিংয়ের একটি ফর্ম। যেমন, সূক্ষ্ম-টিউনিং প্রাক-প্রশিক্ষিত মডেলটিকে প্রশিক্ষণের জন্য ব্যবহৃত তুলনায় আলাদা লোকসান ফাংশন বা আলাদা মডেল টাইপ ব্যবহার করতে পারে। উদাহরণস্বরূপ, আপনি একটি রিগ্রেশন মডেল তৈরি করতে একটি প্রাক-প্রশিক্ষিত বৃহত চিত্রের মডেলটি সূক্ষ্ম-সুর করতে পারেন যা একটি ইনপুট চিত্রটিতে পাখির সংখ্যা প্রদান করে।

নিম্নলিখিত শর্তগুলির সাথে তুলনা করুন এবং তুলনা করুন:

আরও তথ্যের জন্য মেশিন লার্নিং ক্র্যাশ কোর্সে ফাইন-টিউনিং দেখুন।

শণ

#ভাষা

জ্যাক্সের শীর্ষে নির্মিত গভীর শিক্ষার জন্য একটি উচ্চ-পারফরম্যান্স ওপেন-সোর্স লাইব্রেরি । ফ্ল্যাক্স নিউরাল নেটওয়ার্কগুলির প্রশিক্ষণের জন্য ফাংশন সরবরাহ করে, পাশাপাশি তাদের কার্যকারিতা মূল্যায়নের পদ্ধতিগুলিও সরবরাহ করে।

ফ্ল্যাক্সফর্মার

#ভাষা

একটি ওপেন-সোর্স ট্রান্সফর্মার লাইব্রেরি , যা শ্ল্যাক্সের উপর নির্মিত, মূলত প্রাকৃতিক ভাষা প্রক্রিয়াকরণ এবং মাল্টিমোডাল গবেষণার জন্য ডিজাইন করা।

গেট ভুলে যান

#সেক

একটি দীর্ঘ স্বল্প-মেয়াদী মেমরি কোষের অংশ যা ঘরের মাধ্যমে তথ্যের প্রবাহকে নিয়ন্ত্রণ করে। সেল রাজ্য থেকে কোন তথ্য বাতিল করতে হবে তা সিদ্ধান্ত নিয়ে গেটগুলি ভুলে যান।

সাফল্যের ভগ্নাংশ

#generativeAI
#মেট্রিক

এমএল মডেলের উত্পন্ন পাঠ্য মূল্যায়নের জন্য একটি মেট্রিক। সাফল্যের ভগ্নাংশ হ'ল উত্পন্ন পাঠ্য আউটপুটগুলির মোট সংখ্যা দ্বারা বিভক্ত "সফল" উত্পন্ন পাঠ্য আউটপুটগুলির সংখ্যা। উদাহরণস্বরূপ, যদি একটি বৃহত ভাষার মডেল 10 টি ব্লক কোড তৈরি করে, যার মধ্যে পাঁচটি সফল হয়েছিল, তবে সাফল্যের ভগ্নাংশটি 50%হবে।

যদিও সাফল্যের ভগ্নাংশটি পরিসংখ্যান জুড়ে ব্যাপকভাবে কার্যকর, এমএল এর মধ্যে, এই মেট্রিকটি মূলত কোড জেনারেশন বা গণিত সমস্যার মতো যাচাইযোগ্য কাজগুলি পরিমাপ করার জন্য কার্যকর।

সম্পূর্ণ সফটম্যাক্স

সফটম্যাক্সের প্রতিশব্দ।

প্রার্থী নমুনা সঙ্গে বৈপরীত্য।

নিউরাল নেটওয়ার্কগুলি দেখুন: আরও তথ্যের জন্য মেশিন লার্নিং ক্র্যাশ কোর্সে মাল্টি-ক্লাসের শ্রেণিবিন্যাস

সম্পূর্ণ সংযুক্ত স্তর

একটি লুকানো স্তর যাতে প্রতিটি নোড পরবর্তী লুকানো স্তরটির প্রতিটি নোডের সাথে সংযুক্ত থাকে।

একটি সম্পূর্ণ সংযুক্ত স্তর একটি ঘন স্তর হিসাবেও পরিচিত।

ফাংশন রূপান্তর

একটি ফাংশন যা ইনপুট হিসাবে একটি ফাংশন নেয় এবং আউটপুট হিসাবে একটি রূপান্তরিত ফাংশন প্রদান করে। জ্যাক্স ফাংশন রূপান্তর ব্যবহার করে।

জি

GAN

জেনারেটর অ্যাডভারসিয়াল নেটওয়ার্কের জন্য সংক্ষেপণ।

মিথুন

#ভাষা
#ছবি
#generativeAI

গুগলের সর্বাধিক উন্নত এআই সমন্বিত বাস্তুতন্ত্র। এই বাস্তুতন্ত্রের উপাদানগুলির মধ্যে রয়েছে:

  • বিভিন্ন মিথুন মডেল
  • মিথুনের মডেলটিতে ইন্টারেক্টিভ কথোপকথন ইন্টারফেস। ব্যবহারকারীদের টাইপ প্রম্পটগুলি এবং মিথুনগুলি সেই অনুরোধগুলিতে সাড়া দেয়।
  • বিভিন্ন জেমিনি এপিআই।
  • মিথুন মডেলগুলির উপর ভিত্তি করে বিভিন্ন ব্যবসায়িক পণ্য; উদাহরণস্বরূপ, গুগল ক্লাউডের জন্য মিথুন

মিথুন মডেল

#ভাষা
#ছবি
#generativeAI

গুগলের অত্যাধুনিক ট্রান্সফর্মার ভিত্তিক মাল্টিমোডাল মডেল । মিথুন মডেলগুলি বিশেষত এজেন্টদের সাথে সংহত করার জন্য ডিজাইন করা হয়েছে।

ব্যবহারকারীরা ইন্টারেক্টিভ ডায়ালগ ইন্টারফেসের মাধ্যমে এবং এসডিকেগুলির মাধ্যমে বিভিন্ন উপায়ে মিথুনের মডেলগুলির সাথে ইন্টারঅ্যাক্ট করতে পারেন।

সাধারণীকরণ

#মৌলিক

নতুন, পূর্বে অদেখা ডেটা সম্পর্কে সঠিক ভবিষ্যদ্বাণী করার জন্য একটি মডেলের ক্ষমতা। এমন একটি মডেল যা সাধারণীকরণ করতে পারে তা হ'ল এমন একটি মডেলের বিপরীত যা অত্যধিক ফিটিং হয়।

আরও তথ্যের জন্য মেশিন লার্নিং ক্র্যাশ কোর্সে জেনারালাইজেশন দেখুন।

সাধারণীকরণ বক্ররেখা

#মৌলিক

পুনরাবৃত্তির সংখ্যার ফাংশন হিসাবে প্রশিক্ষণ ক্ষতি এবং বৈধতা ক্ষতির উভয়ের একটি প্লট।

একটি সাধারণীকরণ বক্ররেখা আপনাকে সম্ভাব্য ওভারফিটিং সনাক্ত করতে সহায়তা করতে পারে। উদাহরণস্বরূপ, নিম্নলিখিত সাধারণীকরণের বক্ররেখা ওভারফিটিংয়ের পরামর্শ দেয় কারণ বৈধতা হ্রাস শেষ পর্যন্ত প্রশিক্ষণ ক্ষতির চেয়ে উল্লেখযোগ্যভাবে বেশি হয়ে যায়।

একটি কার্টেসিয়ান গ্রাফ যাতে ওয়াই-অক্ষকে ক্ষতি এবং এক্স-অক্ষ হিসাবে চিহ্নিত করা হয়           পুনরাবৃত্তি লেবেল করা হয়। দুটি প্লট উপস্থিত। একটি প্লট দেখায়           প্রশিক্ষণ ক্ষতি এবং অন্যান্য বৈধতা ক্ষতি দেখায়।           দুটি প্লট একইভাবে শুরু হয়, তবে শেষ পর্যন্ত প্রশিক্ষণের ক্ষতি           বৈধতা ক্ষতির চেয়ে অনেক কম ডিপস।

আরও তথ্যের জন্য মেশিন লার্নিং ক্র্যাশ কোর্সে জেনারালাইজেশন দেখুন।

সাধারণ রৈখিক মডেল

অন্তত স্কোয়ার রিগ্রেশন মডেলগুলির একটি সাধারণীকরণ, যা গাউসিয়ান শব্দের উপর ভিত্তি করে, অন্যান্য ধরণের শব্দের উপর ভিত্তি করে অন্যান্য ধরণের মডেলগুলিতে যেমন পোইসন শব্দ বা শ্রেণিবদ্ধ শব্দের উপর ভিত্তি করে। জেনারালাইজড লিনিয়ার মডেলের উদাহরণগুলির মধ্যে রয়েছে:

একটি জেনারেলাইজড লিনিয়ার মডেলের পরামিতিগুলি উত্তল অপ্টিমাইজেশনের মাধ্যমে পাওয়া যাবে।

জেনারালাইজড লিনিয়ার মডেলগুলি নিম্নলিখিত বৈশিষ্ট্যগুলি প্রদর্শন করে:

  • অনুকূল সর্বনিম্ন স্কোয়ার রিগ্রেশন মডেলের গড় ভবিষ্যদ্বাণী প্রশিক্ষণের ডেটার গড় লেবেলের সমান।
  • অনুকূল লজিস্টিক রিগ্রেশন মডেল দ্বারা পূর্বাভাসিত গড় সম্ভাব্যতা প্রশিক্ষণের ডেটার গড় লেবেলের সমান।

একটি জেনারেলাইজড লিনিয়ার মডেলের শক্তি এর বৈশিষ্ট্যগুলি দ্বারা সীমাবদ্ধ। একটি গভীর মডেলের বিপরীতে, একটি সাধারণীকরণযুক্ত লিনিয়ার মডেল "নতুন বৈশিষ্ট্যগুলি শিখতে পারে না"।

তৈরি করা পাঠ্য

#ভাষা
#generativeAI

সাধারণভাবে, একটি এমএল মডেল আউটপুট দেয় এমন পাঠ্য। বড় ভাষার মডেলগুলি মূল্যায়ন করার সময়, কিছু মেট্রিকগুলি রেফারেন্স পাঠ্যের সাথে উত্পন্ন পাঠ্যের তুলনা করে। উদাহরণস্বরূপ, ধরুন আপনি কোনও এমএল মডেল ফরাসি থেকে ডাচগুলিতে কীভাবে কার্যকরভাবে অনুবাদ করে তা নির্ধারণ করার চেষ্টা করছেন। এই ক্ষেত্রে:

  • উত্পন্ন পাঠ্যটি হ'ল ডাচ অনুবাদ যা এমএল মডেল আউটপুট দেয়।
  • রেফারেন্স পাঠ্যটি হ'ল ডাচ অনুবাদ যা কোনও মানব অনুবাদক (বা সফ্টওয়্যার) তৈরি করে।

নোট করুন যে কিছু মূল্যায়ন কৌশলগুলি রেফারেন্স পাঠ্য জড়িত না।

জেনারেটিভ অ্যাডভারসারিয়াল নেটওয়ার্ক (GAN)

নতুন ডেটা তৈরি করার জন্য একটি সিস্টেম যাতে কোনও জেনারেটর ডেটা তৈরি করে এবং একটি বৈষম্যমূলক নির্ধারণ করে যে তৈরি করা ডেটা বৈধ বা অবৈধ কিনা।

আরও তথ্যের জন্য জেনারেটরি অ্যাডভারসিয়াল নেটওয়ার্ক কোর্স দেখুন।

জেনারেটিভ এআই

#ভাষা
#ছবি
#generativeAI

কোনও আনুষ্ঠানিক সংজ্ঞা ছাড়াই একটি উদীয়মান রূপান্তরকারী ক্ষেত্র। এটি বলেছিল, বেশিরভাগ বিশেষজ্ঞরা সম্মত হন যে জেনারেটর এআই মডেলগুলি নিম্নলিখিতগুলির মধ্যে থাকা সমস্ত সামগ্রী তৈরি করতে পারে ("উত্পন্ন"):

  • জটিল
  • সুসঙ্গত
  • মূল

উদাহরণস্বরূপ, একটি জেনারেটর এআই মডেল পরিশীলিত প্রবন্ধ বা চিত্র তৈরি করতে পারে।

এলএসটিএমএস এবং আরএনএন সহ কিছু পূর্ববর্তী প্রযুক্তিগুলি মূল এবং সুসংগত সামগ্রীও তৈরি করতে পারে। কিছু বিশেষজ্ঞরা এই পূর্ববর্তী প্রযুক্তিগুলিকে জেনারেটর এআই হিসাবে দেখেন, আবার অন্যরা মনে করেন যে সত্যিকারের জেনারেটরি এআইয়ের আগের প্রযুক্তিগুলি উত্পাদন করতে পারে তার চেয়ে আরও জটিল আউটপুট প্রয়োজন।

ভবিষ্যদ্বাণীমূলক এমএল এর সাথে বিপরীতে।

জেনারেটর মডেল

ব্যবহারিকভাবে বলতে গেলে, এমন একটি মডেল যা নিম্নলিখিতগুলির মধ্যে একটি করে:

  • প্রশিক্ষণ ডেটাসেট থেকে নতুন উদাহরণ তৈরি করে (উত্পন্ন)। উদাহরণস্বরূপ, একটি জেনারেটিভ মডেল কবিতার ডেটাসেটের প্রশিক্ষণের পরে কবিতা তৈরি করতে পারে। একটি জেনারেটিভ অ্যাডভারসারিয়াল নেটওয়ার্কের জেনারেটর অংশ এই বিভাগে পড়ে।
  • প্রশিক্ষণ সেট থেকে একটি নতুন উদাহরণ এসেছে, বা প্রশিক্ষণ সেট তৈরি করা একই প্রক্রিয়া থেকে তৈরি হয়েছিল এমন সম্ভাবনা নির্ধারণ করে। উদাহরণস্বরূপ, ইংরেজি বাক্য সমন্বিত একটি ডেটাসেটে প্রশিক্ষণের পর, একটি উৎপাদক মডেল সম্ভাব্যতা নির্ধারণ করতে পারে যে নতুন ইনপুট একটি বৈধ ইংরেজি বাক্য।

একটি জেনারেটর মডেল তাত্ত্বিকভাবে কোনও ডেটাসেটে উদাহরণ বা নির্দিষ্ট বৈশিষ্ট্যগুলির বিতরণকে সনাক্ত করতে পারে। অর্থাৎ:

p(examples)

অপ্রচলিত শেখার মডেলগুলি জেনারেটর।

বৈষম্যমূলক মডেলগুলির সাথে বৈপরীত্য।

জেনারেটর

একটি জেনারেটর অ্যাডভারসিয়াল নেটওয়ার্কের মধ্যে সাবসিস্টেমটি যা নতুন উদাহরণ তৈরি করে।

বৈষম্যমূলক মডেলের সাথে বৈপরীত্য।

জিনি অপবিত্রতা

#df
#মেট্রিক

এনট্রপির অনুরূপ একটি মেট্রিক। স্প্লিটটারগুলি শ্রেণিবিন্যাসের সিদ্ধান্ত গাছগুলির জন্য শর্ত রচনা করতে গিনি অপরিষ্কার বা এনট্রপি থেকে প্রাপ্ত মানগুলি ব্যবহার করে। তথ্য লাভ এনট্রপি থেকে নেওয়া হয়। গিনি অপরিষ্কার থেকে প্রাপ্ত মেট্রিকের জন্য সর্বজনীনভাবে গৃহীত সমতুল্য শব্দ নেই; তবে এই নামবিহীন মেট্রিক তথ্য লাভের মতোই গুরুত্বপূর্ণ।

গিনি অপরিষ্কারকে গিনি সূচক বা কেবল গিনিও বলা হয়।

গোল্ডেন ডেটাসেট

ম্যানুয়ালি কিউরেটেড ডেটার একটি সেট যা স্থল সত্যকে ক্যাপচার করে। দলগুলি কোনও মডেলের মানের মূল্যায়ন করতে এক বা একাধিক সোনার ডেটাসেট ব্যবহার করতে পারে।

কিছু সোনার ডেটাসেটগুলি গ্রাউন্ড ট্রুথের বিভিন্ন সাবডোমেনগুলি ক্যাপচার করে। উদাহরণস্বরূপ, চিত্রের শ্রেণিবিন্যাসের জন্য একটি সোনার ডেটাসেট আলোক শর্ত এবং চিত্র রেজোলিউশন ক্যাপচার করতে পারে।

সোনার প্রতিক্রিয়া

#ভাষা
#generativeAI

একটি উত্তর ভাল হিসাবে পরিচিত। উদাহরণস্বরূপ, নিম্নলিখিত প্রম্পট দেওয়া:

2 + 2

সোনার প্রতিক্রিয়া আশা করি:

4

জিপিটি (জেনারেটিভ প্রাক-প্রশিক্ষিত ট্রান্সফরমার)

#ভাষা

ট্রান্সফর্মার -ভিত্তিক বড় ভাষার মডেলগুলির একটি পরিবার ওপেনএআই দ্বারা বিকাশিত।

জিপিটি বৈকল্পিকগুলি একাধিক পদ্ধতিতে প্রয়োগ করতে পারে, সহ:

  • চিত্র জেনারেশন (উদাহরণস্বরূপ, ইমেজজিপিটি)
  • পাঠ্য-থেকে-ইমেজ জেনারেশন (উদাহরণস্বরূপ, ডাল-ই )।

গ্রেডিয়েন্ট

সমস্ত স্বাধীন ভেরিয়েবলের সাথে সম্পর্কিত আংশিক ডেরাইভেটিভসের ভেক্টর। মেশিন লার্নিংয়ে, গ্রেডিয়েন্ট হ'ল মডেল ফাংশনের আংশিক ডেরাইভেটিভগুলির ভেক্টর। খাড়া আরোহণের দিকের গ্রেডিয়েন্ট পয়েন্টগুলি।

গ্রেডিয়েন্ট জমে

একটি ব্যাকপ্রপ্যাগেশন কৌশল যা পুনরাবৃত্তির প্রতি একবারের পরিবর্তে প্যারোক প্রতি একবারে প্যারামিটারগুলি আপডেট করে। প্রতিটি মিনি-ব্যাচ প্রক্রিয়াজাতকরণের পরে, গ্রেডিয়েন্ট জমে থাকা কেবলমাত্র চলমান মোট গ্রেডিয়েন্টগুলি আপডেট করে। তারপরে, যুগের শেষ মিনি-ব্যাচটি প্রক্রিয়া করার পরে, সিস্টেমটি শেষ পর্যন্ত সমস্ত গ্রেডিয়েন্ট পরিবর্তনের উপর ভিত্তি করে প্যারামিটারগুলি আপডেট করে।

প্রশিক্ষণের জন্য উপলব্ধ মেমরির পরিমাণের তুলনায় ব্যাচের আকার খুব বড় হলে গ্রেডিয়েন্ট জমে থাকা কার্যকর। যখন স্মৃতি একটি সমস্যা হয়, তখন প্রাকৃতিক প্রবণতা হ'ল ব্যাচের আকার হ্রাস করা। যাইহোক, সাধারণ ব্যাকপ্রোপাজেশনে ব্যাচের আকার হ্রাস করা প্যারামিটার আপডেটের সংখ্যা বাড়িয়ে তোলে । গ্রেডিয়েন্ট জমে থাকা মডেলটিকে মেমরির সমস্যাগুলি এড়াতে সক্ষম করে তবে এখনও দক্ষতার সাথে প্রশিক্ষণ দেয়।

গ্রেডিয়েন্ট বুস্টেড (সিদ্ধান্ত) গাছ (জিবিটি)

#df

এক ধরণের সিদ্ধান্তের বন যা:

আরও তথ্যের জন্য সিদ্ধান্ত ফরেস্ট কোর্সে গ্রেডিয়েন্ট বুস্টেড সিদ্ধান্ত গাছগুলি দেখুন।

গ্রেডিয়েন্ট বুস্টিং

#df

একটি প্রশিক্ষণ অ্যালগরিদম যেখানে দুর্বল মডেলগুলি একটি শক্তিশালী মডেলের গুণমানকে (ক্ষতি হ্রাস) উন্নত করতে প্রশিক্ষিত হয়। উদাহরণস্বরূপ, একটি দুর্বল মডেল একটি লিনিয়ার বা ছোট সিদ্ধান্ত ট্রি মডেল হতে পারে। শক্তিশালী মডেল পূর্বে প্রশিক্ষিত সমস্ত দুর্বল মডেলের যোগফল হয়ে যায়।

গ্রেডিয়েন্ট বুস্টিংয়ের সহজতম আকারে, প্রতিটি পুনরাবৃত্তিতে, একটি দুর্বল মডেলকে শক্তিশালী মডেলের ক্ষতির গ্রেডিয়েন্টের পূর্বাভাস দেওয়ার জন্য প্রশিক্ষণ দেওয়া হয়। তারপরে, শক্তিশালী মডেলের আউটপুটটি গ্রেডিয়েন্ট বংশোদ্ভূত হিসাবে অনুরূপ পূর্বাভাসযুক্ত গ্রেডিয়েন্টকে বিয়োগ করে আপডেট করা হয়।

$$F_{0} = 0$$$$F_{i+1} = F_i - \xi f_i $$

কোথায়:

  • $ F_ {0} $ হ'ল প্রারম্ভিক শক্তিশালী মডেল।
  • $ F_ {i+1} $ হ'ল পরবর্তী শক্তিশালী মডেল।
  • $ F_ {i} $ হ'ল বর্তমান শক্তিশালী মডেল।
  • $ \ xi $ হ'ল 0.0 এবং 1.0 এর মধ্যে একটি মান যা সঙ্কুচিত হয়, যা গ্রেডিয়েন্ট বংশোদ্ভূত শিক্ষার হারের সাথে সাদৃশ্যপূর্ণ।
  • $ f_ {i} $ হ'ল দুর্বল মডেল যা $ f_ {i} $ এর ক্ষতির গ্রেডিয়েন্টের পূর্বাভাস দেওয়ার জন্য প্রশিক্ষিত $

গ্রেডিয়েন্ট বুস্টিংয়ের আধুনিক প্রকরণগুলির মধ্যে তাদের গণনায় ক্ষতির দ্বিতীয় ডেরাইভেটিভ (হেসিয়ান) অন্তর্ভুক্ত রয়েছে।

সিদ্ধান্ত গাছগুলি সাধারণত গ্রেডিয়েন্ট বুস্টিংয়ে দুর্বল মডেল হিসাবে ব্যবহৃত হয়। গ্রেডিয়েন্ট বুস্টেড (সিদ্ধান্ত) গাছ দেখুন।

গ্রেডিয়েন্ট ক্লিপিং

#সেক

কোনও মডেল প্রশিক্ষণের জন্য গ্রেডিয়েন্ট বংশোদ্ভূত ব্যবহার করার সময় গ্রেডিয়েন্টগুলির সর্বাধিক মান কৃত্রিমভাবে সীমাবদ্ধ করে (ক্লিপিং) দ্বারা বিস্ফোরক গ্রেডিয়েন্ট সমস্যা হ্রাস করার জন্য একটি সাধারণভাবে ব্যবহৃত প্রক্রিয়া।

গ্রেডিয়েন্ট ডিসেন্ট

#মৌলিক

ক্ষতি হ্রাস করার জন্য একটি গাণিতিক কৌশল। গ্রেডিয়েন্ট বংশোদ্ভূত পুনরাবৃত্তভাবে ওজন এবং পক্ষপাতিত্বগুলি সামঞ্জস্য করে, ধীরে ধীরে ক্ষতি হ্রাস করার জন্য সেরা সংমিশ্রণটি সন্ধান করে।

গ্রেডিয়েন্ট বংশোদ্ভূত মেশিন লার্নিংয়ের চেয়ে অনেক বেশি, অনেক বেশি বয়স্ক।

লিনিয়ার রিগ্রেশন দেখুন: আরও তথ্যের জন্য মেশিন লার্নিং ক্র্যাশ কোর্সে গ্রেডিয়েন্ট বংশোদ্ভূত

গ্রাফ

#টেনসরফ্লো

টেনসরফ্লোতে, একটি গণনার স্পেসিফিকেশন। গ্রাফের নোডগুলি অপারেশনগুলির প্রতিনিধিত্ব করে। প্রান্তগুলি নির্দেশিত হয় এবং অন্য অপারেশনের অপারেন্ড হিসাবে কোনও অপারেশন (একটি টেনসর ) এর ফলাফল পাস করার প্রতিনিধিত্ব করে। একটি গ্রাফ ভিজ্যুয়ালাইজ করতে টেনসরবোর্ড ব্যবহার করুন।

গ্রাফ এক্সিকিউশন

#টেনসরফ্লো

একটি টেনসরফ্লো প্রোগ্রামিং পরিবেশ যেখানে প্রোগ্রামটি প্রথমে একটি গ্রাফ তৈরি করে এবং তারপরে সেই গ্রাফের সমস্ত বা অংশ কার্যকর করে। গ্রাফ এক্সিকিউশন হ'ল টেনসরফ্লো 1.x এ ডিফল্ট এক্সিকিউশন মোড।

আগ্রহী নির্বাহের সাথে বৈপরীত্য।

লোভী নীতি

#আরএল

শক্তিবৃদ্ধি শেখার ক্ষেত্রে, এমন একটি নীতি যা সর্বদা সর্বোচ্চ প্রত্যাশিত রিটার্ন সহ ক্রিয়াটি বেছে নেয়।

ভিত্তি

এমন কোনও মডেলের একটি সম্পত্তি যার আউটপুট ("গ্রাউন্ডেড অন") নির্দিষ্ট উত্স উপাদানের উপর ভিত্তি করে। For example, suppose you provide an entire physics textbook as input ("context") to a large language model . Then, you prompt that large language model with a physics question. If the model's response reflects information in that textbook, then that model is grounded on that textbook.

Note that a grounded model is not always a factual model. For example, the input physics textbook could contain mistakes.

স্থল সত্য

#মৌলিক

বাস্তবতা।

The thing that actually happened.

For example, consider a binary classification model that predicts whether a student in their first year of university will graduate within six years. Ground truth for this model is whether or not that student actually graduated within six years.

গ্রুপ অ্যাট্রিবিউশন পক্ষপাত

#responsible

Assuming that what is true for an individual is also true for everyone in that group. The effects of group attribution bias can be exacerbated if a convenience sampling is used for data collection. In a non-representative sample, attributions may be made that don't reflect reality.

See also out-group homogeneity bias and in-group bias . Also, see Fairness: Types of bias in Machine Learning Crash Course for more information.

এইচ

হ্যালুসিনেশন

#language

The production of plausible-seeming but factually incorrect output by a generative AI model that purports to be making an assertion about the real world. For example, a generative AI model that claims that Barack Obama died in 1865 is hallucinating .

হ্যাশিং

In machine learning, a mechanism for bucketing categorical data , particularly when the number of categories is large, but the number of categories actually appearing in the dataset is comparatively small.

For example, Earth is home to about 73,000 tree species. You could represent each of the 73,000 tree species in 73,000 separate categorical buckets. Alternatively, if only 200 of those tree species actually appear in a dataset, you could use hashing to divide tree species into perhaps 500 buckets.

A single bucket could contain multiple tree species. For example, hashing could place baobab and red maple —two genetically dissimilar species—into the same bucket. Regardless, hashing is still a good way to map large categorical sets into the selected number of buckets. Hashing turns a categorical feature having a large number of possible values into a much smaller number of values by grouping values in a deterministic way.

See Categorical data: Vocabulary and one-hot encoding in Machine Learning Crash Course for more information.

হিউরিস্টিক

A simple and quickly implemented solution to a problem. For example, "With a heuristic, we achieved 86% accuracy. When we switched to a deep neural network, accuracy went up to 98%."

লুকানো স্তর

#মৌলিক

A layer in a neural network between the input layer (the features) and the output layer (the prediction). Each hidden layer consists of one or more neurons . For example, the following neural network contains two hidden layers, the first with three neurons and the second with two neurons:

চার স্তর। The first layer is an input layer containing two           বৈশিষ্ট্য The second layer is a hidden layer containing three           নিউরন The third layer is a hidden layer containing two           নিউরন The fourth layer is an output layer. প্রতিটি বৈশিষ্ট্য           contains three edges, each of which points to a different neuron           in the second layer. Each of the neurons in the second layer           contains two edges, each of which points to a different neuron           তৃতীয় স্তরে। Each of the neurons in the third layer contain           one edge, each pointing to the output layer.

A deep neural network contains more than one hidden layer. For example, the preceding illustration is a deep neural network because the model contains two hidden layers.

See Neural networks: Nodes and hidden layers in Machine Learning Crash Course for more information.

hierarchical clustering

# ক্লাস্টারিং

A category of clustering algorithms that create a tree of clusters. Hierarchical clustering is well-suited to hierarchical data, such as botanical taxonomies. দুটি ধরণের শ্রেণিবদ্ধ ক্লাস্টারিং অ্যালগরিদম রয়েছে:

  • Agglomerative clustering first assigns every example to its own cluster, and iteratively merges the closest clusters to create a hierarchical tree.
  • Divisive clustering first groups all examples into one cluster and then iteratively divides the cluster into a hierarchical tree.

Contrast with centroid-based clustering .

আরও তথ্যের জন্য ক্লাস্টারিং কোর্সে ক্লাস্টারিং অ্যালগরিদম দেখুন।

পাহাড়ে আরোহণ

An algorithm for iteratively improving ("walking uphill") an ML model until the model stops improving ("reaches the top of a hill"). The general form of the algorithm is as follows:

  1. Build a starting model.
  2. Create new candidate models by making small adjustments to the way you train or fine-tune . This might entail working with a slightly different training set or different hyperparameters.
  3. Evaluate the new candidate models and take one of the following actions:
    • If a candidate model outperforms the starting model, then that candidate model becomes the new starting model. In this case, repeat Steps 1, 2, and 3.
    • If no model outperforms the starting model, then you've reached the top of the hill and should stop iterating.

See Deep Learning Tuning Playbook for guidance on hyperparameter tuning. See the Data modules of Machine Learning Crash Course for guidance on feature engineering.

hinge loss

#মেট্রিক

A family of loss functions for classification designed to find the decision boundary as distant as possible from each training example, thus maximizing the margin between examples and the boundary. KSVMs use hinge loss (or a related function, such as squared hinge loss). For binary classification, the hinge loss function is defined as follows:

$$\text{loss} = \text{max}(0, 1 - (y * y'))$$

where y is the true label, either -1 or +1, and y' is the raw output of the classification model :

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

Consequently, a plot of hinge loss versus (y * y') looks as follows:

A Cartesian plot consisting of two joined line segments. প্রথম           line segment starts at (-3, 4) and ends at (1, 0). দ্বিতীয় লাইন           segment begins at (1, 0) and continues indefinitely with a slope           0 এর

historical bias

#responsible

A type of bias that already exists in the world and has made its way into a dataset. These biases have a tendency to reflect existing cultural stereotypes, demographic inequalities, and prejudices against certain social groups.

For example, consider a classification model that predicts whether or not a loan applicant will default on their loan, which was trained on historical loan-default data from the 1980s from local banks in two different communities. If past applicants from Community A were six times more likely to default on their loans than applicants from Community B, the model might learn a historical bias resulting in the model being less likely to approve loans in Community A, even if the historical conditions that resulted in that community's higher default rates were no longer relevant.

আরও তথ্যের জন্য মেশিন লার্নিং ক্র্যাশ কোর্সে ন্যায্যতা: পক্ষপাতের প্রকারগুলি দেখুন।

holdout data

Examples intentionally not used ("held out") during training. The validation dataset and test dataset are examples of holdout data. Holdout data helps evaluate your model's ability to generalize to data other than the data it was trained on. The loss on the holdout set provides a better estimate of the loss on an unseen dataset than does the loss on the training set.

হোস্ট

#টেনসরফ্লো
#GoogleCloud

When training an ML model on accelerator chips (GPUs or TPUs ), the part of the system that controls both of the following:

  • The overall flow of the code.
  • The extraction and transformation of the input pipeline.

The host typically runs on a CPU, not on an accelerator chip; the device manipulates tensors on the accelerator chips.

মানুষের মূল্যায়ন

#language
#generativeAI

A process in which people judge the quality of an ML model's output; for example, having bilingual people judge the quality of an ML translation model. Human evaluation is particularly useful for judging models that have no one right answer .

Contrast with automatic evaluation and autorater evaluation .

human in the loop (HITL)

#generativeAI

A loosely-defined idiom that could mean either of the following:

  • A policy of viewing Generative AI output critically or skeptically. For example, the humans who write this ML Glossary are amazed by what large language models can do but are mindful of the mistakes large language models make.
  • A strategy or system for ensuring that people help shape, evaluate, and refine a model's behavior. Keeping a human in the loop enables an AI to benefit from both machine intelligence and human intelligence. For example, a system in which an AI generates code which software engineers then review is a human-in-the-loop system.

হাইপারপ্যারামিটার

#মৌলিক

The variables that you or a hyperparameter tuning serviceadjust during successive runs of training a model. For example, learning rate is a hyperparameter. You could set the learning rate to 0.01 before one training session. If you determine that 0.01 is too high, you could perhaps set the learning rate to 0.003 for the next training session.

In contrast, parameters are the various weights and bias that the model learns during training.

আরও তথ্যের জন্য লিনিয়ার রিগ্রেশন: মেশিন লার্নিং ক্র্যাশ কোর্সে হাইপারপ্যারামিটার দেখুন।

হাইপারপ্লেন

A boundary that separates a space into two subspaces. For example, a line is a hyperplane in two dimensions and a plane is a hyperplane in three dimensions. More typically in machine learning, a hyperplane is the boundary separating a high-dimensional space. Kernel Support Vector Machines use hyperplanes to separate positive classes from negative classes, often in a very high-dimensional space.

আমি

আইআইডি

Abbreviation for independently and identically distributed .

ইমেজ স্বীকৃতি

#ছবি

A process that classifies object(s), pattern(s), or concept(s) in an image. Image recognition is also known as image classification .

For more information, see ML Practicum: Image Classification .

See the ML Practicum: Image Classification course for more information.

imbalanced dataset

Synonym for class-imbalanced dataset .

অন্তর্নিহিত পক্ষপাত

#responsible

Automatically making an association or assumption based on one's mind models and memories. Implicit bias can affect the following:

  • How data is collected and classified.
  • How machine learning systems are designed and developed.

For example, when building a classification model to identify wedding photos, an engineer may use the presence of a white dress in a photo as a feature. However, white dresses have been customary only during certain eras and in certain cultures.

See also confirmation bias .

অভিযুক্তি

Short form of value imputation .

incompatibility of fairness metrics

#responsible
#মেট্রিক

The idea that some notions of fairness are mutually incompatible and cannot be satisfied simultaneously. As a result, there is no single universal metric for quantifying fairness that can be applied to all ML problems.

While this may seem discouraging, incompatibility of fairness metrics doesn't imply that fairness efforts are fruitless. Instead, it suggests that fairness must be defined contextually for a given ML problem, with the goal of preventing harms specific to its use cases.

See "On the (im)possibility of fairness" for a more detailed discussion of the incompatibility of fairness metrics.

প্রেক্ষাপটে শিক্ষা

#language
#generativeAI

Synonym for few-shot prompting .

independently and identically distributed (iid)

#মৌলিক

Data drawn from a distribution that doesn't change, and where each value drawn doesn't depend on values that have been drawn previously. An iid is the ideal gas of machine learning—a useful mathematical construct but almost never exactly found in the real world. For example, the distribution of visitors to a web page may be iid over a brief window of time; that is, the distribution doesn't change during that brief window and one person's visit is generally independent of another's visit. However, if you expand that window of time, seasonal differences in the web page's visitors may appear.

See also nonstationarity .

individual fairness

#responsible
#মেট্রিক

A fairness metric that checks whether similar individuals are classified similarly. For example, Brobdingnagian Academy might want to satisfy individual fairness by ensuring that two students with identical grades and standardized test scores are equally likely to gain admission.

Note that individual fairness relies entirely on how you define "similarity" (in this case, grades and test scores), and you can run the risk of introducing new fairness problems if your similarity metric misses important information (such as the rigor of a student's curriculum).

See "Fairness Through Awareness" for a more detailed discussion of individual fairness.

অনুমান

#মৌলিক

In machine learning, the process of making predictions by applying a trained model to unlabeled examples .

Inference has a somewhat different meaning in statistics. See the Wikipedia article on statistical inference for details.

See Supervised Learning in the Intro to ML course to see inference's role in a supervised learning system.

inference path

#df

In a decision tree , during inference , the route a particular example takes from the root to other conditions , terminating with a leaf . For example, in the following decision tree, the thicker arrows show the inference path for an example with the following feature values:

  • x = 7
  • y = 12
  • z = -3

The inference path in the following illustration travels through three conditions before reaching the leaf ( Zeta ).

A decision tree consisting of four conditions and five leaves.
          The root condition is (x > 0). Since the answer is Yes, the
          inference path travels from the root to the next condition (y > 0).
          Since the answer is Yes, the inference path then travels to the
          next condition (z > 0). Since the answer is No, the inference path
          travels to its terminal node, which is the leaf (Zeta).

The three thick arrows show the inference path.

See Decision trees in the Decision Forests course for more information.

তথ্য লাভ

#df
#মেট্রিক

In decision forests , the difference between a node's entropy and the weighted (by number of examples) sum of the entropy of its children nodes. A node's entropy is the entropy of the examples in that node.

For example, consider the following entropy values:

  • entropy of parent node = 0.6
  • entropy of one child node with 16 relevant examples = 0.2
  • entropy of another child node with 24 relevant examples = 0.1

So 40% of the examples are in one child node and 60% are in the other child node. অতএব:

  • weighted entropy sum of child nodes = (0.4 * 0.2) + (0.6 * 0.1) = 0.14

So, the information gain is:

  • information gain = entropy of parent node - weighted entropy sum of child nodes
  • information gain = 0.6 - 0.14 = 0.46

Most splitters seek to create conditions that maximize information gain.

ইন-গ্রুপ পক্ষপাত

#responsible

Showing partiality to one's own group or own characteristics. If testers or raters consist of the machine learning developer's friends, family, or colleagues, then in-group bias may invalidate product testing or the dataset.

In-group bias is a form of group attribution bias . See also out-group homogeneity bias .

আরও তথ্যের জন্য মেশিন লার্নিং ক্র্যাশ কোর্সে ন্যায্যতা: পক্ষপাতের প্রকারগুলি দেখুন।

input generator

A mechanism by which data is loaded into a neural network .

An input generator can be thought of as a component responsible for processing raw data into tensors which are iterated over to generate batches for training, evaluation, and inference.

input layer

#মৌলিক

The layer of a neural network that holds the feature vector . That is, the input layer provides examples for training or inference . For example, the input layer in the following neural network consists of two features:

Four layers: an input layer, two hidden layers, and an output layer.

in-set condition

#df

In a decision tree , a condition that tests for the presence of one item in a set of items. For example, the following is an in-set condition:

  house-style in [tudor, colonial, cape]

During inference, if the value of the house-style feature is tudor or colonial or cape , then this condition evaluates to Yes. If the value of the house-style feature is something else (for example, ranch ), then this condition evaluates to No.

In-set conditions usually lead to more efficient decision trees than conditions that test one-hot encoded features.

উদাহরণ

Synonym for example .

instruction tuning

#generativeAI

A form of fine-tuning that improves a generative AI model's ability to follow instructions. Instruction tuning involves training a model on a series of instruction prompts, typically covering a wide variety of tasks. The resulting instruction-tuned model then tends to generate useful responses to zero-shot prompts across a variety of tasks.

এর সাথে তুলনা এবং বৈসাদৃশ্য:

ব্যাখ্যাযোগ্যতা

#মৌলিক

The ability to explain or to present an ML model's reasoning in understandable terms to a human.

Most linear regression models, for example, are highly interpretable. (You merely need to look at the trained weights for each feature.) Decision forests are also highly interpretable. Some models, however, require sophisticated visualization to become interpretable.

You can use the Learning Interpretability Tool (LIT) to interpret ML models.

inter-rater agreement

#মেট্রিক

A measurement of how often human raters agree when doing a task. If raters disagree, the task instructions may need to be improved. Also sometimes called inter-annotator agreement or inter-rater reliability . See also Cohen's kappa , which is one of the most popular inter-rater agreement measurements.

See Categorical data: Common issues in Machine Learning Crash Course for more information.

intersection over union (IoU)

#ছবি

The intersection of two sets divided by their union. In machine-learning image-detection tasks, IoU is used to measure the accuracy of the model's predicted bounding box with respect to the ground-truth bounding box. In this case, the IoU for the two boxes is the ratio between the overlapping area and the total area, and its value ranges from 0 (no overlap of predicted bounding box and ground-truth bounding box) to 1 (predicted bounding box and ground-truth bounding box have the exact same coordinates).

For example, in the image below:

  • The predicted bounding box (the coordinates delimiting where the model predicts the night table in the painting is located) is outlined in purple.
  • The ground-truth bounding box (the coordinates delimiting where the night table in the painting is actually located) is outlined in green.

The Van Gogh painting Vincent's Bedroom in Arles, with two different           bounding boxes around the night table beside the bed. The ground-truth           bounding box (in green) perfectly circumscribes the night table. দ           predicted bounding box (in purple) is offset 50% down and to the right           of the ground-truth bounding box; it encloses the bottom-right quarter           of the night table, but misses the rest of the table.

Here, the intersection of the bounding boxes for prediction and ground truth (below left) is 1, and the union of the bounding boxes for prediction and ground truth (below right) is 7, so the IoU is \(\frac{1}{7}\).

Same image as above, but with each bounding box divided into four           চতুর্ভুজ There are seven quadrants total, as the bottom-right           quadrant of the ground-truth bounding box and the top-left           quadrant of the predicted bounding box overlap each other. এই           overlapping section (highlighted in green) represents the           intersection, and has an area of 1.Same image as above, but with each bounding box divided into four           চতুর্ভুজ There are seven quadrants total, as the bottom-right           quadrant of the ground-truth bounding box and the top-left           quadrant of the predicted bounding box overlap each other.           The entire interior enclosed by both bounding boxes           (highlighted in green) represents the union, and has           an area of 7.

আইওইউ

Abbreviation for intersection over union .

item matrix

#রিসিস্টেম

In recommendation systems , a matrix of embedding vectors generated by matrix factorization that holds latent signals about each item . Each row of the item matrix holds the value of a single latent feature for all items. For example, consider a movie recommendation system. Each column in the item matrix represents a single movie. The latent signals might represent genres, or might be harder-to-interpret signals that involve complex interactions among genre, stars, movie age, or other factors.

The item matrix has the same number of columns as the target matrix that is being factorized. For example, given a movie recommendation system that evaluates 10,000 movie titles, the item matrix will have 10,000 columns.

আইটেম

#রিসিস্টেম

In a recommendation system , the entities that a system recommends. For example, videos are the items that a video store recommends, while books are the items that a bookstore recommends.

পুনরাবৃত্তি

#মৌলিক

A single update of a model's parameters—the model's weights and biases —during training . The batch size determines how many examples the model processes in a single iteration. For instance, if the batch size is 20, then the model processes 20 examples before adjusting the parameters.

When training a neural network , a single iteration involves the following two passes:

  1. A forward pass to evaluate loss on a single batch.
  2. A backward pass ( backpropagation ) to adjust the model's parameters based on the loss and the learning rate.

See Gradient descent in Machine Learning Crash Course for more information.

জে

JAX

An array computing library, bringing together XLA (Accelerated Linear Algebra) and automatic differentiation for high-performance numerical computing. JAX provides a simple and powerful API for writing accelerated numerical code with composable transformations. JAX provides features such as:

  • grad (automatic differentiation)
  • jit (just-in-time compilation)
  • vmap (automatic vectorization or batching)
  • pmap (parallelization)

JAX is a language for expressing and composing transformations of numerical code, analogous—but much larger in scope—to Python's NumPy library. (In fact, the .numpy library under JAX is a functionally equivalent, but entirely rewritten version of the Python NumPy library.)

JAX is particularly well-suited for speeding up many machine learning tasks by transforming the models and data into a form suitable for parallelism across GPU and TPU accelerator chips .

Flax , Optax , Pax , and many other libraries are built on the JAX infrastructure.

কে

কেরাস

A popular Python machine learning API. Keras runs on several deep learning frameworks, including TensorFlow, where it is made available as tf.keras .

Kernel Support Vector Machines (KSVMs)

A classification algorithm that seeks to maximize the margin between positive and negative classes by mapping input data vectors to a higher dimensional space. For example, consider a classification problem in which the input dataset has a hundred features. To maximize the margin between positive and negative classes, a KSVM could internally map those features into a million-dimension space. KSVMs uses a loss function called hinge loss .

মূল পয়েন্ট

#ছবি

The coordinates of particular features in an image. For example, for an image recognition model that distinguishes flower species, keypoints might be the center of each petal, the stem, the stamen, and so on.

k-ভাঁজ ক্রস বৈধতা

An algorithm for predicting a model's ability to generalize to new data. The k in k-fold refers to the number of equal groups you divide a dataset's examples into; that is, you train and test your model k times. For each round of training and testing, a different group is the test set, and all remaining groups become the training set. After k rounds of training and testing, you calculate the mean and standard deviation of the chosen test metric(s).

For example, suppose your dataset consists of 120 examples. Further suppose, you decide to set k to 4. Therefore, after shuffling the examples, you divide the dataset into four equal groups of 30 examples and conduct four training and testing rounds:

A dataset broken into four equal groups of examples. In Round 1,           the first three groups are used for training and the last group           পরীক্ষার জন্য ব্যবহার করা হয়। In Round 2, the first two groups and the last           group are used for training, while the third group is used for           পরীক্ষা In Round 3, the first group and the last two groups are           used for training, while the second group is used for testing.           In Round 4, the first group is used is for testing, while the final           three groups are used for training.

For example, Mean Squared Error (MSE) might be the most meaningful metric for a linear regression model. Therefore, you would find the mean and standard deviation of the MSE across all four rounds.

k- মানে

# ক্লাস্টারিং

A popular clustering algorithm that groups examples in unsupervised learning. The k-means algorithm basically does the following:

  • Iteratively determines the best k center points (known as centroids ).
  • Assigns each example to the closest centroid. Those examples nearest the same centroid belong to the same group.

The k-means algorithm picks centroid locations to minimize the cumulative square of the distances from each example to its closest centroid.

For example, consider the following plot of dog height to dog width:

A Cartesian plot with several dozen data points.

If k=3, the k-means algorithm will determine three centroids. Each example is assigned to its closest centroid, yielding three groups:

The same Cartesian plot as in the previous illustration, except           with three centroids added.           The previous data points are clustered into three distinct groups,           with each group representing the data points closest to a particular           কেন্দ্রিক

Imagine that a manufacturer wants to determine the ideal sizes for small, medium, and large sweaters for dogs. The three centroids identify the mean height and mean width of each dog in that cluster. So, the manufacturer should probably base sweater sizes on those three centroids. Note that the centroid of a cluster is typically not an example in the cluster.

The preceding illustrations shows k-means for examples with only two features (height and width). Note that k-means can group examples across many features.

See What is k-means clustering? in the Clustering course for more information.

k-median

# ক্লাস্টারিং

A clustering algorithm closely related to k-means . The practical difference between the two is as follows:

  • In k-means, centroids are determined by minimizing the sum of the squares of the distance between a centroid candidate and each of its examples.
  • In k-median, centroids are determined by minimizing the sum of the distance between a centroid candidate and each of its examples.

Note that the definitions of distance are also different:

  • k-means relies on the Euclidean distance from the centroid to an example. (In two dimensions, the Euclidean distance means using the Pythagorean theorem to calculate the hypotenuse.) For example, the k-means distance between (2,2) and (5,-2) would be:
$$ {\text{Euclidean distance}} = {\sqrt {(2-5)^2 + (2--2)^2}} = 5 $$
  • k-median relies on the Manhattan distance from the centroid to an example. This distance is the sum of the absolute deltas in each dimension. For example, the k-median distance between (2,2) and (5,-2) would be:
$$ {\text{Manhattan distance}} = \lvert 2-5 \rvert + \lvert 2--2 \rvert = 7 $$

এল

L 0 regularization

#মৌলিক

A type of regularization that penalizes the total number of nonzero weights in a model. For example, a model having 11 nonzero weights would be penalized more than a similar model having 10 nonzero weights.

L 0 regularization is sometimes called L0-norm regularization .

L 1 loss

#মৌলিক
#মেট্রিক

A loss function that calculates the absolute value of the difference between actual label values and the values that a model predicts. For example, here's the calculation of L 1 loss for a batch of five examples :

Actual value of example Model's predicted value Absolute value of delta
7 6 1
5 4 1
8 11 3
4 6 2
9 8 1
8 = L 1 loss

L 1 loss is less sensitive to outliers than L 2 loss .

The Mean Absolute Error is the average L 1 loss per example.

See Linear regression: Loss in Machine Learning Crash Course for more information.

এল 1 নিয়মিতকরণ

#মৌলিক

A type of regularization that penalizes weights in proportion to the sum of the absolute value of the weights. L 1 regularization helps drive the weights of irrelevant or barely relevant features to exactly 0 . A feature with a weight of 0 is effectively removed from the model.

Contrast with L 2 regularization .

L 2 ক্ষতি

#মৌলিক
#মেট্রিক

A loss function that calculates the square of the difference between actual label values and the values that a model predicts. For example, here's the calculation of L 2 loss for a batch of five examples :

Actual value of example Model's predicted value Square of delta
7 6 1
5 4 1
8 11 9
4 6 4
9 8 1
16 = L 2 loss

Due to squaring, L 2 loss amplifies the influence of outliers . That is, L 2 loss reacts more strongly to bad predictions than L 1 loss . For example, the L 1 loss for the preceding batch would be 8 rather than 16. Notice that a single outlier accounts for 9 of the 16.

Regression models typically use L 2 loss as the loss function.

The Mean Squared Error is the average L 2 loss per example. Squared loss is another name for L 2 loss.

See Logistic regression: Loss and regularization in Machine Learning Crash Course for more information.

এল 2 নিয়মিতকরণ

#মৌলিক

A type of regularization that penalizes weights in proportion to the sum of the squares of the weights. L 2 regularization helps drive outlier weights (those with high positive or low negative values) closer to 0 but not quite to 0 . Features with values very close to 0 remain in the model but don't influence the model's prediction very much.

L 2 regularization always improves generalization in linear models .

Contrast with L 1 regularization .

See Overfitting: L2 regularization in Machine Learning Crash Course for more information.

লেবেল

#মৌলিক

In supervised machine learning , the "answer" or "result" portion of an example .

Each labeled example consists of one or more features and a label. For example, in a spam detection dataset, the label would probably be either "spam" or "not spam." In a rainfall dataset, the label might be the amount of rain that fell during a certain period.

See Supervised Learning in Introduction to Machine Learning for more information.

labeled example

#মৌলিক

An example that contains one or more features and a label . For example, the following table shows three labeled examples from a house valuation model, each with three features and one label:

বেডরুমের সংখ্যা বাথরুমের সংখ্যা ঘরের বয়স House price (label)
3 2 15 $345,000
2 1 72 $179,000
4 2 34 $392,000

In supervised machine learning , models train on labeled examples and make predictions on unlabeled examples .

Contrast labeled example with unlabeled examples.

See Supervised Learning in Introduction to Machine Learning for more information.

label leakage

A model design flaw in which a feature is a proxy for the label . For example, consider a binary classification model that predicts whether or not a prospective customer will purchase a particular product. Suppose that one of the features for the model is a Boolean named SpokeToCustomerAgent . Further suppose that a customer agent is only assigned after the prospective customer has actually purchased the product. During training, the model will quickly learn the association between SpokeToCustomerAgent and the label.

See Monitoring pipelines in Machine Learning Crash Course for more information.

ল্যাম্বডা

#মৌলিক

Synonym for regularization rate .

Lambda is an overloaded term. Here we're focusing on the term's definition within regularization .

LaMDA (Language Model for Dialogue Applications)

#language

A Transformer -based large language model developed by Google trained on a large dialogue dataset that can generate realistic conversational responses.

LaMDA: our breakthrough conversation technology provides an overview.

ল্যান্ডমার্ক

#ছবি

Synonym for keypoints .

ভাষার মডেল

#language

A model that estimates the probability of a token or sequence of tokens occurring in a longer sequence of tokens.

See What is a language model? in Machine Learning Crash Course for more information.

বড় ভাষা মডেল

#language

At a minimum, a language model having a very high number of parameters . More informally, any Transformer -based language model, such as Gemini or GPT .

See Large language models (LLMs) in Machine Learning Crash Course for more information.

সুপ্ত স্থান

#language

Synonym for embedding space .

স্তর

#মৌলিক

A set of neurons in a neural network . Three common types of layers are as follows:

For example, the following illustration shows a neural network with one input layer, two hidden layers, and one output layer:

A neural network with one input layer, two hidden layers, and one           output layer. The input layer consists of two features. প্রথম           hidden layer consists of three neurons and the second hidden layer           consists of two neurons. The output layer consists of a single node.

In TensorFlow , layers are also Python functions that take Tensors and configuration options as input and produce other tensors as output.

Layers API (tf.layers)

#টেনসরফ্লো

A TensorFlow API for constructing a deep neural network as a composition of layers. The Layers API lets you build different types of layers , such as:

The Layers API follows the Keras layers API conventions. That is, aside from a different prefix, all functions in the Layers API have the same names and signatures as their counterparts in the Keras layers API.

পাতা

#df

Any endpoint in a decision tree . Unlike a condition , a leaf doesn't perform a test. Rather, a leaf is a possible prediction. A leaf is also the terminal node of an inference path .

For example, the following decision tree contains three leaves:

A decision tree with two conditions leading to three leaves.

See Decision trees in the Decision Forests course for more information.

Learning Interpretability Tool (LIT)

A visual, interactive model-understanding and data visualization tool.

You can use open-source LIT to interpret models or to visualize text, image, and tabular data.

শেখার হার

#মৌলিক

A floating-point number that tells the gradient descent algorithm how strongly to adjust weights and biases on each iteration . For example, a learning rate of 0.3 would adjust weights and biases three times more powerfully than a learning rate of 0.1.

Learning rate is a key hyperparameter . If you set the learning rate too low, training will take too long. If you set the learning rate too high, gradient descent often has trouble reaching convergence .

আরও তথ্যের জন্য লিনিয়ার রিগ্রেশন: মেশিন লার্নিং ক্র্যাশ কোর্সে হাইপারপ্যারামিটার দেখুন।

least squares regression

A linear regression model trained by minimizing L 2 Loss .

Levenshtein দূরত্ব

#language
#metric

An edit distance metric that calculates the fewest delete, insert, and substitute operations required to change one word to another. For example, the Levenshtein distance between the words "heart" and "darts" is three because the following three edits are the fewest changes to turn one word into the other:

  1. heart → deart (substitute "h" with "d")
  2. deart → dart (delete "e")
  3. dart → darts (insert "s")

Note that the preceding sequence isn't the only path of three edits.

রৈখিক

#মৌলিক

A relationship between two or more variables that can be represented solely through addition and multiplication.

The plot of a linear relationship is a line.

Contrast with nonlinear .

রৈখিক মডেল

#মৌলিক

A model that assigns one weight per feature to make predictions . (Linear models also incorporate a bias .) In contrast, the relationship of features to predictions in deep models is generally nonlinear .

Linear models are usually easier to train and more interpretable than deep models. However, deep models can learn complex relationships between features.

Linear regression and logistic regression are two types of linear models.

লিনিয়ার রিগ্রেশন

#মৌলিক

A type of machine learning model in which both of the following are true:

  • The model is a linear model .
  • The prediction is a floating-point value. (This is the regression part of linear regression .)

Contrast linear regression with logistic regression . Also, contrast regression with classification .

See Linear regression in Machine Learning Crash Course for more information.

LIT

Abbreviation for the Learning Interpretability Tool (LIT) , which was previously known as the Language Interpretability Tool.

এলএলএম

#language
#generativeAI

Abbreviation for large language model .

LLM evaluations (evals)

#language
#generativeAI
#মেট্রিক

A set of metrics and benchmarks for assessing the performance of large language models (LLMs). At a high level, LLM evaluations:

  • Help researchers identify areas where LLMs need improvement.
  • Are useful in comparing different LLMs and identifying the best LLM for a particular task.
  • Help ensure that LLMs are safe and ethical to use.

See Large language models (LLMs) in Machine Learning Crash Course for more information.

লজিস্টিক রিগ্রেশন

#মৌলিক

A type of regression model that predicts a probability. Logistic regression models have the following characteristics:

  • The label is categorical . The term logistic regression usually refers to binary logistic regression , that is, to a model that calculates probabilities for labels with two possible values. A less common variant, multinomial logistic regression , calculates probabilities for labels with more than two possible values.
  • The loss function during training is Log Loss . (Multiple Log Loss units can be placed in parallel for labels with more than two possible values.)
  • The model has a linear architecture, not a deep neural network. However, the remainder of this definition also applies to deep models that predict probabilities for categorical labels.

For example, consider a logistic regression model that calculates the probability of an input email being either spam or not spam. During inference, suppose the model predicts 0.72. Therefore, the model is estimating:

  • A 72% chance of the email being spam.
  • A 28% chance of the email not being spam.

A logistic regression model uses the following two-step architecture:

  1. The model generates a raw prediction (y') by applying a linear function of input features.
  2. The model uses that raw prediction as input to a sigmoid function , which converts the raw prediction to a value between 0 and 1, exclusive.

Like any regression model, a logistic regression model predicts a number. However, this number typically becomes part of a binary classification model as follows:

  • If the predicted number is greater than the classification threshold , the binary classification model predicts the positive class.
  • If the predicted number is less than the classification threshold, the binary classification model predicts the negative class.

See Logistic regression in Machine Learning Crash Course for more information.

লগিট

The vector of raw (non-normalized) predictions that a classification model generates, which is ordinarily then passed to a normalization function. If the model is solving a multi-class classification problem, logits typically become an input to the softmax function. The softmax function then generates a vector of (normalized) probabilities with one value for each possible class.

লগ ক্ষতি

#মৌলিক

The loss function used in binary logistic regression .

See Logistic regression: Loss and regularization in Machine Learning Crash Course for more information.

log-odds

#মৌলিক

The logarithm of the odds of some event.

লং শর্ট-টার্ম মেমরি (LSTM)

#সেক

A type of cell in a recurrent neural network used to process sequences of data in applications such as handwriting recognition, machine translation , and image captioning. LSTMs address the vanishing gradient problem that occurs when training RNNs due to long data sequences by maintaining history in an internal memory state based on new input and context from previous cells in the RNN.

LoRA

#language
#generativeAI

Abbreviation for Low-Rank Adaptability .

ক্ষতি

#মৌলিক
#মেট্রিক

During the training of a supervised model , a measure of how far a model's prediction is from its label .

A loss function calculates the loss.

See Linear regression: Loss in Machine Learning Crash Course for more information.

loss aggregator

A type of machine learning algorithm that improves the performance of a model by combining the predictions of multiple models and using those predictions to make a single prediction. As a result, a loss aggregator can reduce the variance of the predictions and improve the accuracy of the predictions.

loss curve

#মৌলিক

A plot of loss as a function of the number of training iterations . The following plot shows a typical loss curve:

A Cartesian graph of loss versus training iterations, showing a
          rapid drop in loss for the initial iterations, followed by a gradual
          drop, and then a flat slope during the final iterations.

Loss curves can help you determine when your model is converging or overfitting .

Loss curves can plot all of the following types of loss:

See also generalization curve .

See Overfitting: Interpreting loss curves in Machine Learning Crash Course for more information.

ক্ষতি ফাংশন

#মৌলিক
#মেট্রিক

During training or testing, a mathematical function that calculates the loss on a batch of examples. A loss function returns a lower loss for models that makes good predictions than for models that make bad predictions.

The goal of training is typically to minimize the loss that a loss function returns.

Many different kinds of loss functions exist. Pick the appropriate loss function for the kind of model you are building. যেমন:

loss surface

A graph of weight(s) versus loss. Gradient descent aims to find the weight(s) for which the loss surface is at a local minimum.

Low-Rank Adaptability (LoRA)

#language
#generativeAI

A parameter-efficient technique for fine tuning that "freezes" the model's pre-trained weights (such that they can no longer be modified) and then inserts a small set of trainable weights into the model. This set of trainable weights (also known as "update matrixes") is considerably smaller than the base model and is therefore much faster to train.

LoRA provides the following benefits:

  • Improves the quality of a model's predictions for the domain where the fine tuning is applied.
  • Fine-tunes faster than techniques that require fine-tuning all of a model's parameters.
  • Reduces the computational cost of inference by enabling concurrent serving of multiple specialized models sharing the same base model.

এলএসটিএম

#সেক

Abbreviation for Long Short-Term Memory .

এম

মেশিন লার্নিং

#মৌলিক

A program or system that trains a model from input data. The trained model can make useful predictions from new (never-before-seen) data drawn from the same distribution as the one used to train the model.

Machine learning also refers to the field of study concerned with these programs or systems.

See the Introduction to Machine Learning course for more information.

মেশিন অনুবাদ

#generativeAI

Using software (typically, a machine learning model) to convert text from one human language to another human language, for example, from English to Japanese.

majority class

#মৌলিক

The more common label in a class-imbalanced dataset . For example, given a dataset containing 99% negative labels and 1% positive labels, the negative labels are the majority class.

Contrast with minority class .

ডেটাসেটগুলি দেখুন: আরও তথ্যের জন্য মেশিন লার্নিং ক্র্যাশ কোর্সে ভারসাম্যহীন ডেটাসেটগুলি

মার্কভ সিদ্ধান্ত প্রক্রিয়া (MDP)

#আরএল

A graph representing the decision-making model where decisions (or actions ) are taken to navigate a sequence of states under the assumption that the Markov property holds. In reinforcement learning , these transitions between states return a numerical reward .

মার্কভ সম্পত্তি

#আরএল

A property of certain environments , where state transitions are entirely determined by information implicit in the current state and the agent's action .

masked language model

#language

A language model that predicts the probability of candidate tokens to fill in blanks in a sequence. For example, a masked language model can calculate probabilities for candidate word(s) to replace the underline in the following sentence:

The ____ in the hat came back.

The literature typically uses the string "MASK" instead of an underline. যেমন:

The "MASK" in the hat came back.

Most modern masked language models are bidirectional .

matplotlib

An open-source Python 2D plotting library. matplotlib helps you visualize different aspects of machine learning.

ম্যাট্রিক্স ফ্যাক্টরাইজেশন

#রিসিস্টেম

In math, a mechanism for finding the matrixes whose dot product approximates a target matrix.

In recommendation systems , the target matrix often holds users' ratings on items . For example, the target matrix for a movie recommendation system might look something like the following, where the positive integers are user ratings and 0 means that the user didn't rate the movie:

কাসাব্লাঙ্কা ফিলাডেলফিয়ার গল্প ব্ল্যাক প্যান্থার ওয়ান্ডার ওম্যান পাল্প ফিকশন
ব্যবহারকারী 1 5.0 3.0 0.0 2.0 0.0
ব্যবহারকারী 2 4.0 0.0 0.0 1.0 5.0
ব্যবহারকারী 3 3.0 1.0 4.0 5.0 0.0

The movie recommendation system aims to predict user ratings for unrated movies. For example, will User 1 like Black Panther ?

One approach for recommendation systems is to use matrix factorization to generate the following two matrixes:

  • A user matrix , shaped as the number of users X the number of embedding dimensions.
  • An item matrix , shaped as the number of embedding dimensions X the number of items.

For example, using matrix factorization on our three users and five items could yield the following user matrix and item matrix:

User Matrix                 Item Matrix

1.1   2.3           0.9   0.2   1.4    2.0   1.2
0.6   2.0           1.7   1.2   1.2   -0.1   2.1
2.5   0.5

The dot product of the user matrix and item matrix yields a recommendation matrix that contains not only the original user ratings but also predictions for the movies that each user hasn't seen. For example, consider User 1's rating of Casablanca , which was 5.0. The dot product corresponding to that cell in the recommendation matrix should hopefully be around 5.0, and it is:

(1.1 * 0.9) + (2.3 * 1.7) = 4.9

More importantly, will User 1 like Black Panther ? Taking the dot product corresponding to the first row and the third column yields a predicted rating of 4.3:

(1.1 * 1.4) + (2.3 * 1.2) = 4.3

Matrix factorization typically yields a user matrix and item matrix that, together, are significantly more compact than the target matrix.

গড় পরম ত্রুটি (MAE)

#মেট্রিক

The average loss per example when L 1 loss is used. Calculate Mean Absolute Error as follows:

  1. Calculate the L 1 loss for a batch.
  2. Divide the L 1 loss by the number of examples in the batch.

For example, consider the calculation of L 1 loss on the following batch of five examples:

Actual value of example Model's predicted value Loss (difference between actual and predicted)
7 6 1
5 4 1
8 11 3
4 6 2
9 8 1
8 = L 1 loss

So, L 1 loss is 8 and the number of examples is 5. Therefore, the Mean Absolute Error is:

Mean Absolute Error = L1 loss / Number of Examples
Mean Absolute Error = 8/5 = 1.6

Contrast Mean Absolute Error with Mean Squared Error and Root Mean Squared Error .

mean average precision at k (mAP@k)

#language
#generativeAI
#মেট্রিক

The statistical mean of all average precision at k scores across a validation dataset. One use of mean average precision at k is to judge the quality of recommendations generated by a recommendation system .

Although the phrase "mean average" sounds redundant, the name of the metric is appropriate. After all, this metric finds the mean of multiple average precision at k values.

গড় বর্গাকার ত্রুটি (MSE)

#মেট্রিক

The average loss per example when L 2 loss is used. Calculate Mean Squared Error as follows:

  1. Calculate the L 2 loss for a batch.
  2. Divide the L 2 loss by the number of examples in the batch.

For example, consider the loss on the following batch of five examples:

প্রকৃত মান Model's prediction ক্ষতি Squared loss
7 6 1 1
5 4 1 1
8 11 3 9
4 6 2 4
9 8 1 1
16 = L 2 loss

Therefore, the Mean Squared Error is:

Mean Squared Error = L2 loss / Number of Examples
Mean Squared Error = 16/5 = 3.2

Mean Squared Error is a popular training optimizer , particularly for linear regression .

Contrast Mean Squared Error with Mean Absolute Error and Root Mean Squared Error .

TensorFlow Playground uses Mean Squared Error to calculate loss values.

জাল

#টেনসরফ্লো
#GoogleCloud

In ML parallel programming, a term associated with assigning the data and model to TPU chips, and defining how these values will be sharded or replicated.

Mesh is an overloaded term that can mean either of the following:

  • A physical layout of TPU chips.
  • An abstract logical construct for mapping the data and model to the TPU chips.

In either case, a mesh is specified as a shape .

মেটা-লার্নিং

#language

A subset of machine learning that discovers or improves a learning algorithm. A meta-learning system can also aim to train a model to quickly learn a new task from a small amount of data or from experience gained in previous tasks. Meta-learning algorithms generally try to achieve the following:

  • Improve or learn hand-engineered features (such as an initializer or an optimizer).
  • Be more data-efficient and compute-efficient.
  • Improve generalization.

Meta-learning is related to few-shot learning .

মেট্রিক

#টেনসরফ্লো
#মেট্রিক

A statistic that you care about.

An objective is a metric that a machine learning system tries to optimize.

Metrics API (tf.metrics)

#মেট্রিক

A TensorFlow API for evaluating models. For example, tf.metrics.accuracy determines how often a model's predictions match labels.

মিনি-ব্যাচ

#মৌলিক

A small, randomly selected subset of a batch processed in one iteration . The batch size of a mini-batch is usually between 10 and 1,000 examples.

For example, suppose the entire training set (the full batch) consists of 1,000 examples. Further suppose that you set the batch size of each mini-batch to 20. Therefore, each iteration determines the loss on a random 20 of the 1,000 examples and then adjusts the weights and biases accordingly.

It is much more efficient to calculate the loss on a mini-batch than the loss on all the examples in the full batch.

আরও তথ্যের জন্য লিনিয়ার রিগ্রেশন: মেশিন লার্নিং ক্র্যাশ কোর্সে হাইপারপ্যারামিটার দেখুন।

mini-batch stochastic gradient descent

A gradient descent algorithm that uses mini-batches . In other words, mini-batch stochastic gradient descent estimates the gradient based on a small subset of the training data. Regular stochastic gradient descent uses a mini-batch of size 1.

minimax loss

#মেট্রিক

A loss function for generative adversarial networks , based on the cross-entropy between the distribution of generated data and real data.

Minimax loss is used in the first paper to describe generative adversarial networks.

See Loss Functions in the Generative Adversarial Networks course for more information.

minority class

#মৌলিক

The less common label in a class-imbalanced dataset . For example, given a dataset containing 99% negative labels and 1% positive labels, the positive labels are the minority class.

Contrast with majority class .

ডেটাসেটগুলি দেখুন: আরও তথ্যের জন্য মেশিন লার্নিং ক্র্যাশ কোর্সে ভারসাম্যহীন ডেটাসেটগুলি

mixture of experts

#language
#generativeAI

A scheme to increase neural network efficiency by using only a subset of its parameters (known as an expert ) to process a given input token or example . A gating network routes each input token or example to the proper expert(s).

For details, see either of the following papers:

এমএল

Abbreviation for machine learning .

এমএমআইটি

#language
#ছবি
#generativeAI

Abbreviation for multimodal instruction-tuned .

MNIST

#ছবি

A public-domain dataset compiled by LeCun, Cortes, and Burges containing 60,000 images, each image showing how a human manually wrote a particular digit from 0–9. Each image is stored as a 28x28 array of integers, where each integer is a grayscale value between 0 and 255, inclusive.

MNIST is a canonical dataset for machine learning, often used to test new machine learning approaches. For details, see The MNIST Database of Handwritten Digits .

পদ্ধতি

#language

A high-level data category. For example, numbers, text, images, video, and audio are five different modalities.

মডেল

#মৌলিক

In general, any mathematical construct that processes input data and returns output. Phrased differently, a model is the set of parameters and structure needed for a system to make predictions. In supervised machine learning , a model takes an example as input and infers a prediction as output. Within supervised machine learning, models differ somewhat. যেমন:

  • A linear regression model consists of a set of weights and a bias .
  • A neural network model consists of:
    • A set of hidden layers , each containing one or more neurons .
    • The weights and bias associated with each neuron.
  • A decision tree model consists of:
    • The shape of the tree; that is, the pattern in which the conditions and leaves are connected.
    • The conditions and leaves.

You can save, restore, or make copies of a model.

Unsupervised machine learning also generates models, typically a function that can map an input example to the most appropriate cluster .

model capacity

#মেট্রিক

The complexity of problems that a model can learn. The more complex the problems that a model can learn, the higher the model's capacity. A model's capacity typically increases with the number of model parameters. For a formal definition of classification model capacity, see VC dimension .

model cascading

#generativeAI

A system that picks the ideal model for a specific inference query.

Imagine a group of models, ranging from very large (lots of parameters ) to much smaller (far fewer parameters). Very large models consume more computational resources at inference time than smaller models. However, very large models can typically infer more complex requests than smaller models. Model cascading determines the complexity of the inference query and then picks the appropriate model to perform the inference. The main motivation for model cascading is to reduce inference costs by generally selecting smaller models, and only selecting a larger model for more complex queries.

Imagine that a small model runs on a phone and a larger version of that model runs on a remote server. Good model cascading reduces cost and latency by enabling the smaller model to handle simple requests and only calling the remote model to handle complex requests.

See also model router .

model parallelism

#language

A way of scaling training or inference that puts different parts of one model on different devices . Model parallelism enables models that are too big to fit on a single device.

To implement model parallelism, a system typically does the following:

  1. Shards (divides) the model into smaller parts.
  2. Distributes the training of those smaller parts across multiple processors. Each processor trains its own part of the model.
  3. Combines the results to create a single model.

Model parallelism slows training.

See also data parallelism .

model router

#generativeAI

The algorithm that determines the ideal model for inference in model cascading . A model router is itself typically a machine learning model that gradually learns how to pick the best model for a given input. However, a model router could sometimes be a simpler, non-machine learning algorithm.

মডেল প্রশিক্ষণ

The process of determining the best model .

MOE

#language
#ছবি
#generativeAI

Abbreviation for mixture of experts .

গতিবেগ

A sophisticated gradient descent algorithm in which a learning step depends not only on the derivative in the current step, but also on the derivatives of the step(s) that immediately preceded it. Momentum involves computing an exponentially weighted moving average of the gradients over time, analogous to momentum in physics. Momentum sometimes prevents learning from getting stuck in local minima.

এমটি

#generativeAI

Abbreviation for machine translation .

বহু-শ্রেণীর শ্রেণীবিভাগ

#মৌলিক

In supervised learning, a classification problem in which the dataset contains more than two classes of labels. For example, the labels in the Iris dataset must be one of the following three classes:

  • আইরিস সেটোসা
  • Iris virginica
  • আইরিস ভার্সিকলার

A model trained on the Iris dataset that predicts Iris type on new examples is performing multi-class classification.

In contrast, classification problems that distinguish between exactly two classes are binary classification models . For example, an email model that predicts either spam or not spam is a binary classification model.

In clustering problems, multi-class classification refers to more than two clusters.

See Neural networks: Multi-class classification in Machine Learning Crash Course for more information.

multi-class logistic regression

Using logistic regression in multi-class classification problems.

multi-head self-attention

#language

An extension of self-attention that applies the self-attention mechanism multiple times for each position in the input sequence.

Transformers introduced multi-head self-attention.

multimodal instruction-tuned

#language

An instruction-tuned model that can process input beyond text, such as images, video, and audio.

multimodal model

#language

A model whose inputs, outputs, or both include more than one modality . For example, consider a model that takes both an image and a text caption (two modalities) as features , and outputs a score indicating how appropriate the text caption is for the image. So, this model's inputs are multimodal and the output is unimodal.

multinomial classification

Synonym for multi-class classification .

মাল্টিনমিয়াল রিগ্রেশন

Synonym for multi-class logistic regression .

মাল্টিটাস্ক

A machine learning technique in which a single model is trained to perform multiple tasks .

Multitask models are created by training on data that is appropriate for each of the different tasks. This allows the model to learn to share information across the tasks, which helps the model learn more effectively.

A model trained for multiple tasks often has improved generalization abilities and can be more robust at handling different types of data.

এন

NaN trap

When one number in your model becomes a NaN during training, which causes many or all other numbers in your model to eventually become a NaN.

NaN is an abbreviation for N ot a N umber.

প্রাকৃতিক ভাষা প্রক্রিয়াকরণ

#language
The field of teaching computers to process what a user said or typed using linguistic rules. Almost all modern natural language processing relies on machine learning.

প্রাকৃতিক ভাষা বোঝা

#language

A subset of natural language processing that determines the intentions of something said or typed. Natural language understanding can go beyond natural language processing to consider complex aspects of language like context, sarcasm, and sentiment.

negative class

#মৌলিক
#মেট্রিক

In binary classification , one class is termed positive and the other is termed negative . The positive class is the thing or event that the model is testing for and the negative class is the other possibility. যেমন:

  • The negative class in a medical test might be "not tumor."
  • The negative class in an email classification model might be "not spam."

Contrast with positive class .

negative sampling

Synonym for candidate sampling .

নিউরাল আর্কিটেকচার সার্চ (NAS)

A technique for automatically designing the architecture of a neural network . NAS algorithms can reduce the amount of time and resources required to train a neural network.

NAS typically uses:

  • A search space, which is a set of possible architectures.
  • A fitness function, which is a measure of how well a particular architecture performs on a given task.

NAS algorithms often start with a small set of possible architectures and gradually expand the search space as the algorithm learns more about what architectures are effective. The fitness function is typically based on the performance of the architecture on a training set, and the algorithm is typically trained using a reinforcement learning technique.

NAS algorithms have proven effective in finding high-performing architectures for a variety of tasks, including image classification , text classification, and machine translation .

নিউরাল নেটওয়ার্ক

#মৌলিক

A model containing at least one hidden layer . A deep neural network is a type of neural network containing more than one hidden layer. For example, the following diagram shows a deep neural network containing two hidden layers.

A neural network with an input layer, two hidden layers, and an
          output layer.

Each neuron in a neural network connects to all of the nodes in the next layer. For example, in the preceding diagram, notice that each of the three neurons in the first hidden layer separately connect to both of the two neurons in the second hidden layer.

Neural networks implemented on computers are sometimes called artificial neural networks to differentiate them from neural networks found in brains and other nervous systems.

Some neural networks can mimic extremely complex nonlinear relationships between different features and the label.

See also convolutional neural network and recurrent neural network .

আরও তথ্যের জন্য মেশিন লার্নিং ক্র্যাশ কোর্সে নিউরাল নেটওয়ার্ক দেখুন।

নিউরন

#মৌলিক

In machine learning, a distinct unit within a hidden layer of a neural network . Each neuron performs the following two-step action:

  1. Calculates the weighted sum of input values multiplied by their corresponding weights.
  2. Passes the weighted sum as input to an activation function .

A neuron in the first hidden layer accepts inputs from the feature values in the input layer . A neuron in any hidden layer beyond the first accepts inputs from the neurons in the preceding hidden layer. For example, a neuron in the second hidden layer accepts inputs from the neurons in the first hidden layer.

The following illustration highlights two neurons and their inputs.

A neural network with an input layer, two hidden layers, and an           output layer. Two neurons are highlighted: one in the first           hidden layer and one in the second hidden layer. The highlighted           neuron in the first hidden layer receives inputs from both features           in the input layer. The highlighted neuron in the second hidden layer           receives inputs from each of the three neurons in the first hidden           স্তর

A neuron in a neural network mimics the behavior of neurons in brains and other parts of nervous systems.

এন-গ্রাম

#সেক
#language

An ordered sequence of N words. For example, truly madly is a 2-gram. Because order is relevant, madly truly is a different 2-gram than truly madly .

এন Name(s) for this kind of N-gram উদাহরণ
2 bigram or 2-gram to go, go to, eat lunch, eat dinner
3 trigram or 3-gram ate too much, happily ever after, the bell tolls
4 4-gram walk in the park, dust in the wind, the boy ate lentils

Many natural language understanding models rely on N-grams to predict the next word that the user will type or say. For example, suppose a user typed happily ever . An NLU model based on trigrams would likely predict that the user will next type the word after .

Contrast N-grams with bag of words , which are unordered sets of words.

আরও তথ্যের জন্য মেশিন লার্নিং ক্র্যাশ কোর্সে বড় ভাষার মডেলগুলি দেখুন।

এনএলপি

#language

Abbreviation for natural language processing .

এনএলইউ

#language

Abbreviation for natural language understanding .

node (decision tree)

#df

In a decision tree , any condition or leaf .

A decision tree with two conditions and three leaves.

See Decision Trees in the Decision Forests course for more information.

node (neural network)

#মৌলিক

A neuron in a hidden layer .

See Neural Networks in Machine Learning Crash Course for more information.

node (TensorFlow graph)

#টেনসরফ্লো

An operation in a TensorFlow graph .

গোলমাল

Broadly speaking, anything that obscures the signal in a dataset. Noise can be introduced into data in a variety of ways. যেমন:

  • Human raters make mistakes in labeling.
  • Humans and instruments mis-record or omit feature values.

non-binary condition

#df

A condition containing more than two possible outcomes. For example, the following non-binary condition contains three possible outcomes:

A condition (number_of_legs = ?) that leads to three possible           ফলাফল One outcome (number_of_legs = 8) leads to a leaf           named spider. A second outcome (number_of_legs = 4) leads to           a leaf named dog. A third outcome (number_of_legs = 2) leads to           a leaf named penguin.

আরও তথ্যের জন্য ডিসিশন ফরেস্ট কোর্সে শর্তের প্রকার দেখুন।

অরৈখিক

#মৌলিক

A relationship between two or more variables that can't be represented solely through addition and multiplication. A linear relationship can be represented as a line; a nonlinear relationship can't be represented as a line. For example, consider two models that each relate a single feature to a single label. The model on the left is linear and the model on the right is nonlinear:

দুটি প্লট। One plot is a line, so this is a linear relationship.           The other plot is a curve, so this is a nonlinear relationship.

See Neural networks: Nodes and hidden layers in Machine Learning Crash Course to experiment with different kinds of nonlinear functions.

অ-প্রতিক্রিয়া পক্ষপাত

#responsible

নির্বাচন পক্ষপাত দেখুন।

অস্থিরতা

#মৌলিক

A feature whose values change across one or more dimensions, usually time. For example, consider the following examples of nonstationarity:

  • The number of swimsuits sold at a particular store varies with the season.
  • The quantity of a particular fruit harvested in a particular region is zero for much of the year but large for a brief period.
  • Due to climate change, annual mean temperatures are shifting.

Contrast with stationarity .

no one right answer (NORA)

#language
#generativeAI

A prompt having multiple appropriate responses. For example, the following prompt has no one right answer:

Tell me a joke about elephants.

Evaluating no-one-right-answer prompts can be challenging.

নোরা

#language
#generativeAI

Abbreviation for no one right answer .

স্বাভাবিকীকরণ

#মৌলিক

Broadly speaking, the process of converting a variable's actual range of values into a standard range of values, such as:

  • -1 থেকে +1
  • 0 থেকে 1
  • Z-scores (roughly, -3 to +3)

For example, suppose the actual range of values of a certain feature is 800 to 2,400. As part of feature engineering , you could normalize the actual values down to a standard range, such as -1 to +1.

Normalization is a common task in feature engineering . Models usually train faster (and produce better predictions) when every numerical feature in the feature vector has roughly the same range.

See also Z-score normalization .

See Numerical Data: Normalization in Machine Learning Crash Course for more information.

novelty detection

The process of determining whether a new (novel) example comes from the same distribution as the training set . In other words, after training on the training set, novelty detection determines whether a new example (during inference or during additional training) is an outlier .

Contrast with outlier detection .

সংখ্যাসূচক তথ্য

#মৌলিক

Features represented as integers or real-valued numbers. For example, a house valuation model would probably represent the size of a house (in square feet or square meters) as numerical data. Representing a feature as numerical data indicates that the feature's values have a mathematical relationship to the label. That is, the number of square meters in a house probably has some mathematical relationship to the value of the house.

Not all integer data should be represented as numerical data. For example, postal codes in some parts of the world are integers; however, integer postal codes shouldn't be represented as numerical data in models. That's because a postal code of 20000 is not twice (or half) as potent as a postal code of 10000. Furthermore, although different postal codes do correlate to different real estate values, we can't assume that real estate values at postal code 20000 are twice as valuable as real estate values at postal code 10000. Postal codes should be represented as categorical data instead.

Numerical features are sometimes called continuous features .

See Working with numerical data in Machine Learning Crash Course for more information.

NumPy

An open-source math library that provides efficient array operations in Python. pandas is built on NumPy.

উদ্দেশ্য

#মেট্রিক

A metric that your algorithm is trying to optimize.

objective function

#মেট্রিক

The mathematical formula or metric that a model aims to optimize. For example, the objective function for linear regression is usually Mean Squared Loss . Therefore, when training a linear regression model, training aims to minimize Mean Squared Loss.

In some cases, the goal is to maximize the objective function. For example, if the objective function is accuracy, the goal is to maximize accuracy.

See also loss .

oblique condition

#df

In a decision tree , a condition that involves more than one feature . For example, if height and width are both features, then the following is an oblique condition:

  height > width

Contrast with axis-aligned condition .

আরও তথ্যের জন্য ডিসিশন ফরেস্ট কোর্সে শর্তের প্রকার দেখুন।

অফলাইন

#মৌলিক

Synonym for static .

offline inference

#মৌলিক

The process of a model generating a batch of predictions and then caching (saving) those predictions. Apps can then access the inferred prediction from the cache rather than rerunning the model.

For example, consider a model that generates local weather forecasts (predictions) once every four hours. After each model run, the system caches all the local weather forecasts. Weather apps retrieve the forecasts from the cache.

Offline inference is also called static inference .

Contrast with online inference .

আরও তথ্যের জন্য মেশিন লার্নিং ক্র্যাশ কোর্সে প্রোডাকশন এমএল সিস্টেম: স্ট্যাটিক বনাম গতিশীল অনুমান দেখুন।

এক-গরম এনকোডিং

#মৌলিক

Representing categorical data as a vector in which:

  • One element is set to 1.
  • All other elements are set to 0.

One-hot encoding is commonly used to represent strings or identifiers that have a finite set of possible values. For example, suppose a certain categorical feature named Scandinavia has five possible values:

  • "Denmark"
  • "সুইডেন"
  • "নরওয়ে"
  • "Finland"
  • "আইসল্যান্ড"

One-hot encoding could represent each of the five values as follows:

দেশ ভেক্টর
"Denmark" 1 0 0 0 0
"সুইডেন" 0 1 0 0 0
"নরওয়ে" 0 0 1 0 0
"Finland" 0 0 0 1 0
"আইসল্যান্ড" 0 0 0 0 1

Thanks to one-hot encoding, a model can learn different connections based on each of the five countries.

Representing a feature as numerical data is an alternative to one-hot encoding. Unfortunately, representing the Scandinavian countries numerically is not a good choice. For example, consider the following numeric representation:

  • "Denmark" is 0
  • "Sweden" is 1
  • "Norway" is 2
  • "Finland" is 3
  • "Iceland" is 4

With numeric encoding, a model would interpret the raw numbers mathematically and would try to train on those numbers. However, Iceland isn't actually twice as much (or half as much) of something as Norway, so the model would come to some strange conclusions.

See Categorical data: Vocabulary and one-hot encoding in Machine Learning Crash Course for more information.

one-shot learning

A machine learning approach, often used for object classification, designed to learn effective classification model from a single training example.

See also few-shot learning and zero-shot learning .

one-shot prompting

#language
#generativeAI

A prompt that contains one example demonstrating how the large language model should respond. For example, the following prompt contains one example showing a large language model how it should answer a query.

Parts of one prompt নোট
What is the official currency of the specified country? The question you want the LLM to answer.
France: EUR একটি উদাহরণ.
ভারত: The actual query.

Compare and contrast one-shot prompting with the following terms:

one-vs.-all

#মৌলিক

Given a classification problem with N classes, a solution consisting of N separate binary classifiers —one binary classifier for each possible outcome. For example, given a model that classifies examples as animal, vegetable, or mineral, a one-vs.-all solution would provide the following three separate binary classifiers:

  • animal versus not animal
  • vegetable versus not vegetable
  • mineral versus not mineral

অনলাইন

#মৌলিক

Synonym for dynamic .

online inference

#মৌলিক

Generating predictions on demand. For example, suppose an app passes input to a model and issues a request for a prediction. A system using online inference responds to the request by running the model (and returning the prediction to the app).

Contrast with offline inference .

আরও তথ্যের জন্য মেশিন লার্নিং ক্র্যাশ কোর্সে প্রোডাকশন এমএল সিস্টেম: স্ট্যাটিক বনাম গতিশীল অনুমান দেখুন।

operation (op)

#টেনসরফ্লো

In TensorFlow, any procedure that creates, manipulates, or destroys a Tensor . For example, a matrix multiply is an operation that takes two Tensors as input and generates one Tensor as output.

Optax

A gradient processing and optimization library for JAX . Optax facilitates research by providing building blocks that can be recombined in custom ways to optimize parametric models such as deep neural networks. Other goals include:

  • Providing readable, well-tested, efficient implementations of core components.
  • Improving productivity by making it possible to combine low level ingredients into custom optimizers (or other gradient processing components).
  • Accelerating adoption of new ideas by making it easy for anyone to contribute.

অপ্টিমাইজার

A specific implementation of the gradient descent algorithm. Popular optimizers include:

  • AdaGrad , which stands for ADAptive GRADient descent.
  • Adam, which stands for ADAptive with Momentum.

আউট-গ্রুপ একজাতীয়তা পক্ষপাত

#responsible

The tendency to see out-group members as more alike than in-group members when comparing attitudes, values, personality traits, and other characteristics. In-group refers to people you interact with regularly; out-group refers to people you don't interact with regularly. If you create a dataset by asking people to provide attributes about out-groups, those attributes may be less nuanced and more stereotyped than attributes that participants list for people in their in-group.

For example, Lilliputians might describe the houses of other Lilliputians in great detail, citing small differences in architectural styles, windows, doors, and sizes. However, the same Lilliputians might simply declare that Brobdingnagians all live in identical houses.

Out-group homogeneity bias is a form of group attribution bias .

See also in-group bias .

বহিরাগত সনাক্তকরণ

The process of identifying outliers in a training set .

Contrast with novelty detection .

বহিরাগত

Values distant from most other values. In machine learning, any of the following are outliers:

  • Input data whose values are more than roughly 3 standard deviations from the mean.
  • Weights with high absolute values.
  • Predicted values relatively far away from the actual values.

For example, suppose that widget-price is a feature of a certain model. Assume that the mean widget-price is 7 Euros with a standard deviation of 1 Euro. Examples containing a widget-price of 12 Euros or 2 Euros would therefore be considered outliers because each of those prices is five standard deviations from the mean.

Outliers are often caused by typos or other input mistakes. In other cases, outliers aren't mistakes; after all, values five standard deviations away from the mean are rare but hardly impossible.

Outliers often cause problems in model training. Clipping is one way of managing outliers.

See Working with numerical data in Machine Learning Crash Course for more information.

out-of-bag evaluation (OOB evaluation)

#df

A mechanism for evaluating the quality of a decision forest by testing each decision tree against the examples not used during training of that decision tree. For example, in the following diagram, notice that the system trains each decision tree on about two-thirds of the examples and then evaluates against the remaining one-third of the examples.

A decision forest consisting of three decision trees.
          One decision tree trains on two-thirds of the examples
          and then uses the remaining one-third for OOB evaluation.
          A second decision tree trains on a different two-thirds
          of the examples than the previous decision tree, and then
          uses a different one-third for OOB evaluation than the
          previous decision tree.

Out-of-bag evaluation is a computationally efficient and conservative approximation of the cross-validation mechanism. In cross-validation, one model is trained for each cross-validation round (for example, 10 models are trained in a 10-fold cross-validation). With OOB evaluation, a single model is trained. Because bagging withholds some data from each tree during training, OOB evaluation can use that data to approximate cross-validation.

See Out-of-bag evaluation in the Decision Forests course for more information.

আউটপুট স্তর

#মৌলিক

The "final" layer of a neural network. The output layer contains the prediction.

The following illustration shows a small deep neural network with an input layer, two hidden layers, and an output layer:

A neural network with one input layer, two hidden layers, and one           output layer. The input layer consists of two features. প্রথম           hidden layer consists of three neurons and the second hidden layer           consists of two neurons. The output layer consists of a single node.

ওভারফিটিং

#মৌলিক

Creating a model that matches the training data so closely that the model fails to make correct predictions on new data.

Regularization can reduce overfitting. Training on a large and diverse training set can also reduce overfitting.

See Overfitting in Machine Learning Crash Course for more information.

oversampling

Reusing the examples of a minority class in a class-imbalanced dataset in order to create a more balanced training set .

For example, consider a binary classification problem in which the ratio of the majority class to the minority class is 5,000:1. If the dataset contains a million examples, then the dataset contains only about 200 examples of the minority class, which might be too few examples for effective training. To overcome this deficiency, you might oversample (reuse) those 200 examples multiple times, possibly yielding sufficient examples for useful training.

You need to be careful about over overfitting when oversampling.

Contrast with undersampling .

পৃ

packed data

An approach for storing data more efficiently.

Packed data stores data either by using a compressed format or in some other way that allows it to be accessed more efficiently. Packed data minimizes the amount of memory and computation required to access it, leading to faster training and more efficient model inference.

Packed data is often used with other techniques, such as data augmentation and regularization , further improving the performance of models .

পান্ডা

#মৌলিক

A column-oriented data analysis API built on top of numpy . Many machine learning frameworks, including TensorFlow, support pandas data structures as inputs. See the pandas documentation for details.

প্যারামিটার

#মৌলিক

The weights and biases that a model learns during training . For example, in a linear regression model, the parameters consist of the bias ( b ) and all the weights ( w 1 , w 2 , and so on) in the following formula:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

In contrast, hyperparameters are the values that you (or a hyperparameter tuning service) supply to the model. For example, learning rate is a hyperparameter.

parameter-efficient tuning

#language
#generativeAI

A set of techniques to fine-tune a large pre-trained language model (PLM) more efficiently than full fine-tuning . Parameter-efficient tuning typically fine-tunes far fewer parameters than full fine-tuning, yet generally produces a large language model that performs as well (or almost as well) as a large language model built from full fine-tuning.

Compare and contrast parameter-efficient tuning with:

Parameter-efficient tuning is also known as parameter-efficient fine-tuning .

Parameter Server (PS)

#টেনসরফ্লো

A job that keeps track of a model's parameters in a distributed setting.

parameter update

The operation of adjusting a model's parameters during training, typically within a single iteration of gradient descent .

আংশিক ডেরিভেটিভ

A derivative in which all but one of the variables is considered a constant. For example, the partial derivative of f(x, y) with respect to x is the derivative of f considered as a function of x alone (that is, keeping y constant). The partial derivative of f with respect to x focuses only on how x is changing and ignores all other variables in the equation.

অংশগ্রহণের পক্ষপাতিত্ব

#responsible

Synonym for non-response bias. নির্বাচন পক্ষপাত দেখুন।

partitioning strategy

The algorithm by which variables are divided across parameter servers .

pass at k (pass@k)

#মেট্রিক

A metric to determine the quality of code (for example, Python) that a large language model generates. More specifically, pass at k tells you the likelihood that at least one generated block of code out of k generated blocks of code will pass all of its unit tests.

Large language models often struggle to generate good code for complex programming problems. Software engineers adapt to this problem by prompting the large language model to generate multiple ( k ) solutions for the same problem. Then, software engineers test each of the solutions against unit tests. The calculation of pass at k depends on the outcome of the unit tests:

  • If one or more of those solutions pass the unit test, then the LLM Passes that code generation challenge.
  • If none of the solutions pass the unit test, then the LLM Fails that code generation challenge.

The formula for pass at k is as follows:

\[\text{pass at k} = \frac{\text{total number of passes}} {\text{total number of challenges}}\]

In general, higher values of k produce higher pass at k scores; however, higher values of k require more large language model and unit testing resources.

প্যাক্স

A programming framework designed for training large-scale neural network models so large that they span multiple TPU accelerator chip slices or pods .

Pax is built on Flax , which is built on JAX .

Diagram indicating Pax's position in the software stack.           Pax is built on top of JAX. Pax itself consists of three           স্তর The bottom layer contains TensorStore and Flax.           The middle layer contains Optax and Flaxformer. শীর্ষ           layer contains Praxis Modeling Library. Fiddle is built           on top of Pax.

perceptron

A system (either hardware or software) that takes in one or more input values, runs a function on the weighted sum of the inputs, and computes a single output value. In machine learning, the function is typically nonlinear, such as ReLU , sigmoid , or tanh . For example, the following perceptron relies on the sigmoid function to process three input values:

$$f(x_1, x_2, x_3) = \text{sigmoid}(w_1 x_1 + w_2 x_2 + w_3 x_3)$$

In the following illustration, the perceptron takes three inputs, each of which is itself modified by a weight before entering the perceptron:

A perceptron that takes in 3 inputs, each multiplied by separate           ওজন The perceptron outputs a single value.

Perceptrons are the neurons in neural networks .

কর্মক্ষমতা

#মেট্রিক

Overloaded term with the following meanings:

  • The standard meaning within software engineering. Namely: How fast (or efficiently) does this piece of software run?
  • The meaning within machine learning. Here, performance answers the following question: How correct is this model ? That is, how good are the model's predictions?

permutation variable importances

#df
#মেট্রিক

A type of variable importance that evaluates the increase in the prediction error of a model after permuting the feature's values. Permutation variable importance is a model-independent metric.

বিভ্রান্তি

#মেট্রিক

One measure of how well a model is accomplishing its task. For example, suppose your task is to read the first few letters of a word a user is typing on a phone keyboard, and to offer a list of possible completion words. Perplexity, P, for this task is approximately the number of guesses you need to offer in order for your list to contain the actual word the user is trying to type.

Perplexity is related to cross-entropy as follows:

$$P= 2^{-\text{cross entropy}}$$

পাইপলাইন

The infrastructure surrounding a machine learning algorithm. A pipeline includes gathering the data, putting the data into training data files, training one or more models, and exporting the models to production.

See ML pipelines in the Managing ML Projects course for more information.

পাইপলাইন

#language

A form of model parallelism in which a model's processing is divided into consecutive stages and each stage is executed on a different device. While a stage is processing one batch, the preceding stage can work on the next batch.

See also staged training .

pjit

A JAX function that splits code to run across multiple accelerator chips . The user passes a function to pjit, which returns a function that has the equivalent semantics but is compiled into an XLA computation that runs across multiple devices (such as GPUs or TPU cores).

pjit enables users to shard computations without rewriting them by using the SPMD partitioner.

As of March 2023, pjit has been merged with jit . Refer to Distributed arrays and automatic parallelization for more details.

পিএলএম

#language
#generativeAI

Abbreviation for pre-trained language model .

pmap

A JAX function that executes copies of an input function on multiple underlying hardware devices (CPUs, GPUs, or TPUs ), with different input values. pmap relies on SPMD .

নীতি

#আরএল

In reinforcement learning, an agent's probabilistic mapping from states to actions .

পুলিং

#ছবি

Reducing a matrix (or matrixes) created by an earlier convolutional layer to a smaller matrix. Pooling usually involves taking either the maximum or average value across the pooled area. For example, suppose we have the following 3x3 matrix:

The 3x3 matrix [[5,3,1], [8,2,5], [9,4,3]].

A pooling operation, just like a convolutional operation, divides that matrix into slices and then slides that convolutional operation by strides . For example, suppose the pooling operation divides the convolutional matrix into 2x2 slices with a 1x1 stride. As the following diagram illustrates, four pooling operations take place. Imagine that each pooling operation picks the maximum value of the four in that slice:

The input matrix is 3x3 with the values: [[5,3,1], [8,2,5], [9,4,3]].
          The top-left 2x2 submatrix of the input matrix is [[5,3], [8,2]], so
          the top-left pooling operation yields the value 8 (which is the
          maximum of 5, 3, 8, and 2). The top-right 2x2 submatrix of the input
          matrix is [[3,1], [2,5]], so the top-right pooling operation yields
          the value 5. The bottom-left 2x2 submatrix of the input matrix is
          [[8,2], [9,4]], so the bottom-left pooling operation yields the value
          9. The bottom-right 2x2 submatrix of the input matrix is
          [[2,5], [4,3]], so the bottom-right pooling operation yields the value
          5. In summary, the pooling operation yields the 2x2 matrix
          [[8,5], [9,5]].

Pooling helps enforce translational invariance in the input matrix.

Pooling for vision applications is known more formally as spatial pooling . Time-series applications usually refer to pooling as temporal pooling . Less formally, pooling is often called subsampling or downsampling .

See Introducing Convolutional Neural Networks in the ML Practicum: Image Classification course.

positional encoding

#language

A technique to add information about the position of a token in a sequence to the token's embedding. Transformer models use positional encoding to better understand the relationship between different parts of the sequence.

A common implementation of positional encoding uses a sinusoidal function. (Specifically, the frequency and amplitude of the sinusoidal function are determined by the position of the token in the sequence.) This technique enables a Transformer model to learn to attend to different parts of the sequence based on their position.

positive class

#মৌলিক
#মেট্রিক

The class you are testing for.

For example, the positive class in a cancer model might be "tumor." The positive class in an email classification model might be "spam."

Contrast with negative class .

পোস্ট-প্রসেসিং

#responsible
#মৌলিক

Adjusting the output of a model after the model has been run. Post-processing can be used to enforce fairness constraints without modifying models themselves.

For example, one might apply post-processing to a binary classifier by setting a classification threshold such that equality of opportunity is maintained for some attribute by checking that the true positive rate is the same for all values of that attribute.

post-trained model

#language
#ছবি
#generativeAI

Loosely-defined term that typically refers to a pre-trained model that has gone through some post-processing, such as one or more of the following:

PR AUC (area under the PR curve)

#মেট্রিক

Area under the interpolated precision-recall curve , obtained by plotting (recall, precision) points for different values of the classification threshold .

প্র্যাক্সিস

A core, high-performance ML library of Pax . Praxis is often called the "Layer library".

Praxis contains not just the definitions for the Layer class, but most of its supporting components as well, including:

Praxis provides the definitions for the Model class.

নির্ভুলতা

#মেট্রিক

A metric for classification models that answers the following question:

When the model predicted the positive class , what percentage of the predictions were correct?

এখানে সূত্র আছে:

$$\text{Precision} = \frac{\text{true positives}} {\text{true positives} + \text{false positives}}$$

কোথায়:

  • true positive means the model correctly predicted the positive class.
  • false positive means the model mistakenly predicted the positive class.

For example, suppose a model made 200 positive predictions. Of these 200 positive predictions:

  • 150 were true positives.
  • 50 were false positives.

এই ক্ষেত্রে:

$$\text{Precision} = \frac{\text{150}} {\text{150} + \text{50}} = 0.75$$

Contrast with accuracy and recall .

আরও তথ্যের জন্য মেশিন লার্নিং ক্র্যাশ কোর্সে শ্রেণিবিন্যাস: যথার্থতা, স্মরণ, নির্ভুলতা এবং সম্পর্কিত মেট্রিক্স দেখুন।

precision at k (precision@k)

#language
#মেট্রিক

A metric for evaluating a ranked (ordered) list of items. Precision at k identifies the fraction of the first k items in that list that are "relevant." অর্থাৎ:

\[\text{precision at k} = \frac{\text{relevant items in first k items of the list}} {\text{k}}\]

The value of k must be less than or equal to the length of the returned list. Note that the length of the returned list is not part of the calculation.

Relevance is often subjective; even expert human evaluators often disagree on which items are relevant.

এর সাথে তুলনা করুন:

নির্ভুলতা-রিকল বক্ররেখা

#মেট্রিক

A curve of precision versus recall at different classification thresholds .

ভবিষ্যদ্বাণী

#মৌলিক

A model's output. যেমন:

  • The prediction of a binary classification model is either the positive class or the negative class.
  • The prediction of a multi-class classification model is one class.
  • The prediction of a linear regression model is a number.

prediction bias

#মেট্রিক

A value indicating how far apart the average of predictions is from the average of labels in the dataset.

Not to be confused with the bias term in machine learning models or with bias in ethics and fairness .

predictive ML

Any standard ("classic") machine learning system.

The term predictive ML doesn't have a formal definition. Rather, the term distinguishes a category of ML systems not based on generative AI .

predictive parity

#responsible
#মেট্রিক

A fairness metric that checks whether, for a given classifier, the precision rates are equivalent for subgroups under consideration.

For example, a model that predicts college acceptance would satisfy predictive parity for nationality if its precision rate is the same for Lilliputians and Brobdingnagians.

Predictive parity is sometime also called predictive rate parity .

See "Fairness Definitions Explained" (section 3.2.1) for a more detailed discussion of predictive parity.

predictive rate parity

#responsible
#মেট্রিক

Another name for predictive parity .

প্রিপ্রসেসিং

#responsible
Processing data before it's used to train a model. Preprocessing could be as simple as removing words from an English text corpus that don't occur in the English dictionary, or could be as complex as re-expressing data points in a way that eliminates as many attributes that are correlated with sensitive attributes as possible. Preprocessing can help satisfy fairness constraints .

pre-trained model

#language
#ছবি
#generativeAI

Typically, a model that has already been trained . The term could also mean a previously trained embedding vector .

The term pre-trained language model usually refers to an already trained large language model .

প্রাক-প্রশিক্ষণ

#language
#ছবি
#generativeAI

The initial training of a model on a large dataset. Some pre-trained models are clumsy giants and must typically be refined through additional training. For example, ML experts might pre-train a large language model on a vast text dataset, such as all the English pages in Wikipedia. Following pre-training, the resulting model might be further refined through any of the following techniques:

prior belief

What you believe about the data before you begin training on it. For example, L 2 regularization relies on a prior belief that weights should be small and normally distributed around zero.

probabilistic regression model

A regression model that uses not only the weights for each feature , but also the uncertainty of those weights. A probabilistic regression model generates a prediction and the uncertainty of that prediction. For example, a probabilistic regression model might yield a prediction of 325 with a standard deviation of 12. For more information about probabilistic regression models, see this Colab on tensorflow.org .

সম্ভাবনা ঘনত্ব ফাংশন

#মেট্রিক

A function that identifies the frequency of data samples having exactly a particular value. When a dataset's values are continuous floating-point numbers, exact matches rarely occur. However, integrating a probability density function from value x to value y yields the expected frequency of data samples between x and y .

For example, consider a normal distribution having a mean of 200 and a standard deviation of 30. To determine the expected frequency of data samples falling within the range 211.4 to 218.7, you can integrate the probability density function for a normal distribution from 211.4 to 218.7.

প্রম্পট

#language
#generativeAI

Any text entered as input to a large language model to condition the model to behave in a certain way. Prompts can be as short as a phrase or arbitrarily long (for example, the entire text of a novel). Prompts fall into multiple categories, including those shown in the following table:

Prompt category উদাহরণ নোট
প্রশ্ন How fast can a pigeon fly?
নির্দেশ Write a funny poem about arbitrage. A prompt that asks the large language model to do something.
উদাহরণ Translate Markdown code to HTML. যেমন:
Markdown: * list item
HTML: <ul> <li>list item</li> </ul>
The first sentence in this example prompt is an instruction. The remainder of the prompt is the example.
ভূমিকা Explain why gradient descent is used in machine learning training to a PhD in Physics. The first part of the sentence is an instruction; the phrase "to a PhD in Physics" is the role portion.
Partial input for the model to complete The Prime Minister of the United Kingdom lives at A partial input prompt can either end abruptly (as this example does) or end with an underscore.

A generative AI model can respond to a prompt with text, code, images, embeddings , videos…almost anything.

প্রম্পট-ভিত্তিক শেখা

#language
#generativeAI

A capability of certain models that enables them to adapt their behavior in response to arbitrary text input ( prompts ). In a typical prompt-based learning paradigm, a large language model responds to a prompt by generating text. For example, suppose a user enters the following prompt:

Summarize Newton's Third Law of Motion.

A model capable of prompt-based learning isn't specifically trained to answer the previous prompt. Rather, the model "knows" a lot of facts about physics, a lot about general language rules, and a lot about what constitutes generally useful answers. That knowledge is sufficient to provide a (hopefully) useful answer. Additional human feedback ("That answer was too complicated." or "What's a reaction?") enables some prompt-based learning systems to gradually improve the usefulness of their answers.

prompt design

#language
#generativeAI

Synonym for prompt engineering .

প্রম্পট ইঞ্জিনিয়ারিং

#language
#generativeAI

The art of creating prompts that elicit the desired responses from a large language model . Humans perform prompt engineering. Writing well-structured prompts is an essential part of ensuring useful responses from a large language model. Prompt engineering depends on many factors, including:

  • The dataset used to pre-train and possibly fine-tune the large language model.
  • The temperature and other decoding parameters that the model uses to generate responses.

Prompt design is a synonym for prompt engineering.

See Introduction to prompt design for more details on writing helpful prompts.

prompt tuning

#language
#generativeAI

A parameter efficient tuning mechanism that learns a "prefix" that the system prepends to the actual prompt .

One variation of prompt tuning—sometimes called prefix tuning —is to prepend the prefix at every layer . In contrast, most prompt tuning only adds a prefix to the input layer .

proxy (sensitive attributes)

#responsible
An attribute used as a stand-in for a sensitive attribute . For example, an individual's postal code might be used as a proxy for their income, race, or ethnicity.

proxy labels

#মৌলিক

Data used to approximate labels not directly available in a dataset.

For example, suppose you must train a model to predict employee stress level. Your dataset contains a lot of predictive features but doesn't contain a label named stress level. Undaunted, you pick "workplace accidents" as a proxy label for stress level. After all, employees under high stress get into more accidents than calm employees. নাকি তারা করে? Maybe workplace accidents actually rise and fall for multiple reasons.

As a second example, suppose you want is it raining? to be a Boolean label for your dataset, but your dataset doesn't contain rain data. If photographs are available, you might establish pictures of people carrying umbrellas as a proxy label for is it raining? Is that a good proxy label? Possibly, but people in some cultures may be more likely to carry umbrellas to protect against sun than the rain.

Proxy labels are often imperfect. When possible, choose actual labels over proxy labels. That said, when an actual label is absent, pick the proxy label very carefully, choosing the least horrible proxy label candidate.

See Datasets: Labels in Machine Learning Crash Course for more information.

বিশুদ্ধ ফাংশন

A function whose outputs are based only on its inputs, and that has no side effects. Specifically, a pure function doesn't use or change any global state, such as the contents of a file or the value of a variable outside the function.

Pure functions can be used to create thread-safe code, which is beneficial when sharding model code across multiple accelerator chips .

JAX's function transformation methods require that the input functions are pure functions.

প্র

Q-function

#আরএল

In reinforcement learning , the function that predicts the expected return from taking an action in a state and then following a given policy .

Q-function is also known as state-action value function .

প্রশ্ন-শিক্ষা

#আরএল

In reinforcement learning , an algorithm that allows an agent to learn the optimal Q-function of a Markov decision process by applying the Bellman equation . The Markov decision process models an environment .

পরিমাণ

Each bucket in quantile bucketing .

quantile bucketing

Distributing a feature's values into buckets so that each bucket contains the same (or almost the same) number of examples. For example, the following figure divides 44 points into 4 buckets, each of which contains 11 points. In order for each bucket in the figure to contain the same number of points, some buckets span a different width of x-values.

44 data points divided into 4 buckets of 11 points each.           Although each bucket contains the same number of data points,           some buckets contain a wider range of feature values than other           বালতি

আরও তথ্যের জন্য সংখ্যাসূচক ডেটা দেখুন: মেশিন লার্নিং ক্র্যাশ কোর্সে বিনিং

পরিমাপ

Overloaded term that could be used in any of the following ways:

  • Implementing quantile bucketing on a particular feature .
  • Transforming data into zeroes and ones for quicker storing, training, and inferring. As Boolean data is more robust to noise and errors than other formats, quantization can improve model correctness. Quantization techniques include rounding, truncating, and binning .
  • Reducing the number of bits used to store a model's parameters . For example, suppose a model's parameters are stored as 32-bit floating-point numbers. Quantization converts those parameters from 32 bits down to 4, 8, or 16 bits. Quantization reduces the following:

    • Compute, memory, disk, and network usage
    • Time to infer a predication
    • শক্তি খরচ

    However, quantization sometimes decreases the correctness of a model's predictions.

সারি

#টেনসরফ্লো

A TensorFlow Operation that implements a queue data structure. Typically used in I/O.

আর

RAG

#মৌলিক

Abbreviation for retrieval-augmented generation .

এলোমেলো বন

#df

An ensemble of decision trees in which each decision tree is trained with a specific random noise, such as bagging .

Random forests are a type of decision forest .

See Random Forest in the Decision Forests course for more information.

random policy

#আরএল

In reinforcement learning , a policy that chooses an action at random.

rank (ordinality)

The ordinal position of a class in a machine learning problem that categorizes classes from highest to lowest. For example, a behavior ranking system could rank a dog's rewards from highest (a steak) to lowest (wilted kale).

rank (Tensor)

#টেনসরফ্লো

The number of dimensions in a Tensor . For example, a scalar has rank 0, a vector has rank 1, and a matrix has rank 2.

Not to be confused with rank (ordinality) .

র‍্যাঙ্কিং

A type of supervised learning whose objective is to order a list of items.

রেটার

#মৌলিক

A human who provides labels for examples . "Annotator" is another name for rater.

See Categorical data: Common issues in Machine Learning Crash Course for more information.

প্রত্যাহার

#মেট্রিক

A metric for classification models that answers the following question:

When ground truth was the positive class , what percentage of predictions did the model correctly identify as the positive class?

এখানে সূত্র আছে:

\[\text{Recall} = \frac{\text{true positives}} {\text{true positives} + \text{false negatives}} \]

কোথায়:

  • true positive means the model correctly predicted the positive class.
  • false negative means that the model mistakenly predicted the negative class .

For instance, suppose your model made 200 predictions on examples for which ground truth was the positive class. Of these 200 predictions:

  • 180 were true positives.
  • 20 were false negatives.

এই ক্ষেত্রে:

\[\text{Recall} = \frac{\text{180}} {\text{180} + \text{20}} = 0.9 \]

See Classification: Accuracy, recall, precision and related metrics for more information.

recall at k (recall@k)

#language
#মেট্রিক

A metric for evaluating systems that output a ranked (ordered) list of items. Recall at k identifies the fraction of relevant items in the first k items in that list out of the total number of relevant items returned.

\[\text{recall at k} = \frac{\text{relevant items in first k items of the list}} {\text{total number of relevant items in the list}}\]

Contrast with precision at k .

সুপারিশ সিস্টেম

#রিসিস্টেম

A system that selects for each user a relatively small set of desirable items from a large corpus. For example, a video recommendation system might recommend two videos from a corpus of 100,000 videos, selecting Casablanca and The Philadelphia Story for one user, and Wonder Woman and Black Panther for another. A video recommendation system might base its recommendations on factors such as:

  • Movies that similar users have rated or watched.
  • Genre, directors, actors, target demographic...

See the Recommendation Systems course for more information.

সংশোধনকৃত লিনিয়ার ইউনিট (ReLU)

#মৌলিক

An activation function with the following behavior:

  • If input is negative or zero, then the output is 0.
  • If input is positive, then the output is equal to the input.

যেমন:

  • If the input is -3, then the output is 0.
  • If the input is +3, then the output is 3.0.

Here is a plot of ReLU:

দুটি লাইনের একটি কার্টেসিয়ান প্লট। প্রথম লাইনে একটি ধ্রুবক আছে           0 এর y মান, x-অক্ষ বরাবর -ইনফিনিটি,0 থেকে 0,-0 পর্যন্ত চলছে।           দ্বিতীয় লাইন 0,0 এ শুরু হয়। এই লাইনে +1 এর ঢাল আছে, তাই           এটি 0,0 থেকে +ইনফিনিটি,+ইনফিনিটি পর্যন্ত চলে।

ReLU is a very popular activation function. Despite its simple behavior, ReLU still enables a neural network to learn nonlinear relationships between features and the label .

পুনরাবৃত্ত নিউরাল নেটওয়ার্ক

#সেক

A neural network that is intentionally run multiple times, where parts of each run feed into the next run. Specifically, hidden layers from the previous run provide part of the input to the same hidden layer in the next run. Recurrent neural networks are particularly useful for evaluating sequences, so that the hidden layers can learn from previous runs of the neural network on earlier parts of the sequence.

For example, the following figure shows a recurrent neural network that runs four times. Notice that the values learned in the hidden layers from the first run become part of the input to the same hidden layers in the second run. Similarly, the values learned in the hidden layer on the second run become part of the input to the same hidden layer in the third run. In this way, the recurrent neural network gradually trains and predicts the meaning of the entire sequence rather than just the meaning of individual words.

An RNN that runs four times to process four input words.

reference text

#language
#generativeAI

An expert's response to a prompt . For example, given the following prompt:

Translate the question "What is your name?" from English to French.

An expert's response might be:

মন্তব্য vous applez-vous?

Various metrics (such as ROUGE ) measure the degree to which the reference text matches an ML model's generated text .

regression model

#মৌলিক

Informally, a model that generates a numerical prediction. (In contrast, a classification model generates a class prediction.) For example, the following are all regression models:

  • A model that predicts a certain house's value in Euros, such as 423,000.
  • A model that predicts a certain tree's life expectancy in years, such as 23.2.
  • A model that predicts the amount of rain in inches that will fall in a certain city over the next six hours, such as 0.18.

Two common types of regression models are:

  • Linear regression , which finds the line that best fits label values to features.
  • Logistic regression , which generates a probability between 0.0 and 1.0 that a system typically then maps to a class prediction.

Not every model that outputs numerical predictions is a regression model. In some cases, a numeric prediction is really just a classification model that happens to have numeric class names. For example, a model that predicts a numeric postal code is a classification model, not a regression model.

নিয়মিতকরণ

#মৌলিক

Any mechanism that reduces overfitting . Popular types of regularization include:

Regularization can also be defined as the penalty on a model's complexity.

See Overfitting: Model complexity in Machine Learning Crash Course for more information.

regularization rate

#মৌলিক

A number that specifies the relative importance of regularization during training. Raising the regularization rate reduces overfitting but may reduce the model's predictive power. Conversely, reducing or omitting the regularization rate increases overfitting.

See Overfitting: L2 regularization in Machine Learning Crash Course for more information.

reinforcement learning (RL)

#আরএল

A family of algorithms that learn an optimal policy , whose goal is to maximize return when interacting with an environment . For example, the ultimate reward of most games is victory. Reinforcement learning systems can become expert at playing complex games by evaluating sequences of previous game moves that ultimately led to wins and sequences that ultimately led to losses.

হিউম্যান ফিডব্যাক থেকে রিইনফোর্সমেন্ট লার্নিং (RLHF)

#generativeAI
#আরএল

Using feedback from human raters to improve the quality of a model's responses. For example, an RLHF mechanism can ask users to rate the quality of a model's response with a 👍 or 👎 emoji. The system can then adjust its future responses based on that feedback.

ReLU

#মৌলিক

Abbreviation for Rectified Linear Unit .

replay buffer

#আরএল

In DQN -like algorithms, the memory used by the agent to store state transitions for use in experience replay .

প্রতিরূপ

A copy of the training set or model , typically on another machine. For example, a system could use the following strategy for implementing data parallelism :

  1. Place replicas of an existing model on multiple machines.
  2. Send different subsets of the training set to each replica.
  3. Aggregate the parameter updates.

রিপোর্টিং পক্ষপাত

#responsible

The fact that the frequency with which people write about actions, outcomes, or properties is not a reflection of their real-world frequencies or the degree to which a property is characteristic of a class of individuals. Reporting bias can influence the composition of data that machine learning systems learn from.

For example, in books, the word laughed is more prevalent than breathed . A machine learning model that estimates the relative frequency of laughing and breathing from a book corpus would probably determine that laughing is more common than breathing.

আরও তথ্যের জন্য মেশিন লার্নিং ক্র্যাশ কোর্সে ন্যায্যতা: পক্ষপাতের প্রকারগুলি দেখুন।

প্রতিনিধিত্ব

The process of mapping data to useful features .

পুনরায় র‌্যাঙ্কিং

#রিসিস্টেম

The final stage of a recommendation system , during which scored items may be re-graded according to some other (typically, non-ML) algorithm. Re-ranking evaluates the list of items generated by the scoring phase, taking actions such as:

  • Eliminating items that the user has already purchased.
  • Boosting the score of fresher items.

See Re-ranking in the Recommendation Systems course for more information.

পুনরুদ্ধার-বর্ধিত প্রজন্ম (RAG)

#মৌলিক

A technique for improving the quality of large language model (LLM) output by grounding it with sources of knowledge retrieved after the model was trained. RAG improves the accuracy of LLM responses by providing the trained LLM with access to information retrieved from trusted knowledge bases or documents.

Common motivations to use retrieval-augmented generation include:

  • Increasing the factual accuracy of a model's generated responses.
  • Giving the model access to knowledge it was not trained on.
  • Changing the knowledge that the model uses.
  • Enabling the model to cite sources.

For example, suppose that a chemistry app uses the PaLM API to generate summaries related to user queries. When the app's backend receives a query, the backend:

  1. Searches for ("retrieves") data that's relevant to the user's query.
  2. Appends ("augments") the relevant chemistry data to the user's query.
  3. Instructs the LLM to create a summary based on the appended data.

ফিরে

#আরএল

In reinforcement learning, given a certain policy and a certain state, the return is the sum of all rewards that the agent expects to receive when following the policy from the state to the end of the episode . The agent accounts for the delayed nature of expected rewards by discounting rewards according to the state transitions required to obtain the reward.

Therefore, if the discount factor is \(\gamma\), এবং \(r_0, \ldots, r_{N}\)denote the rewards until the end of the episode, then the return calculation is as follows:

$$\text{Return} = r_0 + \gamma r_1 + \gamma^2 r_2 + \ldots + \gamma^{N-1} r_{N-1}$$

পুরস্কার

#আরএল

In reinforcement learning, the numerical result of taking an action in a state , as defined by the environment .

ridge regularization

Synonym for L 2 regularization . The term ridge regularization is more frequently used in pure statistics contexts, whereas L 2 regularization is used more often in machine learning.

আরএনএন

#সেক

Abbreviation for recurrent neural networks .

ROC (receiver operating characteristic) Curve

#মৌলিক
#মেট্রিক

A graph of true positive rate versus false positive rate for different classification thresholds in binary classification.

The shape of an ROC curve suggests a binary classification model's ability to separate positive classes from negative classes. Suppose, for example, that a binary classification model perfectly separates all the negative classes from all the positive classes:

A number line with 8 positive examples on the right side and
          7 negative examples on the left.

The ROC curve for the preceding model looks as follows:

An ROC curve. The x-axis is False Positive Rate and the y-axis           is True Positive Rate. The curve has an inverted L shape. বক্ররেখা           starts at (0.0,0.0) and goes straight up to (0.0,1.0). Then the curve           goes from (0.0,1.0) to (1.0,1.0).

In contrast, the following illustration graphs the raw logistic regression values for a terrible model that can't separate negative classes from positive classes at all:

A number line with positive examples and negative classes
          completely intermixed.

The ROC curve for this model looks as follows:

An ROC curve, which is actually a straight line from (0.0,0.0)
          to (1.0,1.0).

Meanwhile, back in the real world, most binary classification models separate positive and negative classes to some degree, but usually not perfectly. So, a typical ROC curve falls somewhere between the two extremes:

An ROC curve. The x-axis is False Positive Rate and the y-axis
          is True Positive Rate. The ROC curve approximates a shaky arc
          traversing the compass points from West to North.

The point on an ROC curve closest to (0.0,1.0) theoretically identifies the ideal classification threshold. However, several other real-world issues influence the selection of the ideal classification threshold. For example, perhaps false negatives cause far more pain than false positives.

A numerical metric called AUC summarizes the ROC curve into a single floating-point value.

role prompting

#language
#generativeAI

An optional part of a prompt that identifies a target audience for a generative AI model's response. Without a role prompt, a large language model provides an answer that may or may not be useful for the person asking the questions. With a role prompt, a large language model can answer in a way that's more appropriate and more helpful for a specific target audience. For example, the role prompt portion of the following prompts are in boldface:

  • Summarize this document for a PhD in economics .
  • Describe how tides work for a ten-year old .
  • Explain the 2008 financial crisis. Speak as you might to a young child, or a golden retriever.

মূল

#df

The starting node (the first condition ) in a decision tree . By convention, diagrams put the root at the top of the decision tree. যেমন:

A decision tree with two conditions and three leaves. দ           starting condition (x > 2) is the root.

root directory

#টেনসরফ্লো

The directory you specify for hosting subdirectories of the TensorFlow checkpoint and events files of multiple models.

রুট গড় বর্গাকার ত্রুটি (RMSE)

#মৌলিক
#মেট্রিক

The square root of the Mean Squared Error .

ঘূর্ণনশীল পরিবর্তন

#ছবি

In an image classification problem, an algorithm's ability to successfully classify images even when the orientation of the image changes. For example, the algorithm can still identify a tennis racket whether it is pointing up, sideways, or down. Note that rotational invariance is not always desirable; for example, an upside-down 9 shouldn't be classified as a 9.

See also translational invariance and size invariance .

ROUGE (Recall-Oriented Understudy for Gisting Evaluation)

#language
#মেট্রিক

A family of metrics that evaluate automatic summarization and machine translation models. ROUGE metrics determine the degree to which a reference text overlaps an ML model's generated text . Each member of the ROUGE family measures overlap in a different way. Higher ROUGE scores indicate more similarity between the reference text and generated text than lower ROUGE scores.

Each ROUGE family member typically generates the following metrics:

  • যথার্থতা
  • স্মরণ করুন

For details and examples, see:

রুজ-এল

#language
#মেট্রিক

A member of the ROUGE family focused on the length of the longest common subsequence in the reference text and generated text . The following formulas calculate recall and precision for ROUGE-L:

$$\text{ROUGE-L recall} = \frac{\text{longest common sequence}} {\text{number of words in the reference text} }$$
$$\text{ROUGE-L precision} = \frac{\text{longest common sequence}} {\text{number of words in the generated text} }$$

You can then use F 1 to roll up ROUGE-L recall and ROUGE-L precision into a single metric:

$$\text{ROUGE-L F} {_1} = \frac{\text{2} * \text{ROUGE-L recall} * \text{ROUGE-L precision}} {\text{ROUGE-L recall} + \text{ROUGE-L precision} }$$

ROUGE-L ignores any newlines in the reference text and generated text, so the longest common subsequence could cross multiple sentences. When the reference text and generated text involve multiple sentences, a variation of ROUGE-L called ROUGE-Lsum is generally a better metric. ROUGE-Lsum determines the longest common subsequence for each sentence in a passage and then calculates the mean of those longest common subsequences.

রুজ-এন

#language
#মেট্রিক

A set of metrics within the ROUGE family that compares the shared N-grams of a certain size in the reference text and generated text . যেমন:

  • ROUGE-1 measures the number of shared tokens in the reference text and generated text.
  • ROUGE-2 measures the number of shared bigrams (2-grams) in the reference text and generated text.
  • ROUGE-3 measures the number of shared trigrams (3-grams) in the reference text and generated text.

You can use the following formulas to calculate ROUGE-N recall and ROUGE-N precision for any member of the ROUGE-N family:

$$\text{ROUGE-N recall} = \frac{\text{number of matching N-grams}} {\text{number of N-grams in the reference text} }$$
$$\text{ROUGE-N precision} = \frac{\text{number of matching N-grams}} {\text{number of N-grams in the generated text} }$$

You can then use F 1 to roll up ROUGE-N recall and ROUGE-N precision into a single metric:

$$\text{ROUGE-N F}{_1} = \frac{\text{2} * \text{ROUGE-N recall} * \text{ROUGE-N precision}} {\text{ROUGE-N recall} + \text{ROUGE-N precision} }$$

রুজ-এস

#language
#মেট্রিক

A forgiving form of ROUGE-N that enables skip-gram matching. That is, ROUGE-N only counts N-grams that match exactly , but ROUGE-S also counts N-grams separated by one or more words. উদাহরণস্বরূপ, নিম্নলিখিত বিবেচনা করুন:

When calculating ROUGE-N, the 2-gram, White clouds doesn't match White billowing clouds . However, when calculating ROUGE-S, White clouds does match White billowing clouds .

আর-বর্গীয়

#মেট্রিক

A regression metric indicating how much variation in a label is due to an individual feature or to a feature set. R-squared is a value between 0 and 1, which you can interpret as follows:

  • An R-squared of 0 means that none of a label's variation is due to the feature set.
  • An R-squared of 1 means that all of a label's variation is due to the feature set.
  • An R-squared between 0 and 1 indicates the extent to which the label's variation can be predicted from a particular feature or the feature set. For example, an R-squared of 0.10 means that 10 percent of the variance in the label is due to the feature set, an R-squared of 0.20 means that 20 percent is due to the feature set, and so on.

R-squared is the square of the Pearson correlation coefficient between the values that a model predicted and ground truth .

এস

স্যাম্পলিং পক্ষপাত

#responsible

নির্বাচন পক্ষপাত দেখুন।

sampling with replacement

#df

A method of picking items from a set of candidate items in which the same item can be picked multiple times. The phrase "with replacement" means that after each selection, the selected item is returned to the pool of candidate items. The inverse method, sampling without replacement , means that a candidate item can only be picked once.

For example, consider the following fruit set:

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

Suppose that the system randomly picks fig as the first item. If using sampling with replacement, then the system picks the second item from the following set:

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

Yes, that's the same set as before, so the system could potentially pick fig again.

If using sampling without replacement, once picked, a sample can't be picked again. For example, if the system randomly picks fig as the first sample, then fig can't be picked again. Therefore, the system picks the second sample from the following (reduced) set:

fruit = {kiwi, apple, pear, cherry, lime, mango}

SavedModel

#টেনসরফ্লো

The recommended format for saving and recovering TensorFlow models. SavedModel is a language-neutral, recoverable serialization format, which enables higher-level systems and tools to produce, consume, and transform TensorFlow models.

See the Saving and Restoring section of the TensorFlow Programmer's Guide for complete details.

সেভার

#টেনসরফ্লো

A TensorFlow object responsible for saving model checkpoints.

স্কেলার

A single number or a single string that can be represented as a tensor of rank 0. For example, the following lines of code each create one scalar in TensorFlow:

breed = tf.Variable("poodle", tf.string)
temperature = tf.Variable(27, tf.int16)
precision = tf.Variable(0.982375101275, tf.float64)

স্কেলিং

Any mathematical transform or technique that shifts the range of a label, a feature value, or both. Some forms of scaling are very useful for transformations like normalization .

Common forms of scaling useful in Machine Learning include:

  • linear scaling, which typically uses a combination of subtraction and division to replace the original value with a number between -1 and +1 or between 0 and 1.
  • logarithmic scaling, which replaces the original value with its logarithm.
  • Z-score normalization , which replaces the original value with a floating-point value representing the number of standard deviations from that feature's mean.

scikit-শিখা

A popular open-source machine learning platform. See scikit-learn.org .

স্কোরিং

#রিসিস্টেম
#মেট্রিক

The part of a recommendation system that provides a value or ranking for each item produced by the candidate generation phase.

নির্বাচনের পক্ষপাতিত্ব

#responsible

Errors in conclusions drawn from sampled data due to a selection process that generates systematic differences between samples observed in the data and those not observed. The following forms of selection bias exist:

  • coverage bias : The population represented in the dataset doesn't match the population that the machine learning model is making predictions about.
  • sampling bias : Data is not collected randomly from the target group.
  • non-response bias (also called participation bias ): Users from certain groups opt-out of surveys at different rates than users from other groups.

For example, suppose you are creating a machine learning model that predicts people's enjoyment of a movie. To collect training data, you hand out a survey to everyone in the front row of a theater showing the movie. Offhand, this may sound like a reasonable way to gather a dataset; however, this form of data collection may introduce the following forms of selection bias:

  • coverage bias: By sampling from a population who chose to see the movie, your model's predictions may not generalize to people who did not already express that level of interest in the movie.
  • sampling bias: Rather than randomly sampling from the intended population (all the people at the movie), you sampled only the people in the front row. It is possible that the people sitting in the front row were more interested in the movie than those in other rows.
  • non-response bias: In general, people with strong opinions tend to respond to optional surveys more frequently than people with mild opinions. Since the movie survey is optional, the responses are more likely to form a bimodal distribution than a normal (bell-shaped) distribution.

self-attention (also called self-attention layer)

#language

A neural network layer that transforms a sequence of embeddings (for example, token embeddings) into another sequence of embeddings. Each embedding in the output sequence is constructed by integrating information from the elements of the input sequence through an attention mechanism.

The self part of self-attention refers to the sequence attending to itself rather than to some other context. Self-attention is one of the main building blocks for Transformers and uses dictionary lookup terminology, such as "query", "key", and "value".

A self-attention layer starts with a sequence of input representations, one for each word. The input representation for a word can be a simple embedding. For each word in an input sequence, the network scores the relevance of the word to every element in the whole sequence of words. The relevance scores determine how much the word's final representation incorporates the representations of other words.

উদাহরণস্বরূপ, নিম্নলিখিত বাক্যটি বিবেচনা করুন:

The animal didn't cross the street because it was too tired.

The following illustration (from Transformer: A Novel Neural Network Architecture for Language Understanding ) shows a self-attention layer's attention pattern for the pronoun it , with the darkness of each line indicating how much each word contributes to the representation:

The following sentence appears twice: The animal didn't cross the
          street because it was too tired. Lines connect the pronoun it in
          one sentence to five tokens (The, animal, street, it, and
          the period) in the other sentence. The line between the pronoun it
          and the word animal is strongest.

The self-attention layer highlights words that are relevant to "it". In this case, the attention layer has learned to highlight words that it might refer to, assigning the highest weight to animal .

For a sequence of n tokens , self-attention transforms a sequence of embeddings n separate times, once at each position in the sequence.

Refer also to attention and multi-head self-attention .

স্ব-তত্ত্বাবধানে শিক্ষা

A family of techniques for converting an unsupervised machine learning problem into a supervised machine learning problem by creating surrogate labels from unlabeled examples .

Some Transformer -based models such as BERT use self-supervised learning.

Self-supervised training is a semi-supervised learning approach.

স্ব-প্রশিক্ষণ

A variant of self-supervised learning that is particularly useful when all of the following conditions are true:

Self-training works by iterating over the following two steps until the model stops improving:

  1. Use supervised machine learning to train a model on the labeled examples.
  2. Use the model created in Step 1 to generate predictions (labels) on the unlabeled examples, moving those in which there is high confidence into the labeled examples with the predicted label.

Notice that each iteration of Step 2 adds more labeled examples for Step 1 to train on.

আধা-তত্ত্বাবধানে শিক্ষা

Training a model on data where some of the training examples have labels but others don't. One technique for semi-supervised learning is to infer labels for the unlabeled examples, and then to train on the inferred labels to create a new model. Semi-supervised learning can be useful if labels are expensive to obtain but unlabeled examples are plentiful.

Self-training is one technique for semi-supervised learning.

sensitive attribute

#responsible
A human attribute that may be given special consideration for legal, ethical, social, or personal reasons.

অনুভূতি বিশ্লেষণ

#language

Using statistical or machine learning algorithms to determine a group's overall attitude—positive or negative—toward a service, product, organization, or topic. For example, using natural language understanding , an algorithm could perform sentiment analysis on the textual feedback from a university course to determine the degree to which students generally liked or disliked the course.

See the Text classification guide for more information.

sequence model

#সেক

A model whose inputs have a sequential dependence. For example, predicting the next video watched from a sequence of previously watched videos.

sequence-to-sequence task

#language

A task that converts an input sequence of tokens to an output sequence of tokens. For example, two popular kinds of sequence-to-sequence tasks are:

  • অনুবাদক:
    • Sample input sequence: "I love you."
    • Sample output sequence: "Je t'aime."
  • Question answering:
    • Sample input sequence: "Do I need my car in New York City?"
    • Sample output sequence: "No. Keep your car at home."

পরিবেশন করা

The process of making a trained model available to provide predictions through online inference or offline inference .

shape (Tensor)

The number of elements in each dimension of a tensor. The shape is represented as a list of integers. For example, the following two-dimensional tensor has a shape of [3,4]:

[[5, 7, 6, 4],
 [2, 9, 4, 8],
 [3, 6, 5, 1]]

TensorFlow uses row-major (C-style) format to represent the order of dimensions, which is why the shape in TensorFlow is [3,4] rather than [4,3] . In other words, in a two-dimensional TensorFlow Tensor, the shape is [ number of rows , number of columns ] .

A static shape is a tensor shape that is known at compile time.

A dynamic shape is unknown at compile time and is therefore dependent on runtime data. This tensor might be represented with a placeholder dimension in TensorFlow, as in [3, ?] .

shard

#টেনসরফ্লো
#GoogleCloud

A logical division of the training set or the model . Typically, some process creates shards by dividing the examples or parameters into (usually) equal-sized chunks. Each shard is then assigned to a different machine.

Sharding a model is called model parallelism ; sharding data is called data parallelism .

সংকোচন

#df

A hyperparameter in gradient boosting that controls overfitting . Shrinkage in gradient boosting is analogous to learning rate in gradient descent . Shrinkage is a decimal value between 0.0 and 1.0. A lower shrinkage value reduces overfitting more than a larger shrinkage value.

সিগমায়েড ফাংশন

#মৌলিক

A mathematical function that "squishes" an input value into a constrained range, typically 0 to 1 or -1 to +1. That is, you can pass any number (two, a million, negative billion, whatever) to a sigmoid and the output will still be in the constrained range. সিগমায়েড অ্যাক্টিভেশন ফাংশনের একটি প্লট নিম্নরূপ দেখায়:

ডোমেনে বিস্তৃত x মান সহ একটি দ্বি-মাত্রিক বাঁকা প্লট           -ইনফিনিটি থেকে +ধনাত্মক, যখন y মান প্রায় 0 থেকে পরিসরে বিস্তৃত           প্রায় 1. যখন x 0 হয়, y হয় 0.5। বক্ররেখার ঢাল সবসময়           ধনাত্মক, সর্বোচ্চ ঢাল 0,0.5 সহ এবং ধীরে ধীরে হ্রাস পাচ্ছে           x এর পরম মান বাড়ার সাথে সাথে ঢাল।

The sigmoid function has several uses in machine learning, including:

সাদৃশ্য পরিমাপ

# ক্লাস্টারিং
#মেট্রিক

In clustering algorithms, the metric used to determine how alike (how similar) any two examples are.

single program / multiple data (SPMD)

A parallelism technique where the same computation is run on different input data in parallel on different devices. The goal of SPMD is to obtain results more quickly. It is the most common style of parallel programming.

size invariance

#ছবি

In an image classification problem, an algorithm's ability to successfully classify images even when the size of the image changes. For example, the algorithm can still identify a cat whether it consumes 2M pixels or 200K pixels. Note that even the best image classification algorithms still have practical limits on size invariance. For example, an algorithm (or human) is unlikely to correctly classify a cat image consuming only 20 pixels.

See also translational invariance and rotational invariance .

আরও তথ্যের জন্য ক্লাস্টারিং কোর্স দেখুন।

স্কেচিং

# ক্লাস্টারিং

In unsupervised machine learning , a category of algorithms that perform a preliminary similarity analysis on examples. Sketching algorithms use a locality-sensitive hash function to identify points that are likely to be similar, and then group them into buckets.

Sketching decreases the computation required for similarity calculations on large datasets. Instead of calculating similarity for every single pair of examples in the dataset, we calculate similarity only for each pair of points within each bucket.

skip-gram

#language

An n-gram which may omit (or "skip") words from the original context, meaning the N words might not have been originally adjacent. More precisely, a "k-skip-n-gram" is an n-gram for which up to k words may have been skipped.

For example, "the quick brown fox" has the following possible 2-grams:

  • "the quick"
  • "quick brown"
  • "বাদামী শিয়াল"

A "1-skip-2-gram" is a pair of words that have at most 1 word between them. Therefore, "the quick brown fox" has the following 1-skip 2-grams:

  • "the brown"
  • "quick fox"

In addition, all the 2-grams are also 1-skip-2-grams, since fewer than one word may be skipped.

Skip-grams are useful for understanding more of a word's surrounding context. In the example, "fox" was directly associated with "quick" in the set of 1-skip-2-grams, but not in the set of 2-grams.

Skip-grams help train word embedding models.

softmax

#মৌলিক

A function that determines probabilities for each possible class in a multi-class classification model . The probabilities add up to exactly 1.0. For example, the following table shows how softmax distributes various probabilities:

Image is a... সম্ভাবনা
কুকুর .85
বিড়াল .13
ঘোড়া .02

Softmax is also called full softmax .

Contrast with candidate sampling .

See Neural networks: Multi-class classification in Machine Learning Crash Course for more information.

soft prompt tuning

#language
#generativeAI

A technique for tuning a large language model for a particular task, without resource intensive fine-tuning . Instead of retraining all the weights in the model, soft prompt tuning automatically adjusts a prompt to achieve the same goal.

Given a textual prompt, soft prompt tuning typically appends additional token embeddings to the prompt and uses backpropagation to optimize the input.

A "hard" prompt contains actual tokens instead of token embeddings.

sparse feature

#language
#মৌলিক

A feature whose values are predominately zero or empty. For example, a feature containing a single 1 value and a million 0 values is sparse. In contrast, a dense feature has values that are predominantly not zero or empty.

In machine learning, a surprising number of features are sparse features. Categorical features are usually sparse features. For example, of the 300 possible tree species in a forest, a single example might identify just a maple tree . Or, of the millions of possible videos in a video library, a single example might identify just "Casablanca."

In a model, you typically represent sparse features with one-hot encoding . If the one-hot encoding is big, you might put an embedding layer on top of the one-hot encoding for greater efficiency.

sparse representation

#language
#মৌলিক

Storing only the position(s) of nonzero elements in a sparse feature.

For example, suppose a categorical feature named species identifies the 36 tree species in a particular forest. Further assume that each example identifies only a single species.

You could use a one-hot vector to represent the tree species in each example. A one-hot vector would contain a single 1 (to represent the particular tree species in that example) and 35 0 s (to represent the 35 tree species not in that example). So, the one-hot representation of maple might look something like the following:

A vector in which positions 0 through 23 hold the value 0, position
          24 holds the value 1, and positions 25 through 35 hold the value 0.

Alternatively, sparse representation would simply identify the position of the particular species. If maple is at position 24, then the sparse representation of maple would simply be:

24

Notice that the sparse representation is much more compact than the one-hot representation.

আরও তথ্যের জন্য মেশিন লার্নিং ক্র্যাশ কোর্সে শ্রেণীবদ্ধ ডেটা নিয়ে কাজ করা দেখুন।

sparse vector

#মৌলিক

A vector whose values are mostly zeroes. See also sparse feature and sparsity .

sparsity

#মেট্রিক

The number of elements set to zero (or null) in a vector or matrix divided by the total number of entries in that vector or matrix. For example, consider a 100-element matrix in which 98 cells contain zero. The calculation of sparsity is as follows:

$$ {\text{sparsity}} = \frac{\text{98}} {\text{100}} = {\text{0.98}} $$

Feature sparsity refers to the sparsity of a feature vector; model sparsity refers to the sparsity of the model weights.

spatial pooling

#ছবি

See pooling .

বিভক্ত

#df

In a decision tree , another name for a condition .

স্প্লিটার

#df

While training a decision tree , the routine (and algorithm) responsible for finding the best condition at each node .

এসপিএমডি

Abbreviation for single program / multiple data .

squared hinge loss

#মেট্রিক

The square of the hinge loss . Squared hinge loss penalizes outliers more harshly than regular hinge loss.

squared loss

#মৌলিক
#মেট্রিক

Synonym for L 2 loss .

staged training

#language

A tactic of training a model in a sequence of discrete stages. The goal can be either to speed up the training process, or to achieve better model quality.

An illustration of the progressive stacking approach is shown below:

  • Stage 1 contains 3 hidden layers, stage 2 contains 6 hidden layers, and stage 3 contains 12 hidden layers.
  • Stage 2 begins training with the weights learned in the 3 hidden layers of Stage 1. Stage 3 begins training with the weights learned in the 6 hidden layers of Stage 2.

Three stages, which are labeled Stage 1, Stage 2, and Stage 3.           Each stage contains a different number of layers: Stage 1 contains           3 layers, Stage 2 contains 6 layers, and Stage 3 contains 12 layers.           The 3 layers from Stage 1 become the first 3 layers of Stage 2.           Similarly, the 6 layers from Stage 2 become the first 6 layers of           পর্যায় 3।

See also pipelining .

রাষ্ট্র

#আরএল

In reinforcement learning, the parameter values that describe the current configuration of the environment, which the agent uses to choose an action .

state-action value function

#আরএল

Synonym for Q-function .

স্থির

#মৌলিক

Something done once rather than continuously. The terms static and offline are synonyms. The following are common uses of static and offline in machine learning:

  • static model (or offline model ) is a model trained once and then used for a while.
  • static training (or offline training ) is the process of training a static model.
  • static inference (or offline inference ) is a process in which a model generates a batch of predictions at a time.

Contrast with dynamic .

static inference

#মৌলিক

Synonym for offline inference .

স্থিরতা

#মৌলিক

A feature whose values don't change across one or more dimensions, usually time. For example, a feature whose values look about the same in 2021 and 2023 exhibits stationarity.

In the real world, very few features exhibit stationarity. Even features synonymous with stability (like sea level) change over time.

Contrast with nonstationarity .

পদক্ষেপ

A forward pass and backward pass of one batch .

See backpropagation for more information on the forward pass and backward pass.

ধাপের আকার

Synonym for learning rate .

stochastic gradient descent (SGD)

#মৌলিক

A gradient descent algorithm in which the batch size is one. In other words, SGD trains on a single example chosen uniformly at random from a training set .

আরও তথ্যের জন্য লিনিয়ার রিগ্রেশন: মেশিন লার্নিং ক্র্যাশ কোর্সে হাইপারপ্যারামিটার দেখুন।

অগ্রসর

#ছবি

In a convolutional operation or pooling, the delta in each dimension of the next series of input slices. For example, the following animation demonstrates a (1,1) stride during a convolutional operation. Therefore, the next input slice starts one position to the right of the previous input slice. When the operation reaches the right edge, the next slice is all the way over to the left but one position down.

An input 5x5 matrix and a 3x3 convolutional filter. কারণ      stride is (1,1), a convolutional filter will be applied 9 times. প্রথম      convolutional slice evaluates the top-left 3x3 submatrix of the input      ম্যাট্রিক্স The second slice evaluates the top-middle 3x3      submatrix. The third convolutional slice evaluates the top-right 3x3      submatrix. The fourth slice evaluates the middle-left 3x3 submatrix.      The fifth slice evaluates the middle 3x3 submatrix. The sixth slice      evaluates the middle-right 3x3 submatrix. The seventh slice evaluates      the bottom-left 3x3 submatrix. The eighth slice evaluates the      bottom-middle 3x3 submatrix. The ninth slice evaluates the bottom-right 3x3      submatrix.

The preceding example demonstrates a two-dimensional stride. If the input matrix is three-dimensional, the stride would also be three-dimensional.

structural risk minimization (SRM)

An algorithm that balances two goals:

  • The need to build the most predictive model (for example, lowest loss).
  • The need to keep the model as simple as possible (for example, strong regularization).

For example, a function that minimizes loss+regularization on the training set is a structural risk minimization algorithm.

Contrast with empirical risk minimization .

সাবস্যাম্পলিং

#ছবি

See pooling .

subword token

#language

In language models , a token that is a substring of a word, which may be the entire word.

For example, a word like "itemize" might be broken up into the pieces "item" (a root word) and "ize" (a suffix), each of which is represented by its own token. Splitting uncommon words into such pieces, called subwords, allows language models to operate on the word's more common constituent parts, such as prefixes and suffixes.

Conversely, common words like "going" might not be broken up and might be represented by a single token.

সারাংশ

#টেনসরফ্লো

In TensorFlow, a value or set of values calculated at a particular step , usually used for tracking model metrics during training.

তত্ত্বাবধানে মেশিন লার্নিং

#মৌলিক

Training a model from features and their corresponding labels . Supervised machine learning is analogous to learning a subject by studying a set of questions and their corresponding answers. After mastering the mapping between questions and answers, a student can then provide answers to new (never-before-seen) questions on the same topic.

Compare with unsupervised machine learning .

See Supervised Learning in the Introduction to ML course for more information.

synthetic feature

#মৌলিক

A feature not present among the input features, but assembled from one or more of them. Methods for creating synthetic features include the following:

  • Bucketing a continuous feature into range bins.
  • Creating a feature cross .
  • Multiplying (or dividing) one feature value by other feature value(s) or by itself. For example, if a and b are input features, then the following are examples of synthetic features:
    • ab
    • একটি 2
  • Applying a transcendental function to a feature value. For example, if c is an input feature, then the following are examples of synthetic features:
    • sin(c)
    • ln(c)

Features created by normalizing or scaling alone are not considered synthetic features.

টি

T5

#language

A text-to-text transfer learning model introduced by Google AI in 2020 . T5 is an encoder - decoder model, based on the Transformer architecture, trained on an extremely large dataset. It is effective at a variety of natural language processing tasks, such as generating text, translating languages, and answering questions in a conversational manner.

T5 gets its name from the five T's in "Text-to-Text Transfer Transformer."

T5X

#language

An open-source, machine learning framework designed to build and train large-scale natural language processing (NLP) models. T5 is implemented on the T5X codebase (which is built on JAX and Flax ).

tabular Q-learning

#আরএল

In reinforcement learning , implementing Q-learning by using a table to store the Q-functions for every combination of state and action .

লক্ষ্য

Synonym for label .

target network

#আরএল

In Deep Q-learning , a neural network that is a stable approximation of the main neural network, where the main neural network implements either a Q-function or a policy . Then, you can train the main network on the Q-values predicted by the target network. Therefore, you prevent the feedback loop that occurs when the main network trains on Q-values predicted by itself. By avoiding this feedback, training stability increases.

টাস্ক

A problem that can be solved using machine learning techniques, such as:

তাপমাত্রা

#language
#ছবি
#generativeAI

A hyperparameter that controls the degree of randomness of a model's output. Higher temperatures result in more random output, while lower temperatures result in less random output.

Choosing the best temperature depends on the specific application and the preferred properties of the model's output. For example, you would probably raise the temperature when creating an application that generates creative output. Conversely, you would probably lower the temperature when building a model that classifies images or text in order to improve the model's accuracy and consistency.

Temperature is often used with softmax .

সাময়িক তথ্য

Data recorded at different points in time. For example, winter coat sales recorded for each day of the year would be temporal data.

টেনসর

#টেনসরফ্লো

TensorFlow প্রোগ্রামের প্রাথমিক তথ্য কাঠামো। Tensors are N-dimensional (where N could be very large) data structures, most commonly scalars, vectors, or matrixes. একটি টেনসরের উপাদানগুলি পূর্ণসংখ্যা, ভাসমান-বিন্দু বা স্ট্রিং মান ধারণ করতে পারে।

টেনসরবোর্ড

#টেনসরফ্লো

The dashboard that displays the summaries saved during the execution of one or more TensorFlow programs.

টেনসরফ্লো

#টেনসরফ্লো

A large-scale, distributed, machine learning platform. The term also refers to the base API layer in the TensorFlow stack, which supports general computation on dataflow graphs.

Although TensorFlow is primarily used for machine learning, you may also use TensorFlow for non-ML tasks that require numerical computation using dataflow graphs.

TensorFlow Playground

#টেনসরফ্লো

A program that visualizes how different hyperparameters influence model (primarily neural network) training. Go to http://playground.tensorflow.org to experiment with TensorFlow Playground.

টেনসরফ্লো পরিবেশন

#টেনসরফ্লো

A platform to deploy trained models in production.

টেনসর প্রসেসিং ইউনিট (TPU)

#টেনসরফ্লো
#GoogleCloud

An application-specific integrated circuit (ASIC) that optimizes the performance of machine learning workloads. These ASICs are deployed as multiple TPU chips on a TPU device .

টেনসর র‍্যাঙ্ক

#টেনসরফ্লো

See rank (Tensor) .

Tensor shape

#টেনসরফ্লো

The number of elements a Tensor contains in various dimensions. For example, a [5, 10] Tensor has a shape of 5 in one dimension and 10 in another.

Tensor size

#টেনসরফ্লো

The total number of scalars a Tensor contains. For example, a [5, 10] Tensor has a size of 50.

TensorStore

A library for efficiently reading and writing large multi-dimensional arrays.

termination condition

#আরএল

In reinforcement learning , the conditions that determine when an episode ends, such as when the agent reaches a certain state or exceeds a threshold number of state transitions. For example, in tic-tac-toe (also known as noughts and crosses), an episode terminates either when a player marks three consecutive spaces or when all spaces are marked.

পরীক্ষা

#df

In a decision tree , another name for a condition .

test loss

#মৌলিক
#মেট্রিক

A metric representing a model's loss against the test set . When building a model , you typically try to minimize test loss. That's because a low test loss is a stronger quality signal than a low training loss or low validation loss .

A large gap between test loss and training loss or validation loss sometimes suggests that you need to increase the regularization rate .

পরীক্ষার সেট

A subset of the dataset reserved for testing a trained model .

Traditionally, you divide examples in the dataset into the following three distinct subsets:

Each example in a dataset should belong to only one of the preceding subsets. For instance, a single example shouldn't belong to both the training set and the test set.

The training set and validation set are both closely tied to training a model. Because the test set is only indirectly associated with training, test loss is a less biased, higher quality metric than training loss or validation loss .

See Datasets: Dividing the original dataset in Machine Learning Crash Course for more information.

text span

#language

The array index span associated with a specific subsection of a text string. For example, the word good in the Python string s="Be good now" occupies the text span from 3 to 6.

tf.Example

#টেনসরফ্লো

A standard protocol buffer for describing input data for machine learning model training or inference.

tf.keras

#টেনসরফ্লো

An implementation of Keras integrated into TensorFlow .

threshold (for decision trees)

#df

In an axis-aligned condition , the value that a feature is being compared against. For example, 75 is the threshold value in the following condition:

grade >= 75

আরও তথ্যের জন্য সিদ্ধান্ত বনভূমি কোর্সে সংখ্যার বৈশিষ্ট্য সহ বাইনারি শ্রেণিবিন্যাসের জন্য সঠিক বিভাজন দেখুন।

সময় সিরিজ বিশ্লেষণ

# ক্লাস্টারিং

A subfield of machine learning and statistics that analyzes temporal data . Many types of machine learning problems require time series analysis, including classification, clustering, forecasting, and anomaly detection. For example, you could use time series analysis to forecast the future sales of winter coats by month based on historical sales data.

timestep

#সেক

One "unrolled" cell within a recurrent neural network . For example, the following figure shows three timesteps (labeled with the subscripts t-1, t, and t+1):

Three timesteps in a recurrent neural network. এর আউটপুট           first timestep becomes input to the second timestep. আউটপুট           of the second timestep becomes input to the third timestep.

টোকেন

#language

In a language model , the atomic unit that the model is training on and making predictions on. A token is typically one of the following:

  • a word—for example, the phrase "dogs like cats" consists of three word tokens: "dogs", "like", and "cats".
  • a character—for example, the phrase "bike fish" consists of nine character tokens. (Note that the blank space counts as one of the tokens.)
  • subwords—in which a single word can be a single token or multiple tokens. A subword consists of a root word, a prefix, or a suffix. For example, a language model that uses subwords as tokens might view the word "dogs" as two tokens (the root word "dog" and the plural suffix "s"). That same language model might view the single word "taller" as two subwords (the root word "tall" and the suffix "er").

In domains outside of language models, tokens can represent other kinds of atomic units. For example, in computer vision, a token might be a subset of an image.

আরও তথ্যের জন্য মেশিন লার্নিং ক্র্যাশ কোর্সে বড় ভাষার মডেলগুলি দেখুন।

top-k accuracy

#language
#মেট্রিক

The percentage of times that a "target label" appears within the first k positions of generated lists. The lists could be personalized recommendations or a list of items ordered by softmax .

Top-k accuracy is also known as accuracy at k .

টাওয়ার

A component of a deep neural network that is itself a deep neural network. In some cases, each tower reads from an independent data source, and those towers stay independent until their output is combined in a final layer. In other cases, (for example, in the encoder and decoder tower of many Transformers ), towers have cross-connections to each other.

বিষাক্ততা

#language
#মেট্রিক

The degree to which content is abusive, threatening, or offensive. Many machine learning models can identify and measure toxicity. Most of these models identify toxicity along multiple parameters, such as the level of abusive language and the level of threatening language.

টিপিইউ

#টেনসরফ্লো
#GoogleCloud

Abbreviation for Tensor Processing Unit .

TPU chip

#টেনসরফ্লো
#GoogleCloud

A programmable linear algebra accelerator with on-chip high bandwidth memory that is optimized for machine learning workloads. Multiple TPU chips are deployed on a TPU device .

TPU device

#টেনসরফ্লো
#GoogleCloud

A printed circuit board (PCB) with multiple TPU chips , high bandwidth network interfaces, and system cooling hardware.

TPU node

#টেনসরফ্লো
#GoogleCloud

A TPU resource on Google Cloud with a specific TPU type . The TPU node connects to your VPC Network from a peer VPC network . TPU nodes are a resource defined in the Cloud TPU API .

TPU Pod

#টেনসরফ্লো
#GoogleCloud

A specific configuration of TPU devices in a Google data center. All of the devices in a TPU Pod are connected to one another over a dedicated high-speed network. A TPU Pod is the largest configuration of TPU devices available for a specific TPU version.

TPU resource

#টেনসরফ্লো
#GoogleCloud

A TPU entity on Google Cloud that you create, manage, or consume. For example, TPU nodes and TPU types are TPU resources.

TPU slice

#টেনসরফ্লো
#GoogleCloud

A TPU slice is a fractional portion of the TPU devices in a TPU Pod . All of the devices in a TPU slice are connected to one another over a dedicated high-speed network.

TPU type

#টেনসরফ্লো
#GoogleCloud

A configuration of one or more TPU devices with a specific TPU hardware version. You select a TPU type when you create a TPU node on Google Cloud. For example, a v2-8 TPU type is a single TPU v2 device with 8 cores. A v3-2048 TPU type has 256 networked TPU v3 devices and a total of 2048 cores. TPU types are a resource defined in the Cloud TPU API .

TPU worker

#টেনসরফ্লো
#GoogleCloud

A process that runs on a host machine and executes machine learning programs on TPU devices .

প্রশিক্ষণ

#মৌলিক

The process of determining the ideal parameters (weights and biases) comprising a model . During training, a system reads in examples and gradually adjusts parameters. Training uses each example anywhere from a few times to billions of times.

See Supervised Learning in the Introduction to ML course for more information.

training loss

#মৌলিক
#মেট্রিক

A metric representing a model's loss during a particular training iteration. For example, suppose the loss function is Mean Squared Error . Perhaps the training loss (the Mean Squared Error) for the 10th iteration is 2.2, and the training loss for the 100th iteration is 1.9.

A loss curve plots training loss versus the number of iterations. A loss curve provides the following hints about training:

  • A downward slope implies that the model is improving.
  • An upward slope implies that the model is getting worse.
  • A flat slope implies that the model has reached convergence .

For example, the following somewhat idealized loss curve shows:

  • A steep downward slope during the initial iterations, which implies rapid model improvement.
  • A gradually flattening (but still downward) slope until close to the end of training, which implies continued model improvement at a somewhat slower pace then during the initial iterations.
  • A flat slope towards the end of training, which suggests convergence.

The plot of training loss versus iterations. This loss curve starts
     with a steep downward slope. The slope gradually flattens until the
     slope becomes zero.

Although training loss is important, see also generalization .

training-serving skew

#মৌলিক

The difference between a model's performance during training and that same model's performance during serving .

প্রশিক্ষণ সেট

#মৌলিক

The subset of the dataset used to train a model .

Traditionally, examples in the dataset are divided into the following three distinct subsets:

Ideally, each example in the dataset should belong to only one of the preceding subsets. For example, a single example shouldn't belong to both the training set and the validation set.

See Datasets: Dividing the original dataset in Machine Learning Crash Course for more information.

গতিপথ

#আরএল

In reinforcement learning , a sequence of tuples that represent a sequence of state transitions of the agent , where each tuple corresponds to the state, action , reward , and next state for a given state transition.

শিক্ষা স্থানান্তর

Transferring information from one machine learning task to another. For example, in multi-task learning, a single model solves multiple tasks, such as a deep model that has different output nodes for different tasks. Transfer learning might involve transferring knowledge from the solution of a simpler task to a more complex one, or involve transferring knowledge from a task where there is more data to one where there is less data.

Most machine learning systems solve a single task. Transfer learning is a baby step towards artificial intelligence in which a single program can solve multiple tasks.

ট্রান্সফরমার

#language

A neural network architecture developed at Google that relies on self-attention mechanisms to transform a sequence of input embeddings into a sequence of output embeddings without relying on convolutions or recurrent neural networks . A Transformer can be viewed as a stack of self-attention layers.

A Transformer can include any of the following:

An encoder transforms a sequence of embeddings into a new sequence of the same length. An encoder includes N identical layers, each of which contains two sub-layers. These two sub-layers are applied at each position of the input embedding sequence, transforming each element of the sequence into a new embedding. The first encoder sub-layer aggregates information from across the input sequence. The second encoder sub-layer transforms the aggregated information into an output embedding.

A decoder transforms a sequence of input embeddings into a sequence of output embeddings, possibly with a different length. A decoder also includes N identical layers with three sub-layers, two of which are similar to the encoder sub-layers. The third decoder sub-layer takes the output of the encoder and applies the self-attention mechanism to gather information from it.

The blog post Transformer: A Novel Neural Network Architecture for Language Understanding provides a good introduction to Transformers.

LLMs দেখুন: একটি বড় ভাষা মডেল কি? in Machine Learning Crash Course for more information.

translational invariance

#ছবি

In an image classification problem, an algorithm's ability to successfully classify images even when the position of objects within the image changes. For example, the algorithm can still identify a dog, whether it is in the center of the frame or at the left end of the frame.

See also size invariance and rotational invariance .

trigram

#সেক
#language

An N-gram in which N=3.

true negative (TN)

#মৌলিক
#মেট্রিক

An example in which the model correctly predicts the negative class . For example, the model infers that a particular email message is not spam , and that email message really is not spam .

true positive (TP)

#মৌলিক
#মেট্রিক

An example in which the model correctly predicts the positive class . For example, the model infers that a particular email message is spam, and that email message really is spam.

true positive rate (TPR)

#ফান্ডামেন্টালস
#মেট্রিক

Synonym for recall . অর্থাৎ:

$$\text{true positive rate} = \frac {\text{true positives}} {\text{true positives} + \text{false negatives}}$$

True positive rate is the y-axis in an ROC curve .

unawareness (to a sensitive attribute)

#responsible

A situation in which sensitive attributes are present, but not included in the training data. Because sensitive attributes are often correlated with other attributes of one's data, a model trained with unawareness about a sensitive attribute could still have disparate impact with respect to that attribute, or violate other fairness constraints .

আন্ডারফিটিং

#ফান্ডামেন্টালস

Producing a model with poor predictive ability because the model hasn't fully captured the complexity of the training data. Many problems can cause underfitting, including:

See Overfitting in Machine Learning Crash Course for more information.

আন্ডারস্যাম্পলিং

Removing examples from the majority class in a class-imbalanced dataset in order to create a more balanced training set .

For example, consider a dataset in which the ratio of the majority class to the minority class is 20:1. To overcome this class imbalance, you could create a training set consisting of all of the minority class examples but only a tenth of the majority class examples, which would create a training-set class ratio of 2:1. Thanks to undersampling, this more balanced training set might produce a better model. Alternatively, this more balanced training set might contain insufficient examples to train an effective model.

Contrast with oversampling .

একমুখী

#language

A system that only evaluates the text that precedes a target section of text. In contrast, a bidirectional system evaluates both the text that precedes and follows a target section of text. See bidirectional for more details.

unidirectional language model

#language

A language model that bases its probabilities only on the tokens appearing before , not after , the target token(s). Contrast with bidirectional language model .

unlabeled example

#ফান্ডামেন্টালস

An example that contains features but no label . For example, the following table shows three unlabeled examples from a house valuation model, each with three features but no house value:

বেডরুমের সংখ্যা বাথরুমের সংখ্যা ঘরের বয়স
3 2 15
2 1 72
4 2 34

In supervised machine learning , models train on labeled examples and make predictions on unlabeled examples .

In semi-supervised and unsupervised learning, unlabeled examples are used during training.

Contrast unlabeled example with labeled example .

unsupervised machine learning

# ক্লাস্টারিং
#ফান্ডামেন্টালস

Training a model to find patterns in a dataset, typically an unlabeled dataset.

The most common use of unsupervised machine learning is to cluster data into groups of similar examples. For example, an unsupervised machine learning algorithm can cluster songs based on various properties of the music. The resulting clusters can become an input to other machine learning algorithms (for example, to a music recommendation service). Clustering can help when useful labels are scarce or absent. For example, in domains such as anti-abuse and fraud, clusters can help humans better understand the data.

Contrast with supervised machine learning .

See What is Machine Learning? in the Introduction to ML course for more information.

uplift modeling

A modeling technique, commonly used in marketing, that models the "causal effect" (also known as the "incremental impact") of a "treatment" on an "individual." এখানে দুটি উদাহরণ আছে:

  • Doctors might use uplift modeling to predict the mortality decrease (causal effect) of a medical procedure (treatment) depending on the age and medical history of a patient (individual).
  • Marketers might use uplift modeling to predict the increase in probability of a purchase (causal effect) due to an advertisement (treatment) on a person (individual).

Uplift modeling differs from classification or regression in that some labels (for example, half of the labels in binary treatments) are always missing in uplift modeling. For example, a patient can either receive or not receive a treatment; therefore, we can only observe whether the patient is going to heal or not heal in only one of these two situations (but never both). The main advantage of an uplift model is that it can generate predictions for the unobserved situation (the counterfactual) and use it to compute the causal effect.

upweighting

Applying a weight to the downsampled class equal to the factor by which you downsampled.

user matrix

#রিসিস্টেম

In recommendation systems , an embedding vector generated by matrix factorization that holds latent signals about user preferences. Each row of the user matrix holds information about the relative strength of various latent signals for a single user. For example, consider a movie recommendation system. In this system, the latent signals in the user matrix might represent each user's interest in particular genres, or might be harder-to-interpret signals that involve complex interactions across multiple factors.

The user matrix has a column for each latent feature and a row for each user. That is, the user matrix has the same number of rows as the target matrix that is being factorized. For example, given a movie recommendation system for 1,000,000 users, the user matrix will have 1,000,000 rows.

ভি

বৈধতা

#ফান্ডামেন্টালস

The initial evaluation of a model's quality. Validation checks the quality of a model's predictions against the validation set .

Because the validation set differs from the training set , validation helps guard against overfitting .

You might think of evaluating the model against the validation set as the first round of testing and evaluating the model against the test set as the second round of testing.

validation loss

#ফান্ডামেন্টালস
#মেট্রিক

A metric representing a model's loss on the validation set during a particular iteration of training.

See also generalization curve .

validation set

#ফান্ডামেন্টালস

The subset of the dataset that performs initial evaluation against a trained model . Typically, you evaluate the trained model against the validation set several times before evaluating the model against the test set .

Traditionally, you divide the examples in the dataset into the following three distinct subsets:

Ideally, each example in the dataset should belong to only one of the preceding subsets. For example, a single example shouldn't belong to both the training set and the validation set.

See Datasets: Dividing the original dataset in Machine Learning Crash Course for more information.

value imputation

The process of replacing a missing value with an acceptable substitute. When a value is missing, you can either discard the entire example or you can use value imputation to salvage the example.

For example, consider a dataset containing a temperature feature that is supposed to be recorded every hour. However, the temperature reading was unavailable for a particular hour. Here is a section of the dataset:

টাইমস্ট্যাম্প তাপমাত্রা
1680561000 10
1680564600 12
1680568200 অনুপস্থিত
1680571800 20
1680575400 21
1680579000 21

A system could either delete the missing example or impute the missing temperature as 12, 16, 18, or 20, depending on the imputation algorithm.

অদৃশ্য গ্রেডিয়েন্ট সমস্যা

#সেক

The tendency for the gradients of early hidden layers of some deep neural networks to become surprisingly flat (low). Increasingly lower gradients result in increasingly smaller changes to the weights on nodes in a deep neural network, leading to little or no learning. Models suffering from the vanishing gradient problem become difficult or impossible to train. Long Short-Term Memory cells address this issue.

Compare to exploding gradient problem .

variable importances

#df
#মেট্রিক

A set of scores that indicates the relative importance of each feature to the model.

For example, consider a decision tree that estimates house prices. Suppose this decision tree uses three features: size, age, and style. If a set of variable importances for the three features are calculated to be {size=5.8, age=2.5, style=4.7}, then size is more important to the decision tree than age or style.

Different variable importance metrics exist, which can inform ML experts about different aspects of models.

variational autoencoder (VAE)

#language

A type of autoencoder that leverages the discrepancy between inputs and outputs to generate modified versions of the inputs. Variational autoencoders are useful for generative AI .

VAEs are based on variational inference: a technique for estimating the parameters of a probability model.

ভেক্টর

Very overloaded term whose meaning varies across different mathematical and scientific fields. Within machine learning, a vector has two properties:

  • Data type: Vectors in machine learning usually hold floating-point numbers.
  • Number of elements: This is the vector's length or its dimension .

For example, consider a feature vector that holds eight floating-point numbers. This feature vector has a length or dimension of eight. Note that machine learning vectors often have a huge number of dimensions.

You can represent many different kinds of information as a vector. যেমন:

  • Any position on the surface of Earth can be represented as a 2-dimensional vector, where one dimension is the latitude and the other is the longitude.
  • The current prices of each of 500 stocks can be represented as a 500-dimensional vector.
  • A probability distribution over a finite number of classes can be represented as a vector. For example, a multiclass classification system that predicts one of three output colors (red, green, or yellow) could output the vector (0.3, 0.2, 0.5) to mean P[red]=0.3, P[green]=0.2, P[yellow]=0.5 .

Vectors can be concatenated; therefore, a variety of different media can be represented as a single vector. Some models operate directly on the concatenation of many one-hot encodings .

Specialized processors such as TPUs are optimized to perform mathematical operations on vectors.

A vector is a tensor of rank 1.

ডব্লিউ

Wasserstein loss

#মেট্রিক

One of the loss functions commonly used in generative adversarial networks , based on the earth mover's distance between the distribution of generated data and real data.

ওজন

#ফান্ডামেন্টালস

A value that a model multiplies by another value. Training is the process of determining a model's ideal weights; inference is the process of using those learned weights to make predictions.

See Linear regression in Machine Learning Crash Course for more information.

Weighted Alternating Least Squares (WALS)

#রিসিস্টেম

An algorithm for minimizing the objective function during matrix factorization in recommendation systems , which allows a downweighting of the missing examples. WALS minimizes the weighted squared error between the original matrix and the reconstruction by alternating between fixing the row factorization and column factorization. Each of these optimizations can be solved by least squares convex optimization . For details, see the Recommendation Systems course .

weighted sum

#ফান্ডামেন্টালস

The sum of all the relevant input values multiplied by their corresponding weights. For example, suppose the relevant inputs consist of the following:

ইনপুট মান ইনপুট ওজন
2 -1.3
-1 0.6
3 0.4

ওজনযুক্ত যোগফল তাই:

weighted sum = (2)(-1.3) + (-1)(0.6) + (3)(0.4) = -2.0

A weighted sum is the input argument to an activation function .

wide model

A linear model that typically has many sparse input features . We refer to it as "wide" since such a model is a special type of neural network with a large number of inputs that connect directly to the output node. Wide models are often easier to debug and inspect than deep models . Although wide models cannot express nonlinearities through hidden layers , wide models can use transformations such as feature crossing and bucketization to model nonlinearities in different ways.

Contrast with deep model .

প্রস্থ

The number of neurons in a particular layer of a neural network .

wisdom of the crowd

#df

The idea that averaging the opinions or estimates of a large group of people ("the crowd") often produces surprisingly good results. For example, consider a game in which people guess the number of jelly beans packed into a large jar. Although most individual guesses will be inaccurate, the average of all the guesses has been empirically shown to be surprisingly close to the actual number of jelly beans in the jar.

Ensembles are a software analog of wisdom of the crowd. Even if individual models make wildly inaccurate predictions, averaging the predictions of many models often generates surprisingly good predictions. For example, although an individual decision tree might make poor predictions, a decision forest often makes very good predictions.

শব্দ এমবেডিং

#language

Representing each word in a word set within an embedding vector ; that is, representing each word as a vector of floating-point values between 0.0 and 1.0. Words with similar meanings have more-similar representations than words with different meanings. For example, carrots , celery , and cucumbers would all have relatively similar representations, which would be very different from the representations of airplane , sunglasses , and toothpaste .

এক্স

XLA (Accelerated Linear Algebra)

An open-source machine learning compiler for GPUs, CPUs, and ML accelerators.

The XLA compiler takes models from popular ML frameworks such as PyTorch , TensorFlow , and JAX , and optimizes them for high-performance execution across different hardware platforms including GPUs, CPUs, and ML accelerators .

জেড

শূন্য-শট শিক্ষা

A type of machine learning training where the model infers a prediction for a task that it was not specifically already trained on. In other words, the model is given zero task-specific training examples but asked to do inference for that task.

zero-shot prompting

#language
#generativeAI

A prompt that does not provide an example of how you want the large language model to respond. যেমন:

Parts of one prompt নোট
What is the official currency of the specified country? The question you want the LLM to answer.
ভারত: The actual query.

The large language model might respond with any of the following:

  • রুপি
  • INR
  • ভারতীয় রুপি
  • The rupee
  • The Indian rupee

All of the answers are correct, though you might prefer a particular format.

Compare and contrast zero-shot prompting with the following terms:

জেড-স্কোর স্বাভাবিককরণ

#ফান্ডামেন্টালস

A scaling technique that replaces a raw feature value with a floating-point value representing the number of standard deviations from that feature's mean. For example, consider a feature whose mean is 800 and whose standard deviation is 100. The following table shows how Z-score normalization would map the raw value to its Z-score:

কাঁচা মান জেড-স্কোর
800 0
950 +1.5
575 -2.25

The machine learning model then trains on the Z-scores for that feature instead of on the raw values.

আরও তথ্যের জন্য সংখ্যাসূচক ডেটা দেখুন: মেশিন লার্নিং ক্র্যাশ কোর্সে সাধারণীকরণ