মেশিন লার্নিং শব্দকোষ: ML ফান্ডামেন্টালস

এই পৃষ্ঠায় ML ফান্ডামেন্টাল শব্দকোষের পদ রয়েছে। সকল শব্দকোষের জন্য এখানে ক্লিক করুন

সঠিকতা

#মৌলিক

সঠিক শ্রেণীবিভাগের ভবিষ্যদ্বাণীর সংখ্যাকে ভবিষ্যদ্বাণীর মোট সংখ্যা দিয়ে ভাগ করলে। এটাই:

$$\text{Accuracy} = \frac{\text{correct predictions}} {\text{correct predictions + incorrect predictions }}$$

উদাহরণস্বরূপ, একটি মডেল যা 40টি সঠিক ভবিষ্যদ্বাণী করেছে এবং 10টি ভুল ভবিষ্যদ্বাণী করেছে তার সঠিকতা থাকবে:

$$\text{Accuracy} = \frac{\text{40}} {\text{40 + 10}} = \text{80%}$$

বাইনারি শ্রেণীবিভাগ সঠিক ভবিষ্যদ্বাণী এবং ভুল ভবিষ্যদ্বাণীর বিভিন্ন বিভাগের জন্য নির্দিষ্ট নাম প্রদান করে। সুতরাং, বাইনারি শ্রেণীবিভাগের নির্ভুলতা সূত্রটি নিম্নরূপ:

$$\text{Accuracy} = \frac{\text{TP} + \text{TN}} {\text{TP} + \text{TN} + \text{FP} + \text{FN}}$$

কোথায়:

নির্ভুলতা এবং প্রত্যাহার সঙ্গে তুলনা এবং বিপরীতে নির্ভুলতা.

সক্রিয়করণ ফাংশন

#মৌলিক

একটি ফাংশন যা নিউরাল নেটওয়ার্কগুলিকে বৈশিষ্ট্য এবং লেবেলের মধ্যে অরৈখিক (জটিল) সম্পর্ক শিখতে সক্ষম করে।

জনপ্রিয় সক্রিয়করণ ফাংশন অন্তর্ভুক্ত:

অ্যাক্টিভেশন ফাংশনগুলির প্লটগুলি কখনই একক সরলরেখা নয়। উদাহরণস্বরূপ, ReLU অ্যাক্টিভেশন ফাংশনের প্লট দুটি সরল রেখা নিয়ে গঠিত:

দুটি লাইনের একটি কার্টেসিয়ান প্লট। প্রথম লাইনের একটি ধ্রুবক y মান আছে 0, x-অক্ষ বরাবর -ইনফিনিটি,0 থেকে 0,-0 পর্যন্ত চলছে। দ্বিতীয় লাইন 0,0 এ শুরু হয়। এই লাইনে +1 এর ঢাল রয়েছে, তাই এটি 0,0 থেকে +ইনফিনিটি,+ইনফিনিটি পর্যন্ত চলে।

সিগমায়েড অ্যাক্টিভেশন ফাংশনের একটি প্লট নিম্নরূপ দেখায়:

একটি দ্বি-মাত্রিক বাঁকা প্লট যেখানে x মানগুলি ডোমেইন -ইনফিনিটি থেকে + পজিটিভ পর্যন্ত বিস্তৃত, যখন y মানগুলি 0 থেকে প্রায় 1 পর্যন্ত বিস্তৃত। যখন x 0 হয়, y হয় 0.5। বক্ররেখার ঢাল সর্বদাই ধনাত্মক, সর্বোচ্চ ঢাল 0,0.5 এবং ধীরে ধীরে ঢাল কমতে থাকে কারণ x এর পরম মান বৃদ্ধি পায়।

কৃত্রিম বুদ্ধিমত্তা

#মৌলিক

একটি অ-মানব প্রোগ্রাম বা মডেল যা পরিশীলিত কাজগুলি সমাধান করতে পারে। উদাহরণস্বরূপ, একটি প্রোগ্রাম বা মডেল যা পাঠ্য অনুবাদ করে বা একটি প্রোগ্রাম বা মডেল যা রেডিওলজিক চিত্র থেকে রোগ সনাক্ত করে উভয়ই কৃত্রিম বুদ্ধিমত্তা প্রদর্শন করে।

আনুষ্ঠানিকভাবে, মেশিন লার্নিং হল কৃত্রিম বুদ্ধিমত্তার একটি উপ-ক্ষেত্র। যাইহোক, সাম্প্রতিক বছরগুলিতে, কিছু সংস্থা কৃত্রিম বুদ্ধিমত্তা এবং মেশিন লার্নিং শব্দগুলিকে বিনিময়যোগ্যভাবে ব্যবহার করা শুরু করেছে।

AUC (ROC বক্ররেখার অধীনে এলাকা)

#মৌলিক

0.0 এবং 1.0 এর মধ্যে একটি সংখ্যা যা একটি বাইনারি শ্রেণীবিন্যাস মডেলের নেতিবাচক শ্রেণী থেকে ইতিবাচক শ্রেণীগুলিকে পৃথক করার ক্ষমতা উপস্থাপন করে। AUC 1.0 এর যত কাছাকাছি হবে, মডেলের একে অপরের থেকে ক্লাস আলাদা করার ক্ষমতা তত ভাল।

উদাহরণস্বরূপ, নিম্নলিখিত চিত্রটি একটি শ্রেণীবদ্ধ মডেল দেখায় যা ইতিবাচক শ্রেণীগুলি (সবুজ ডিম্বাকৃতি) নেতিবাচক শ্রেণীগুলি (বেগুনি আয়তক্ষেত্রগুলি) থেকে পুরোপুরি আলাদা করে। এই অবাস্তবভাবে নিখুঁত মডেলটির একটি AUC 1.0 রয়েছে:

এক পাশে 8টি ইতিবাচক উদাহরণ এবং অন্য পাশে 9টি নেতিবাচক উদাহরণ সহ একটি সংখ্যা রেখা৷

বিপরীতভাবে, নিম্নলিখিত চিত্রটি একটি শ্রেণিবদ্ধ মডেলের ফলাফল দেখায় যা এলোমেলো ফলাফল তৈরি করেছে। এই মডেলটির একটি AUC 0.5 রয়েছে:

6টি ইতিবাচক উদাহরণ এবং 6টি নেতিবাচক উদাহরণ সহ একটি সংখ্যা রেখা৷ উদাহরণের ক্রম হল ধনাত্মক, ঋণাত্মক, ধনাত্মক, ধনাত্মক, ধনাত্মক, নেতিবাচক, ধনাত্মক, নেতিবাচক, ধনাত্মক, ধনাত্মক, নেতিবাচক।

হ্যাঁ, পূর্ববর্তী মডেলটির একটি AUC 0.5 আছে, 0.0 নয়৷

বেশিরভাগ মডেল দুটি চরমের মধ্যে কোথাও আছে। উদাহরণস্বরূপ, নিম্নলিখিত মডেলটি নেতিবাচক থেকে ইতিবাচককে কিছুটা আলাদা করে, এবং তাই 0.5 এবং 1.0 এর মধ্যে একটি AUC রয়েছে:

6টি ইতিবাচক উদাহরণ এবং 6টি নেতিবাচক উদাহরণ সহ একটি সংখ্যা রেখা৷ উদাহরণের ক্রম হল ঋণাত্মক, ঋণাত্মক, ঋণাত্মক, ঋণাত্মক, নেতিবাচক, নেতিবাচক, ধনাত্মক, ধনাত্মক, ধনাত্মক, ধনাত্মক, ধনাত্মক।

AUC আপনার শ্রেণীবিন্যাস থ্রেশহোল্ডের জন্য সেট করা যেকোনো মান উপেক্ষা করে। পরিবর্তে, AUC সমস্ত সম্ভাব্য শ্রেণীবিভাগ থ্রেশহোল্ড বিবেচনা করে।

backpropagation

#মৌলিক

অ্যালগরিদম যা নিউরাল নেটওয়ার্কগুলিতে গ্রেডিয়েন্ট ডিসেন্ট প্রয়োগ করে৷

একটি নিউরাল নেটওয়ার্ক প্রশিক্ষণ নিম্নলিখিত দুই-পাস চক্রের অনেক পুনরাবৃত্তি জড়িত:

  1. ফরওয়ার্ড পাসের সময়, সিস্টেম ভবিষ্যদ্বাণী(গুলি) প্রদানের জন্য উদাহরণগুলির একটি ব্যাচ প্রক্রিয়া করে। সিস্টেম প্রতিটি লেবেল মানের সাথে প্রতিটি ভবিষ্যদ্বাণী তুলনা করে। ভবিষ্যদ্বাণী এবং লেবেল মানের মধ্যে পার্থক্য হল সেই উদাহরণের ক্ষতি । বর্তমান ব্যাচের মোট ক্ষতি গণনা করার জন্য সিস্টেমটি সমস্ত উদাহরণের জন্য ক্ষতিগুলিকে একত্রিত করে।
  2. ব্যাকওয়ার্ড পাসের সময় (ব্যাকপ্রপাগেশন), সিস্টেমটি সমস্ত লুকানো স্তর(গুলি) এর সমস্ত নিউরনের ওজন সামঞ্জস্য করে ক্ষতি হ্রাস করে।

নিউরাল নেটওয়ার্কে প্রায়ই অনেক লুকানো স্তর জুড়ে অনেক নিউরন থাকে। এই নিউরনগুলির প্রতিটি বিভিন্ন উপায়ে সামগ্রিক ক্ষতিতে অবদান রাখে। ব্যাকপ্রোপ্যাগেশন নির্দিষ্ট নিউরনগুলিতে প্রয়োগ করা ওজন বাড়ানো বা হ্রাস করা নির্ধারণ করে।

শেখার হার হল একটি গুণক যা প্রতিটি পশ্চাদগামী পাস প্রতিটি ওজন বৃদ্ধি বা হ্রাস করার মাত্রা নিয়ন্ত্রণ করে। একটি বড় শেখার হার প্রতিটি ওজন একটি ছোট শেখার হারের চেয়ে বেশি বৃদ্ধি বা হ্রাস করবে।

ক্যালকুলাস পদে, ব্যাকপ্রোপগেশন চেইন নিয়ম প্রয়োগ করে। ক্যালকুলাস থেকে অর্থাৎ, ব্যাকপ্রোপগেশন প্রতিটি প্যারামিটারের ক্ষেত্রে ত্রুটির আংশিক ডেরিভেটিভ গণনা করে।

কয়েক বছর আগে, এমএল অনুশীলনকারীদের ব্যাকপ্রোপগেশন বাস্তবায়নের জন্য কোড লিখতে হয়েছিল। TensorFlow-এর মতো আধুনিক ML APIগুলি এখন আপনার জন্য ব্যাকপ্রোপগেশন প্রয়োগ করে৷ ফাউ!

ব্যাচ

#মৌলিক

একটি প্রশিক্ষণের পুনরাবৃত্তিতে ব্যবহৃত উদাহরণের সেট। ব্যাচের আকার একটি ব্যাচে উদাহরণের সংখ্যা নির্ধারণ করে।

একটি ব্যাচ কিভাবে একটি যুগের সাথে সম্পর্কিত তার ব্যাখ্যার জন্য epoch দেখুন।

ব্যাচ আকার

#মৌলিক

একটি ব্যাচে উদাহরণের সংখ্যা। উদাহরণস্বরূপ, যদি ব্যাচের আকার 100 হয়, তাহলে মডেলটি প্রতি পুনরাবৃত্তি 100টি উদাহরণ প্রক্রিয়া করে।

নিম্নলিখিত জনপ্রিয় ব্যাচ আকার কৌশল:

  • স্টোকাস্টিক গ্রেডিয়েন্ট ডিসেন্ট (SGD) , যার ব্যাচের আকার 1।
  • সম্পূর্ণ ব্যাচ, যেখানে ব্যাচের আকার পুরো প্রশিক্ষণ সেটের উদাহরণের সংখ্যা। উদাহরণস্বরূপ, যদি প্রশিক্ষণ সেটে এক মিলিয়ন উদাহরণ থাকে, তাহলে ব্যাচের আকার এক মিলিয়ন উদাহরণ হবে। সম্পূর্ণ ব্যাচ সাধারণত একটি অদক্ষ কৌশল।
  • মিনি-ব্যাচ যেখানে ব্যাচের আকার সাধারণত 10 থেকে 1000 এর মধ্যে হয়। মিনি-ব্যাচ সাধারণত সবচেয়ে কার্যকরী কৌশল।

পক্ষপাত (নৈতিকতা/ন্যায়)

#ন্যায্যতা
#মৌলিক

1. কিছু জিনিস, মানুষ বা গোষ্ঠীর প্রতি স্টিরিওটাইপিং, কুসংস্কার বা পক্ষপাতিত্ব। এই পক্ষপাতগুলি ডেটা সংগ্রহ এবং ব্যাখ্যা, একটি সিস্টেমের নকশা এবং ব্যবহারকারীরা কীভাবে একটি সিস্টেমের সাথে যোগাযোগ করে তা প্রভাবিত করতে পারে। এই ধরনের পক্ষপাতের ফর্মগুলির মধ্যে রয়েছে:

2. একটি নমুনা বা রিপোর্টিং পদ্ধতি দ্বারা প্রবর্তিত পদ্ধতিগত ত্রুটি। এই ধরনের পক্ষপাতের ফর্মগুলির মধ্যে রয়েছে:

মেশিন লার্নিং মডেল বা ভবিষ্যদ্বাণী পক্ষপাতিত্ব শব্দের সাথে বিভ্রান্ত হবেন না।

পক্ষপাত (গণিত) বা পক্ষপাত শব্দ

#মৌলিক

একটি উত্স থেকে একটি বাধা বা অফসেট. বায়াস হল মেশিন লার্নিং মডেলের একটি প্যারামিটার, যা নিম্নলিখিতগুলির যে কোনো একটি দ্বারা চিহ্নিত করা হয়:

  • w 0

উদাহরণস্বরূপ, নিম্নোক্ত সূত্রে পক্ষপাত হল b :

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

একটি সাধারণ দ্বি-মাত্রিক লাইনে, পক্ষপাত মানে শুধু "y-ইন্টারসেপ্ট।" উদাহরণস্বরূপ, নিম্নলিখিত চিত্রে লাইনের পক্ষপাত হল 2।

0.5 এর ঢাল সহ একটি লাইনের প্লট এবং 2 এর একটি পক্ষপাত (y-ইন্টারসেপ্ট)।

পক্ষপাত বিদ্যমান কারণ সমস্ত মডেল মূল (0,0) থেকে শুরু হয় না। উদাহরণস্বরূপ, ধরুন একটি বিনোদন পার্কে প্রবেশ করতে 2 ইউরো এবং একজন গ্রাহক থাকার প্রতি ঘন্টার জন্য অতিরিক্ত 0.5 ইউরো। অতএব, মোট খরচ ম্যাপিং একটি মডেল 2 এর পক্ষপাতী কারণ সর্বনিম্ন খরচ হল 2 ইউরো।

নৈতিকতা এবং ন্যায্যতা বা ভবিষ্যদ্বাণী পক্ষপাতের সাথে পক্ষপাতিত্বের সাথে বিভ্রান্ত হওয়া উচিত নয়।

বাইনারি শ্রেণীবিভাগ

#মৌলিক

এক ধরনের শ্রেণীবিন্যাস টাস্ক যা দুটি পারস্পরিক একচেটিয়া শ্রেণীর একটির পূর্বাভাস দেয়:

উদাহরণস্বরূপ, নিম্নলিখিত দুটি মেশিন লার্নিং মডেল প্রতিটি বাইনারি শ্রেণীবিভাগ সম্পাদন করে:

  • একটি মডেল যা নির্ধারণ করে যে ইমেল বার্তাগুলি স্প্যাম (পজিটিভ ক্লাস) না স্প্যাম (নেতিবাচক ক্লাস)।
  • একটি মডেল যা একজন ব্যক্তির একটি নির্দিষ্ট রোগ (পজিটিভ ক্লাস) আছে কিনা বা সেই রোগ (নেতিবাচক শ্রেণী) নেই কিনা তা নির্ধারণ করতে চিকিৎসা লক্ষণগুলি মূল্যায়ন করে।

বহু-শ্রেণীর শ্রেণীবিভাগের সাথে বৈসাদৃশ্য।

লজিস্টিক রিগ্রেশন এবং শ্রেণীবিভাগ থ্রেশহোল্ড দেখুন।

বালতি

#মৌলিক

একটি একক বৈশিষ্ট্যকে একাধিক বাইনারি বৈশিষ্ট্যে রূপান্তর করা যাকে বলা হয় বালতি বা বিন , সাধারণত একটি মান পরিসরের উপর ভিত্তি করে। কাটা বৈশিষ্ট্যটি সাধারণত একটি অবিচ্ছিন্ন বৈশিষ্ট্য

উদাহরণস্বরূপ, তাপমাত্রাকে একটি অবিচ্ছিন্ন ফ্লোটিং-পয়েন্ট বৈশিষ্ট্য হিসাবে উপস্থাপন করার পরিবর্তে, আপনি তাপমাত্রার রেঞ্জগুলিকে আলাদা বালতিতে কাটতে পারেন, যেমন:

  • <= 10 ডিগ্রি সেলসিয়াস হবে "ঠান্ডা" বালতি।
  • 11 - 24 ডিগ্রি সেলসিয়াস "নাতিশীতোষ্ণ" বালতি হবে।
  • >= 25 ডিগ্রি সেলসিয়াস হবে "উষ্ণ" বালতি।

মডেলটি একই বালতিতে প্রতিটি মানকে অভিন্নভাবে বিবেচনা করবে। উদাহরণস্বরূপ, মান 13 এবং 22 উভয়ই নাতিশীতোষ্ণ বালতিতে রয়েছে, তাই মডেল দুটি মানকে অভিন্নভাবে বিবেচনা করে।

শ্রেণীবদ্ধ তথ্য

#মৌলিক

সম্ভাব্য মানগুলির একটি নির্দিষ্ট সেট থাকা বৈশিষ্ট্যগুলি ৷ উদাহরণ স্বরূপ, traffic-light-state নামে একটি শ্রেণীবদ্ধ বৈশিষ্ট্য বিবেচনা করুন, যেটিতে শুধুমাত্র নিম্নলিখিত তিনটি সম্ভাব্য মানগুলির মধ্যে একটি থাকতে পারে:

  • red
  • yellow
  • green

traffic-light-state একটি শ্রেণীবদ্ধ বৈশিষ্ট্য হিসাবে উপস্থাপন করে, একটি মডেল চালকের আচরণের উপর red , green এবং yellow বিভিন্ন প্রভাব শিখতে পারে।

শ্রেণীগত বৈশিষ্ট্যগুলিকে কখনও কখনও পৃথক বৈশিষ্ট্য বলা হয়।

সংখ্যাসূচক তথ্যের সাথে বৈসাদৃশ্য।

ক্লাস

#মৌলিক

একটি বিভাগ যা একটি লেবেল অন্তর্গত হতে পারে৷ উদাহরণ স্বরূপ:

একটি শ্রেণিবিন্যাস মডেল একটি শ্রেণির পূর্বাভাস দেয়। বিপরীতে, একটি রিগ্রেশন মডেল একটি শ্রেণির পরিবর্তে একটি সংখ্যার পূর্বাভাস দেয়।

শ্রেণিবিন্যাস মডেল

#মৌলিক

একটি মডেল যার ভবিষ্যদ্বাণী একটি ক্লাস । উদাহরণস্বরূপ, নিম্নলিখিত সমস্ত শ্রেণীবিভাগ মডেল:

  • একটি মডেল যা একটি ইনপুট বাক্যের ভাষার ভবিষ্যদ্বাণী করে (ফরাসি? স্প্যানিশ? ইতালীয়?)।
  • একটি মডেল যা গাছের প্রজাতির ভবিষ্যদ্বাণী করে (ম্যাপেল? ওক? বাওবাব?)।
  • একটি মডেল যা একটি নির্দিষ্ট চিকিৎসা অবস্থার জন্য ইতিবাচক বা নেতিবাচক শ্রেণীর পূর্বাভাস দেয়।

বিপরীতে, রিগ্রেশন মডেলগুলি ক্লাসের পরিবর্তে সংখ্যার পূর্বাভাস দেয়।

দুটি সাধারণ ধরনের শ্রেণিবিন্যাস মডেল হল:

শ্রেণীবিভাগ থ্রেশহোল্ড

#মৌলিক

একটি বাইনারি শ্রেণীবিভাগে , 0 এবং 1 এর মধ্যে একটি সংখ্যা যা একটি লজিস্টিক রিগ্রেশন মডেলের কাঁচা আউটপুটকে ধনাত্মক শ্রেণি বা নেতিবাচক শ্রেণির একটি ভবিষ্যদ্বাণীতে রূপান্তর করে। মনে রাখবেন যে শ্রেণীবিন্যাস থ্রেশহোল্ড এমন একটি মান যা একজন মানুষ বেছে নেয়, মডেল প্রশিক্ষণ দ্বারা নির্বাচিত একটি মান নয়।

একটি লজিস্টিক রিগ্রেশন মডেল 0 এবং 1 এর মধ্যে একটি কাঁচা মান আউটপুট করে। তারপর:

  • যদি এই কাঁচা মানটি শ্রেণিবিন্যাসের থ্রেশহোল্ডের চেয়ে বেশি হয়, তাহলে ধনাত্মক শ্রেণির পূর্বাভাস দেওয়া হয়।
  • যদি এই কাঁচা মানটি শ্রেণিবিন্যাসের থ্রেশহোল্ডের চেয়ে কম হয়, তাহলে নেতিবাচক শ্রেণির পূর্বাভাস দেওয়া হয়।

উদাহরণস্বরূপ, ধরুন শ্রেণীবিন্যাস থ্রেশহোল্ড হল 0.8। যদি কাঁচা মান 0.9 হয়, তাহলে মডেলটি ইতিবাচক শ্রেণীর পূর্বাভাস দেয়। যদি কাঁচা মান 0.7 হয়, তাহলে মডেলটি নেতিবাচক শ্রেণীর পূর্বাভাস দেয়।

শ্রেণীবিন্যাস থ্রেশহোল্ডের পছন্দ দৃঢ়ভাবে মিথ্যা ইতিবাচক এবং মিথ্যা নেতিবাচক সংখ্যাকে প্রভাবিত করে।

শ্রেণী-ভারসাম্যহীন ডেটাসেট

#মৌলিক

একটি শ্রেণিবিন্যাসের সমস্যার জন্য একটি ডেটাসেট যেখানে প্রতিটি শ্রেণীর লেবেলের মোট সংখ্যা উল্লেখযোগ্যভাবে আলাদা। উদাহরণস্বরূপ, একটি বাইনারি শ্রেণিবিন্যাস ডেটাসেট বিবেচনা করুন যার দুটি লেবেল নিম্নরূপ বিভক্ত:

  • 1,000,000 নেতিবাচক লেবেল
  • 10টি ইতিবাচক লেবেল

নেতিবাচক থেকে ইতিবাচক লেবেলের অনুপাত হল 100,000 থেকে 1, তাই এটি একটি শ্রেণী-ভারসাম্যহীন ডেটাসেট।

বিপরীতে, নিম্নলিখিত ডেটাসেটটি শ্রেণী-ভারসাম্যহীন নয় কারণ নেতিবাচক লেবেলের সাথে ইতিবাচক লেবেলের অনুপাত তুলনামূলকভাবে 1-এর কাছাকাছি:

  • 517 নেতিবাচক লেবেল
  • 483 ইতিবাচক লেবেল

মাল্টি-ক্লাস ডেটাসেটগুলিও শ্রেণী-ভারসাম্যহীন হতে পারে। উদাহরণস্বরূপ, নিম্নলিখিত মাল্টি-ক্লাস ক্লাসিফিকেশন ডেটাসেটটিও শ্রেণী-ভারসাম্যহীন কারণ একটি লেবেলে অন্য দুটির চেয়ে অনেক বেশি উদাহরণ রয়েছে:

  • "সবুজ" শ্রেণী সহ 1,000,000 লেবেল
  • "বেগুনি" ক্লাস সহ 200টি লেবেল
  • "কমলা" ক্লাস সহ 350টি লেবেল

এছাড়াও এনট্রপি , সংখ্যাগরিষ্ঠ শ্রেণী এবং সংখ্যালঘু শ্রেণী দেখুন।

ক্লিপিং

#মৌলিক

নিম্নলিখিত যে কোনো একটি বা উভয়টি করে বহিরাগতদের পরিচালনা করার একটি কৌশল:

  • সর্বাধিক থ্রেশহোল্ডের চেয়ে বেশি বৈশিষ্ট্যের মানগুলিকে সেই সর্বাধিক থ্রেশহোল্ডে হ্রাস করা৷
  • সেই ন্যূনতম থ্রেশহোল্ড পর্যন্ত ন্যূনতম থ্রেশহোল্ডের চেয়ে কম বৈশিষ্ট্যের মানগুলি বৃদ্ধি করা৷

উদাহরণস্বরূপ, ধরুন যে একটি নির্দিষ্ট বৈশিষ্ট্যের <0.5% মান 40-60 রেঞ্জের বাইরে পড়ে। এই ক্ষেত্রে, আপনি নিম্নলিখিত করতে পারেন:

  • 60-এর বেশি (সর্বোচ্চ থ্রেশহোল্ড) সমস্ত মান ঠিক 60 হতে ক্লিপ করুন।
  • 40 এর নিচে সব মান ক্লিপ করুন (সর্বনিম্ন থ্রেশহোল্ড) ঠিক 40 হতে হবে।

বহিরাগতরা মডেলের ক্ষতি করতে পারে, কখনও কখনও প্রশিক্ষণের সময় ওজন উপচে পড়ে। কিছু আউটলিয়ারও নাটকীয়ভাবে নির্ভুলতার মতো মেট্রিক্স নষ্ট করতে পারে। ক্লিপিং ক্ষতি সীমাবদ্ধ করার একটি সাধারণ কৌশল।

গ্রেডিয়েন্ট ক্লিপিং প্রশিক্ষণের সময় একটি নির্দিষ্ট সীমার মধ্যে গ্রেডিয়েন্ট মানগুলিকে জোর করে।

বিভ্রান্তি ম্যাট্রিক্স

#মৌলিক

একটি NxN টেবিল যা একটি শ্রেণীবিভাগ মডেল তৈরি করা সঠিক এবং ভুল ভবিষ্যদ্বাণীগুলির সংখ্যা সংক্ষিপ্ত করে। উদাহরণস্বরূপ, একটি বাইনারি শ্রেণীবিভাগ মডেলের জন্য নিম্নলিখিত বিভ্রান্তি ম্যাট্রিক্স বিবেচনা করুন:

টিউমার (ভবিষ্যদ্বাণী করা) অ-টিউমার (ভবিষ্যদ্বাণী করা)
টিউমার (স্থল সত্য) 18 (TP) 1 (FN)
অ-টিউমার (স্থল সত্য) 6 (FP) 452 (TN)

পূর্ববর্তী বিভ্রান্তি ম্যাট্রিক্স নিম্নলিখিত দেখায়:

  • 19টি ভবিষ্যদ্বাণীর মধ্যে যেখানে গ্রাউন্ড ট্রুথ টিউমার ছিল, মডেলটি সঠিকভাবে 18টি এবং ভুলভাবে 1 শ্রেণীবদ্ধ করেছে।
  • 458টি ভবিষ্যদ্বাণীর মধ্যে যেখানে গ্রাউন্ড ট্রুথ ছিল নন-টিউমার, মডেলটি সঠিকভাবে 452টি এবং ভুলভাবে 6টি শ্রেণীবদ্ধ করেছে।

বহু-শ্রেণীর শ্রেণীবিভাগ সমস্যার জন্য বিভ্রান্তি ম্যাট্রিক্স আপনাকে ভুলের ধরণ সনাক্ত করতে সাহায্য করতে পারে। উদাহরণস্বরূপ, একটি 3-শ্রেণীর মাল্টি-ক্লাস ক্লাসিফিকেশন মডেলের জন্য নিম্নলিখিত বিভ্রান্তি ম্যাট্রিক্স বিবেচনা করুন যা তিনটি ভিন্ন আইরিস প্রকার (ভার্জিনিকা, ভার্সিকলার এবং সেটোসা) শ্রেণীবদ্ধ করে। যখন গ্রাউন্ড ট্রুথ ভার্জিনিকা ছিল, তখন কনফিউশন ম্যাট্রিক্স দেখায় যে সেটোসার তুলনায় মডেলটির ভুলভাবে ভার্সিকলার ভবিষ্যদ্বাণী করার সম্ভাবনা অনেক বেশি ছিল:

সেতোসা (ভবিষ্যদ্বাণী করা) ভার্সিকলার (ভবিষ্যদ্বাণী করা) ভার্জিনিকা (ভবিষ্যদ্বাণী করা)
সেতোসা (ভূমি সত্য) ৮৮ 12 0
ভার্সিকলার (ভূমি সত্য) 6 141 7
ভার্জিনিকা (ভূমি সত্য) 2 27 109

আরেকটি উদাহরণ হিসাবে, একটি বিভ্রান্তি ম্যাট্রিক্স প্রকাশ করতে পারে যে হাতে লেখা অঙ্কগুলি চিনতে প্রশিক্ষিত একটি মডেল ভুলভাবে 4 এর পরিবর্তে 9 বা ভুলভাবে 7 এর পরিবর্তে 1 ভবিষ্যদ্বাণী করে।

বিভ্রান্তি ম্যাট্রিক্সে যথার্থতা এবং প্রত্যাহার সহ বিভিন্ন কর্মক্ষমতা মেট্রিক্স গণনা করার জন্য পর্যাপ্ত তথ্য রয়েছে।

ক্রমাগত বৈশিষ্ট্য

#মৌলিক

সম্ভাব্য মানের অসীম পরিসর সহ একটি ভাসমান-বিন্দু বৈশিষ্ট্য , যেমন তাপমাত্রা বা ওজন।

পৃথক বৈশিষ্ট্য সঙ্গে বৈসাদৃশ্য.

অভিন্নতা

#মৌলিক

প্রতিটি পুনরাবৃত্তির সাথে ক্ষতির মানগুলি খুব কম বা একেবারেই না পরিবর্তিত হলে এমন একটি অবস্থায় পৌঁছে যায়। উদাহরণস্বরূপ, নিম্নলিখিত ক্ষতির বক্ররেখাটি প্রায় 700 পুনরাবৃত্তিতে একত্রিত হওয়ার পরামর্শ দেয়:

কার্টেসিয়ান প্লট। এক্স-অক্ষ ক্ষতি। Y-অক্ষ হল প্রশিক্ষণের পুনরাবৃত্তির সংখ্যা। প্রথম কয়েকটি পুনরাবৃত্তির সময় ক্ষতি খুব বেশি হয়, তবে দ্রুত হ্রাস পায়। প্রায় 100টি পুনরাবৃত্তির পরে, ক্ষতি এখনও কমছে তবে আরও ধীরে ধীরে। প্রায় 700 পুনরাবৃত্তির পরে, ক্ষতি সমতল থাকে।

একটি মডেল একত্রিত হয় যখন অতিরিক্ত প্রশিক্ষণ মডেল উন্নত করবে না।

গভীর শিক্ষায় , ক্ষতির মান কখনও কখনও স্থির থাকে বা শেষ পর্যন্ত নামার আগে অনেক পুনরাবৃত্তির জন্য প্রায় তাই থাকে। ধ্রুবক ক্ষতির মানগুলির দীর্ঘ সময়ের মধ্যে, আপনি সাময়িকভাবে অভিসারের একটি মিথ্যা ধারণা পেতে পারেন।

তাড়াতাড়ি থামানোও দেখুন।

ডি

ডেটাফ্রেম

#মৌলিক

মেমরিতে ডেটাসেট উপস্থাপনের জন্য একটি জনপ্রিয় পান্ডা ডেটা টাইপ।

একটি ডেটাফ্রেম একটি টেবিল বা স্প্রেডশীটের সাথে সাদৃশ্যপূর্ণ। একটি ডেটাফ্রেমের প্রতিটি কলামের একটি নাম (একটি শিরোনাম) থাকে এবং প্রতিটি সারি একটি অনন্য সংখ্যা দ্বারা চিহ্নিত করা হয়।

একটি ডেটাফ্রেমের প্রতিটি কলাম একটি 2D অ্যারের মতো গঠন করা হয়, প্রতিটি কলামের নিজস্ব ডেটা টাইপ বরাদ্দ করা যেতে পারে।

অফিসিয়াল pandas.DataFrame রেফারেন্স পৃষ্ঠাও দেখুন।

ডেটা সেট বা ডেটাসেট

#মৌলিক

নিম্নোক্ত বিন্যাসগুলির মধ্যে একটিতে সাধারণত (কিন্তু একচেটিয়াভাবে নয়) সংগঠিত কাঁচা ডেটার একটি সংগ্রহ:

  • একটি স্প্রেডশীট
  • CSV (কমা-বিভক্ত মান) বিন্যাসে একটি ফাইল

গভীর মডেল

#মৌলিক

একটি নিউরাল নেটওয়ার্ক যাতে একাধিক লুকানো স্তর থাকে।

একটি গভীর মডেলকে গভীর নিউরাল নেটওয়ার্কও বলা হয়।

প্রশস্ত মডেলের সাথে বৈসাদৃশ্য।

ঘন বৈশিষ্ট্য

#মৌলিক

একটি বৈশিষ্ট্য যেখানে বেশিরভাগ বা সমস্ত মান অশূন্য, সাধারণত ফ্লোটিং-পয়েন্ট মানগুলির একটি টেনসর ৷ উদাহরণস্বরূপ, নিম্নলিখিত 10-উপাদান টেনসরটি ঘন কারণ এর 9টি মান অশূন্য:

8 3 7 5 2 4 0 4 9 6

স্পার্স বৈশিষ্ট্যের সাথে বৈসাদৃশ্য।

গভীরতা

#মৌলিক

একটি নিউরাল নেটওয়ার্কে নিম্নলিখিতগুলির সমষ্টি:

উদাহরণস্বরূপ, পাঁচটি লুকানো স্তর এবং একটি আউটপুট স্তর সহ একটি নিউরাল নেটওয়ার্কের গভীরতা 6।

লক্ষ্য করুন যে ইনপুট স্তর গভীরতা প্রভাবিত করে না।

পৃথক বৈশিষ্ট্য

#মৌলিক

সম্ভাব্য মানগুলির একটি সীমিত সেট সহ একটি বৈশিষ্ট্য । উদাহরণস্বরূপ, একটি বৈশিষ্ট্য যার মান শুধুমাত্র প্রাণী , উদ্ভিজ্জ বা খনিজ হতে পারে একটি পৃথক (বা শ্রেণীবদ্ধ) বৈশিষ্ট্য।

ক্রমাগত বৈশিষ্ট্য সঙ্গে বৈসাদৃশ্য.

গতিশীল

#মৌলিক

ঘন ঘন বা ক্রমাগত কিছু করা। গতিশীল এবং অনলাইন শব্দগুলি মেশিন লার্নিং এর সমার্থক শব্দ। মেশিন লার্নিংয়ে ডায়নামিক এবং অনলাইনের সাধারণ ব্যবহার নিম্নরূপ:

  • একটি গতিশীল মডেল (বা অনলাইন মডেল ) হল একটি মডেল যা ঘন ঘন বা ক্রমাগত পুনরায় প্রশিক্ষণ দেওয়া হয়।
  • ডায়নামিক ট্রেনিং (বা অনলাইন ট্রেনিং ) হল ঘন ঘন বা একটানা প্রশিক্ষণের প্রক্রিয়া।
  • গতিশীল অনুমান (বা অনলাইন অনুমান ) হল চাহিদার উপর পূর্বাভাস তৈরি করার প্রক্রিয়া।

গতিশীল মডেল

#মৌলিক

একটি মডেল যা ঘন ঘন (সম্ভবত এমনকি ক্রমাগত) পুনরায় প্রশিক্ষিত হয়। একটি গতিশীল মডেল হল একটি "আজীবন শিক্ষার্থী" যা ক্রমাগত বিকশিত ডেটার সাথে খাপ খায়। একটি গতিশীল মডেল একটি অনলাইন মডেল হিসাবেও পরিচিত।

স্ট্যাটিক মডেলের সাথে বৈসাদৃশ্য।

তাড়াতাড়ি থামানো

#মৌলিক

নিয়মিতকরণের একটি পদ্ধতি যা প্রশিক্ষণের ক্ষতি কমানোর আগে প্রশিক্ষণ শেষ করে। প্রারম্ভিক বন্ধে, আপনি ইচ্ছাকৃতভাবে মডেলের প্রশিক্ষণ বন্ধ করে দেন যখন একটি বৈধতা ডেটাসেটের ক্ষতি বাড়তে থাকে; যে, যখন সাধারণীকরণ কর্মক্ষমতা খারাপ হয়.

এম্বেডিং স্তর

#ভাষা
#মৌলিক

একটি বিশেষ লুকানো স্তর যা একটি উচ্চ-মাত্রিক শ্রেণীগত বৈশিষ্ট্যের উপর প্রশিক্ষণ দেয় যা ধীরে ধীরে একটি নিম্ন মাত্রার এম্বেডিং ভেক্টর শিখতে পারে। একটি এম্বেডিং স্তর একটি নিউরাল নেটওয়ার্ককে শুধুমাত্র উচ্চ-মাত্রিক শ্রেণীগত বৈশিষ্ট্যের উপর প্রশিক্ষণের চেয়ে অনেক বেশি দক্ষতার সাথে প্রশিক্ষণ দিতে সক্ষম করে।

উদাহরণস্বরূপ, পৃথিবী বর্তমানে প্রায় 73,000 গাছের প্রজাতিকে সমর্থন করে। ধরুন গাছের প্রজাতি আপনার মডেলের একটি বৈশিষ্ট্য , তাই আপনার মডেলের ইনপুট স্তরে একটি এক-হট ভেক্টর 73,000 উপাদান রয়েছে। উদাহরণস্বরূপ, সম্ভবত baobab এই মত কিছু প্রতিনিধিত্ব করা হবে:

73,000 উপাদানের একটি অ্যারে। প্রথম 6,232 উপাদান মান 0 ধারণ করে। পরের উপাদান 1 মান ধারণ করে। চূড়ান্ত 66,767 উপাদান মান শূন্য ধরে।

একটি 73,000-এলিমেন্ট অ্যারে খুব দীর্ঘ। আপনি যদি মডেলটিতে একটি এম্বেডিং স্তর যোগ না করেন, তাহলে 72,999 শূন্য গুণ করার কারণে প্রশিক্ষণটি খুব সময়সাপেক্ষ হতে চলেছে। সম্ভবত আপনি 12টি মাত্রা সমন্বিত করার জন্য এম্বেডিং স্তরটি বেছে নিন। ফলস্বরূপ, এম্বেডিং স্তরটি ধীরে ধীরে প্রতিটি গাছের প্রজাতির জন্য একটি নতুন এমবেডিং ভেক্টর শিখবে।

কিছু পরিস্থিতিতে, হ্যাশিং একটি এম্বেডিং স্তরের একটি যুক্তিসঙ্গত বিকল্প।

যুগ

#মৌলিক

পুরো প্রশিক্ষণ সেটের উপর একটি সম্পূর্ণ প্রশিক্ষণ পাস যাতে প্রতিটি উদাহরণ একবার প্রক্রিয়া করা হয়েছে।

একটি যুগ N / ব্যাচ আকারের প্রশিক্ষণের পুনরাবৃত্তির প্রতিনিধিত্ব করে, যেখানে N হল মোট উদাহরণের সংখ্যা।

উদাহরণস্বরূপ, নিম্নলিখিতটি ধরুন:

  • ডেটাসেটটিতে 1,000টি উদাহরণ রয়েছে।
  • ব্যাচ আকার 50 উদাহরণ.

অতএব, একটি একক যুগের জন্য 20টি পুনরাবৃত্তি প্রয়োজন:

1 epoch = (N/batch size) = (1,000 / 50) = 20 iterations

উদাহরণ

#মৌলিক

বৈশিষ্ট্যের একটি সারির মান এবং সম্ভবত একটি লেবেলতত্ত্বাবধানে শিক্ষার উদাহরণ দুটি সাধারণ বিভাগে পড়ে:

  • একটি লেবেলযুক্ত উদাহরণে এক বা একাধিক বৈশিষ্ট্য এবং একটি লেবেল থাকে। লেবেলযুক্ত উদাহরণ প্রশিক্ষণের সময় ব্যবহার করা হয়।
  • লেবেলবিহীন উদাহরণে এক বা একাধিক বৈশিষ্ট্য থাকে কিন্তু কোনো লেবেল থাকে না। লেবেলবিহীন উদাহরণ অনুমানের সময় ব্যবহার করা হয়।

উদাহরণস্বরূপ, ধরুন আপনি শিক্ষার্থীদের পরীক্ষার স্কোরের উপর আবহাওয়ার অবস্থার প্রভাব নির্ধারণের জন্য একটি মডেলকে প্রশিক্ষণ দিচ্ছেন। এখানে তিনটি লেবেলযুক্ত উদাহরণ রয়েছে:

বৈশিষ্ট্য লেবেল
তাপমাত্রা আর্দ্রতা চাপ পরীক্ষার স্কোর
15 47 998 ভাল
19 34 1020 চমৎকার
18 92 1012 দরিদ্র

এখানে তিনটি লেবেলবিহীন উদাহরণ রয়েছে:

তাপমাত্রা আর্দ্রতা চাপ
12 62 1014
21 47 1017
19 41 1021

একটি ডেটাসেটের সারিটি সাধারণত একটি উদাহরণের জন্য কাঁচা উত্স। অর্থাৎ, একটি উদাহরণে সাধারণত ডেটাসেটের কলামগুলির একটি উপসেট থাকে। উপরন্তু, একটি উদাহরণের বৈশিষ্ট্যগুলিতে সিন্থেটিক বৈশিষ্ট্যগুলিও অন্তর্ভুক্ত থাকতে পারে, যেমন বৈশিষ্ট্য ক্রস

মিথ্যা নেতিবাচক (এফএন)

#মৌলিক

একটি উদাহরণ যেখানে মডেলটি ভুলভাবে নেতিবাচক শ্রেণীর ভবিষ্যদ্বাণী করে। উদাহরণস্বরূপ, মডেলটি ভবিষ্যদ্বাণী করে যে একটি নির্দিষ্ট ইমেল বার্তা স্প্যাম নয় (নেতিবাচক শ্রেণি), কিন্তু সেই ইমেল বার্তাটি আসলে স্প্যাম

মিথ্যা পজিটিভ (FP)

#মৌলিক

একটি উদাহরণ যেখানে মডেল ভুলভাবে ইতিবাচক শ্রেণীর ভবিষ্যদ্বাণী করে। উদাহরণস্বরূপ, মডেলটি ভবিষ্যদ্বাণী করে যে একটি নির্দিষ্ট ইমেল বার্তাটি স্প্যাম (পজিটিভ ক্লাস), কিন্তু সেই ইমেল বার্তাটি আসলে স্প্যাম নয়

মিথ্যা ইতিবাচক হার (FPR)

#মৌলিক

প্রকৃত নেতিবাচক উদাহরণের অনুপাত যার জন্য মডেলটি ভুলভাবে ইতিবাচক শ্রেণীর ভবিষ্যদ্বাণী করেছে। নিম্নলিখিত সূত্রটি মিথ্যা ইতিবাচক হার গণনা করে:

$$\text{false positive rate} = \frac{\text{false positives}}{\text{false positives} + \text{true negatives}}$$

মিথ্যা ধনাত্মক হার হল একটি ROC বক্ররেখার x-অক্ষ।

বৈশিষ্ট্য

#মৌলিক

একটি মেশিন লার্নিং মডেলের একটি ইনপুট পরিবর্তনশীল। একটি উদাহরণ এক বা একাধিক বৈশিষ্ট্য নিয়ে গঠিত। উদাহরণস্বরূপ, ধরুন আপনি শিক্ষার্থীদের পরীক্ষার স্কোরের উপর আবহাওয়ার অবস্থার প্রভাব নির্ধারণের জন্য একটি মডেলকে প্রশিক্ষণ দিচ্ছেন। নিম্নলিখিত সারণী তিনটি উদাহরণ দেখায়, যার প্রতিটিতে তিনটি বৈশিষ্ট্য এবং একটি লেবেল রয়েছে:

বৈশিষ্ট্য লেবেল
তাপমাত্রা আর্দ্রতা চাপ পরীক্ষার স্কোর
15 47 998 92
19 34 1020 84
18 92 1012 87

লেবেলের সাথে বৈসাদৃশ্য।

বৈশিষ্ট্য ক্রস

#মৌলিক

একটি সিন্থেটিক বৈশিষ্ট্য "ক্রসিং" শ্রেণীগত বা বালতি বৈশিষ্ট্য দ্বারা গঠিত।

উদাহরণস্বরূপ, একটি "মেজাজ পূর্বাভাস" মডেল বিবেচনা করুন যা নিম্নলিখিত চারটি বালতিগুলির মধ্যে একটিতে তাপমাত্রা উপস্থাপন করে:

  • freezing
  • chilly
  • temperate
  • warm

এবং নিম্নলিখিত তিনটি বালতিগুলির মধ্যে একটিতে বাতাসের গতি উপস্থাপন করে:

  • still
  • light
  • windy

বৈশিষ্ট্য ক্রস ছাড়াই, রৈখিক মডেল পূর্ববর্তী সাতটি বিভিন্ন বালতিগুলির প্রতিটিতে স্বাধীনভাবে ট্রেন করে। সুতরাং, মডেলটি ট্রেনিং করে, উদাহরণস্বরূপ, প্রশিক্ষণের থেকে স্বাধীনভাবে freezing , উদাহরণস্বরূপ, windy

বিকল্পভাবে, আপনি তাপমাত্রা এবং বাতাসের গতির একটি বৈশিষ্ট্য ক্রস তৈরি করতে পারেন। এই সিন্থেটিক বৈশিষ্ট্যের নিম্নলিখিত 12টি সম্ভাব্য মান থাকবে:

  • freezing-still
  • freezing-light
  • freezing-windy
  • chilly-still
  • chilly-light
  • chilly-windy
  • temperate-still
  • temperate-light
  • temperate-windy
  • warm-still
  • warm-light
  • warm-windy

ফিচার ক্রসের জন্য ধন্যবাদ, মডেলটি freezing-windy দিন এবং freezing-still দিনের মধ্যে মেজাজের পার্থক্য শিখতে পারে।

আপনি যদি দুটি বৈশিষ্ট্য থেকে একটি সিন্থেটিক বৈশিষ্ট্য তৈরি করেন যার প্রতিটিতে অনেকগুলি আলাদা বালতি থাকে, ফলে বৈশিষ্ট্য ক্রসটিতে বিপুল সংখ্যক সম্ভাব্য সংমিশ্রণ থাকবে। উদাহরণস্বরূপ, যদি একটি বৈশিষ্ট্যে 1,000 বালতি থাকে এবং অন্য বৈশিষ্ট্যটিতে 2,000 বালতি থাকে, ফলে বৈশিষ্ট্য ক্রসটিতে 2,000,000 বালতি থাকে৷

আনুষ্ঠানিকভাবে, একটি ক্রস একটি কার্টেসিয়ান পণ্য

ফিচার ক্রসগুলি বেশিরভাগ লিনিয়ার মডেলের সাথে ব্যবহৃত হয় এবং খুব কমই নিউরাল নেটওয়ার্কের সাথে ব্যবহার করা হয়।

বৈশিষ্ট্য প্রকৌশল

#মৌলিক
#টেনসরফ্লো

একটি প্রক্রিয়া যা নিম্নলিখিত পদক্ষেপগুলিকে অন্তর্ভুক্ত করে:

  1. মডেল প্রশিক্ষণের জন্য কোন বৈশিষ্ট্যগুলি কার্যকর হতে পারে তা নির্ধারণ করা।
  2. ডেটাসেট থেকে কাঁচা ডেটাকে সেই বৈশিষ্ট্যগুলির দক্ষ সংস্করণে রূপান্তর করা।

উদাহরণস্বরূপ, আপনি নির্ধারণ করতে পারেন যে temperature একটি দরকারী বৈশিষ্ট্য হতে পারে। তারপর, মডেলটি বিভিন্ন temperature রেঞ্জ থেকে কী শিখতে পারে তা অপ্টিমাইজ করতে আপনি বাকেটিংয়ের সাথে পরীক্ষা করতে পারেন।

ফিচার ইঞ্জিনিয়ারিংকে কখনও কখনও ফিচার এক্সট্রাকশন বা ফিচারাইজেশন বলা হয়।

বৈশিষ্ট্য সেট

#মৌলিক

আপনার মেশিন লার্নিং মডেল ট্রেনের বৈশিষ্ট্যগুলির গ্রুপ। উদাহরণস্বরূপ, পোস্টাল কোড, সম্পত্তির আকার এবং সম্পত্তির অবস্থার মধ্যে একটি মডেলের জন্য একটি সাধারণ বৈশিষ্ট্য সেট থাকতে পারে যা আবাসন মূল্যের পূর্বাভাস দেয়।

বৈশিষ্ট্য ভেক্টর

#মৌলিক

একটি উদাহরণ সমন্বিত বৈশিষ্ট্য মানের অ্যারে। প্রশিক্ষণের সময় এবং অনুমানের সময় বৈশিষ্ট্য ভেক্টর ইনপুট হয়। উদাহরণস্বরূপ, দুটি পৃথক বৈশিষ্ট্য সহ একটি মডেলের বৈশিষ্ট্য ভেক্টর হতে পারে:

[0.92, 0.56]

চারটি স্তর: একটি ইনপুট স্তর, দুটি লুকানো স্তর এবং একটি আউটপুট স্তর। ইনপুট স্তরে দুটি নোড রয়েছে, একটিতে 0.92 মান এবং অন্যটিতে 0.56 মান রয়েছে।

প্রতিটি উদাহরণ বৈশিষ্ট্য ভেক্টরের জন্য বিভিন্ন মান সরবরাহ করে, তাই পরবর্তী উদাহরণের জন্য বৈশিষ্ট্য ভেক্টর এমন কিছু হতে পারে:

[0.73, 0.49]

ফিচার ইঞ্জিনিয়ারিং ফিচার ভেক্টরে বৈশিষ্ট্যগুলিকে কীভাবে উপস্থাপন করতে হয় তা নির্ধারণ করে। উদাহরণস্বরূপ, পাঁচটি সম্ভাব্য মান সহ একটি বাইনারি শ্রেণীবদ্ধ বৈশিষ্ট্য এক-হট এনকোডিং দিয়ে উপস্থাপন করা যেতে পারে। এই ক্ষেত্রে, একটি নির্দিষ্ট উদাহরণের জন্য বৈশিষ্ট্য ভেক্টরের অংশে চারটি শূন্য এবং তৃতীয় অবস্থানে একটি একক 1.0 থাকবে, নিম্নরূপ:

[0.0, 0.0, 1.0, 0.0, 0.0]

অন্য উদাহরণ হিসাবে, ধরুন আপনার মডেল তিনটি বৈশিষ্ট্য নিয়ে গঠিত:

  • এক-হট এনকোডিং দ্বারা উপস্থাপিত পাঁচটি সম্ভাব্য মান সহ একটি বাইনারি শ্রেণীবদ্ধ বৈশিষ্ট্য; উদাহরণস্বরূপ: [0.0, 1.0, 0.0, 0.0, 0.0]
  • তিনটি সম্ভাব্য মান সহ আরেকটি বাইনারি শ্রেণীবদ্ধ বৈশিষ্ট্য যা এক-হট এনকোডিং দ্বারা উপস্থাপিত হয়; উদাহরণস্বরূপ: [0.0, 0.0, 1.0]
  • একটি ভাসমান-বিন্দু বৈশিষ্ট্য; উদাহরণস্বরূপ: 8.3

এই ক্ষেত্রে, প্রতিটি উদাহরণের জন্য বৈশিষ্ট্য ভেক্টর নয়টি মান দ্বারা প্রতিনিধিত্ব করা হবে। পূর্ববর্তী তালিকায় উদাহরণ মান দেওয়া, বৈশিষ্ট্য ভেক্টর হবে:

0.0
1.0
0.0
0.0
0.0
0.0
0.0
1.0
8.3

প্রতিক্রিয়া লুপ

#মৌলিক

মেশিন লার্নিং-এ, এমন একটি পরিস্থিতি যেখানে একটি মডেলের ভবিষ্যদ্বাণী একই মডেল বা অন্য মডেলের প্রশিক্ষণ ডেটাকে প্রভাবিত করে। উদাহরণ স্বরূপ, একটি মডেল যেটি চলচ্চিত্রের সুপারিশ করে সেগুলিকে প্রভাবিত করবে যা লোকেরা দেখে, যা পরবর্তী মুভি সুপারিশ মডেলগুলিকে প্রভাবিত করবে।

জি

সাধারণীকরণ

#মৌলিক

একটি মডেলের নতুন, পূর্বে অদেখা তথ্যে সঠিক ভবিষ্যদ্বাণী করার ক্ষমতা। একটি মডেল যা সাধারণীকরণ করতে পারে তা হল একটি মডেলের বিপরীত যা ওভারফিটিং

সাধারণীকরণ বক্ররেখা

#মৌলিক

পুনরাবৃত্তির সংখ্যার একটি ফাংশন হিসাবে প্রশিক্ষণ ক্ষতি এবং বৈধতা ক্ষতি উভয়ের একটি প্লট।

একটি সাধারণীকরণ বক্ররেখা আপনাকে সম্ভাব্য ওভারফিটিং সনাক্ত করতে সাহায্য করতে পারে। উদাহরণস্বরূপ, নিম্নোক্ত সাধারণীকরণ বক্ররেখাটি ওভারফিটিং প্রস্তাব করে কারণ বৈধতা ক্ষতি শেষ পর্যন্ত প্রশিক্ষণের ক্ষতির চেয়ে উল্লেখযোগ্যভাবে বেশি হয়।

একটি কার্টেসিয়ান গ্রাফ যেখানে y-অক্ষকে ক্ষতি লেবেল করা হয় এবং x-অক্ষটিকে পুনরাবৃত্তি লেবেল করা হয়। দুটি প্লট প্রদর্শিত হয়। একটি প্লট প্রশিক্ষণের ক্ষতি দেখায় এবং অন্যটি বৈধতা ক্ষতি দেখায়। দুটি প্লট একইভাবে শুরু হয়, তবে প্রশিক্ষণের ক্ষতি অবশেষে বৈধতা ক্ষতির চেয়ে অনেক কম হয়ে যায়।

গ্রেডিয়েন্ট ডিসেন্ট

#মৌলিক

ক্ষতি কমানোর জন্য একটি গাণিতিক কৌশল। গ্রেডিয়েন্ট ডিসেন্ট পুনরাবৃত্তভাবে ওজন এবং পক্ষপাতগুলি সামঞ্জস্য করে, ধীরে ধীরে ক্ষতি কমাতে সর্বোত্তম সমন্বয় খুঁজে পায়।

গ্রেডিয়েন্ট ডিসেন্ট মেশিন লার্নিংয়ের চেয়ে পুরানো—অনেক, অনেক পুরনো৷

কঠিন সত্য

#মৌলিক

বাস্তবতা।

যে জিনিস আসলে ঘটেছে.

উদাহরণস্বরূপ, একটি বাইনারি শ্রেণিবিন্যাস মডেল বিবেচনা করুন যা ভবিষ্যদ্বাণী করে যে বিশ্ববিদ্যালয়ের প্রথম বর্ষের একজন শিক্ষার্থী ছয় বছরের মধ্যে স্নাতক হবে কিনা। এই মডেলের জন্য স্থল সত্য হল যে ছাত্র আসলে ছয় বছরের মধ্যে স্নাতক হয়েছে কি না।

এইচ

লুকানো স্তর

#মৌলিক

ইনপুট স্তর (বৈশিষ্ট্য) এবং আউটপুট স্তর (পূর্বাভাস) এর মধ্যে একটি নিউরাল নেটওয়ার্কের একটি স্তর। প্রতিটি লুকানো স্তর এক বা একাধিক নিউরন নিয়ে গঠিত। উদাহরণস্বরূপ, নিম্নলিখিত নিউরাল নেটওয়ার্কে দুটি লুকানো স্তর রয়েছে, প্রথমটিতে তিনটি নিউরন এবং দ্বিতীয়টিতে দুটি নিউরন রয়েছে:

চার স্তর। প্রথম স্তরটি দুটি বৈশিষ্ট্য ধারণকারী একটি ইনপুট স্তর। দ্বিতীয় স্তরটি একটি লুকানো স্তর যাতে তিনটি নিউরন থাকে। তৃতীয় স্তরটি একটি লুকানো স্তর যাতে দুটি নিউরন থাকে। চতুর্থ স্তরটি একটি আউটপুট স্তর। প্রতিটি বৈশিষ্ট্যে তিনটি প্রান্ত রয়েছে, যার প্রতিটি দ্বিতীয় স্তরে একটি ভিন্ন নিউরনের দিকে নির্দেশ করে। দ্বিতীয় স্তরের প্রতিটি নিউরনে দুটি প্রান্ত রয়েছে, যার প্রতিটি তৃতীয় স্তরে একটি ভিন্ন নিউরনের দিকে নির্দেশ করে। তৃতীয় স্তরের প্রতিটি নিউরনে একটি প্রান্ত থাকে, প্রতিটি আউটপুট স্তরের দিকে নির্দেশ করে।

একটি গভীর নিউরাল নেটওয়ার্কে একাধিক লুকানো স্তর থাকে। উদাহরণস্বরূপ, পূর্ববর্তী চিত্রটি একটি গভীর নিউরাল নেটওয়ার্ক কারণ মডেলটিতে দুটি লুকানো স্তর রয়েছে।

হাইপারপ্যারামিটার

#মৌলিক

আপনি বা হাইপারপ্যারামিটার টিউনিং পরিষেবাযে ভেরিয়েবলগুলি একটি মডেলকে প্রশিক্ষণের ধারাবাহিক রানের সময় সামঞ্জস্য করে। উদাহরণস্বরূপ, শেখার হার একটি হাইপারপ্যারামিটার। আপনি একটি প্রশিক্ষণ সেশনের আগে শেখার হার 0.01 এ সেট করতে পারেন। আপনি যদি নির্ধারণ করেন যে 0.01 খুব বেশি, আপনি সম্ভবত পরবর্তী প্রশিক্ষণ সেশনের জন্য শেখার হার 0.003 সেট করতে পারেন।

বিপরীতে, প্যারামিটার হল বিভিন্ন ওজন এবং পক্ষপাত যা মডেল প্রশিক্ষণের সময় শেখে

আমি

স্বাধীনভাবে এবং অভিন্নভাবে বিতরণ করা (আইআইডি)

#মৌলিক

একটি বিতরণ থেকে আঁকা ডেটা যা পরিবর্তন হয় না, এবং যেখানে আঁকা প্রতিটি মান পূর্বে আঁকা মানগুলির উপর নির্ভর করে না। একটি আইআইডি হল মেশিন লার্নিং-এর আদর্শ গ্যাস —একটি উপযোগী গাণিতিক গঠন কিন্তু বাস্তব জগতে প্রায় কখনোই পাওয়া যায় না। উদাহরণস্বরূপ, একটি ওয়েব পৃষ্ঠায় দর্শকদের বিতরণ একটি সংক্ষিপ্ত উইন্ডোতে আইআইডি হতে পারে; অর্থাৎ, সেই সংক্ষিপ্ত উইন্ডোর সময় বন্টন পরিবর্তিত হয় না এবং একজনের ভিজিট সাধারণত অন্যের ভিজিট থেকে স্বাধীন হয়। যাইহোক, যদি আপনি সময়ের সেই উইন্ডোটি প্রসারিত করেন, ওয়েব পৃষ্ঠার দর্শকদের মধ্যে ঋতুগত পার্থক্য প্রদর্শিত হতে পারে।

অস্থিরতাও দেখুন।

অনুমান

#মৌলিক

মেশিন লার্নিং-এ, লেবেলবিহীন উদাহরণে একটি প্রশিক্ষিত মডেল প্রয়োগ করে ভবিষ্যদ্বাণী করার প্রক্রিয়া।

পরিসংখ্যানে ইনফারেন্সের কিছুটা ভিন্ন অর্থ রয়েছে। বিস্তারিত জানার জন্য পরিসংখ্যানগত অনুমানের উপর উইকিপিডিয়া নিবন্ধটি দেখুন।

ইনপুট স্তর

#মৌলিক

একটি নিউরাল নেটওয়ার্কের স্তর যা বৈশিষ্ট্য ভেক্টর ধারণ করে। অর্থাৎ, ইনপুট স্তর প্রশিক্ষণ বা অনুমানের জন্য উদাহরণ প্রদান করে। উদাহরণস্বরূপ, নিম্নলিখিত নিউরাল নেটওয়ার্কের ইনপুট স্তর দুটি বৈশিষ্ট্য নিয়ে গঠিত:

চারটি স্তর: একটি ইনপুট স্তর, দুটি লুকানো স্তর এবং একটি আউটপুট স্তর।

ব্যাখ্যাযোগ্যতা

#মৌলিক

একজন মানুষের কাছে বোধগম্য পদে একটি এমএল মডেলের যুক্তি ব্যাখ্যা করার বা উপস্থাপন করার ক্ষমতা।

বেশিরভাগ লিনিয়ার রিগ্রেশন মডেল, উদাহরণস্বরূপ, অত্যন্ত ব্যাখ্যাযোগ্য। (আপনাকে প্রতিটি বৈশিষ্ট্যের জন্য শুধুমাত্র প্রশিক্ষিত ওজনের দিকে তাকাতে হবে।) সিদ্ধান্ত বনগুলিও অত্যন্ত ব্যাখ্যাযোগ্য। কিছু মডেলের অবশ্য ব্যাখ্যাযোগ্য হওয়ার জন্য পরিশীলিত ভিজ্যুয়ালাইজেশন প্রয়োজন।

আপনি ML মডেল ব্যাখ্যা করতে লার্নিং ইন্টারপ্রিটেবিলিটি টুল (LIT) ব্যবহার করতে পারেন।

পুনরাবৃত্তি

#মৌলিক

একটি মডেলের প্যারামিটারের একক আপডেট — মডেলের ওজন এবং পক্ষপাতপ্রশিক্ষণের সময়ব্যাচের আকার নির্ধারণ করে যে মডেলটি একটি একক পুনরাবৃত্তিতে কতগুলি উদাহরণ প্রক্রিয়া করে। উদাহরণস্বরূপ, যদি ব্যাচের আকার 20 হয়, তাহলে মডেলটি পরামিতিগুলি সামঞ্জস্য করার আগে 20টি উদাহরণ প্রক্রিয়া করে।

একটি নিউরাল নেটওয়ার্ক প্রশিক্ষণের সময়, একটি একক পুনরাবৃত্তি নিম্নলিখিত দুটি পাস জড়িত:

  1. একটি একক ব্যাচে ক্ষতি মূল্যায়ন করার জন্য একটি ফরোয়ার্ড পাস।
  2. ক্ষতি এবং শেখার হারের উপর ভিত্তি করে মডেলের পরামিতিগুলি সামঞ্জস্য করার জন্য একটি পশ্চাদগামী পাস ( ব্যাকপ্রোপাগেশন )।

এল

এল 0 নিয়মিতকরণ

#মৌলিক

নিয়মিতকরণের একটি প্রকার যা একটি মডেলের মোট সংখ্যার অশূন্য ওজনকে শাস্তি দেয়। উদাহরণস্বরূপ, 11টি অশূন্য ওজনের একটি মডেল 10টি অশূন্য ওজনের অনুরূপ মডেলের চেয়ে বেশি দণ্ডিত হবে৷

L 0 নিয়মিতকরণকে কখনও কখনও L0- আদর্শ নিয়মিতকরণ বলা হয়।

L 1 ক্ষতি

#মৌলিক

একটি ক্ষতি ফাংশন যা প্রকৃত লেবেল মান এবং মডেলের ভবিষ্যদ্বাণী করা মানগুলির মধ্যে পার্থক্যের পরম মান গণনা করে। উদাহরণস্বরূপ, এখানে পাঁচটি উদাহরণের একটি ব্যাচের জন্য L 1 ক্ষতির গণনা রয়েছে:

উদাহরণের প্রকৃত মান মডেলের পূর্বাভাসিত মান ব-দ্বীপের পরম মান
7 6 1
5 4 1
8 11 3
4 6 2
9 8 1
8 = L 1 ক্ষতি

L 1 ক্ষতি L 2 ক্ষতির চেয়ে বহিরাগতদের জন্য কম সংবেদনশীল।

গড় পরম ত্রুটি হল উদাহরণ প্রতি গড় L 1 ক্ষতি।

এল 1 নিয়মিতকরণ

#মৌলিক

নিয়মিতকরণের একটি প্রকার যা ওজনের পরম মানের যোগফলের অনুপাতে ওজনকে শাস্তি দেয়। L 1 নিয়মিতকরণ অপ্রাসঙ্গিক বা সবেমাত্র প্রাসঙ্গিক বৈশিষ্ট্যগুলির ওজনকে ঠিক 0 এ চালাতে সাহায্য করে। 0 এর ওজন সহ একটি বৈশিষ্ট্য কার্যকরভাবে মডেল থেকে সরানো হয়েছে।

L 2 নিয়মিতকরণের সাথে বৈসাদৃশ্য।

L 2 ক্ষতি

#মৌলিক

একটি ক্ষতি ফাংশন যা প্রকৃত লেবেল মান এবং মডেলের ভবিষ্যদ্বাণী করা মানগুলির মধ্যে পার্থক্যের বর্গ গণনা করে৷ উদাহরণস্বরূপ, এখানে পাঁচটি উদাহরণের একটি ব্যাচের জন্য L 2 ক্ষতির গণনা রয়েছে:

উদাহরণের প্রকৃত মান মডেলের পূর্বাভাসিত মান ব-দ্বীপের বর্গক্ষেত্র
7 6 1
5 4 1
8 11 9
4 6 4
9 8 1
16 = L 2 ক্ষতি

বর্গক্ষেত্রের কারণে, L 2 ক্ষতি আউটলারের প্রভাবকে বাড়িয়ে তোলে। অর্থাৎ, L 2 ক্ষতি L 1 ক্ষতির চেয়ে খারাপ ভবিষ্যদ্বাণীতে আরও জোরালো প্রতিক্রিয়া দেখায়। উদাহরণস্বরূপ, পূর্ববর্তী ব্যাচের জন্য L 1 ক্ষতি 16 এর পরিবর্তে 8 হবে। লক্ষ্য করুন যে একটি একক আউটলায়ার 16টির মধ্যে 9টির জন্য দায়ী।

রিগ্রেশন মডেল সাধারণত লস ফাংশন হিসাবে L 2 ক্ষতি ব্যবহার করে।

গড় বর্গক্ষেত্র ত্রুটি হল উদাহরণ প্রতি গড় L 2 ক্ষতি। বর্গাকার ক্ষতি হল L 2 ক্ষতির অপর নাম।

এল 2 নিয়মিতকরণ

#মৌলিক

এক ধরনের নিয়মিতকরণ যা ওজনের বর্গক্ষেত্রের সমষ্টির অনুপাতে ওজনকে শাস্তি দেয়। L 2 রেগুলারাইজেশন বাহ্যিক ওজন (যাদের উচ্চ ইতিবাচক বা কম নেতিবাচক মান আছে) 0 এর কাছাকাছি চালাতে সাহায্য করে কিন্তু পুরোপুরি 0 এর কাছাকাছি নয় । 0-এর খুব কাছাকাছি মান সহ বৈশিষ্ট্যগুলি মডেলে থাকে তবে মডেলের পূর্বাভাসকে খুব বেশি প্রভাবিত করে না।

L 2 নিয়মিতকরণ সর্বদা লিনিয়ার মডেলে সাধারণীকরণ উন্নত করে।

এল 1 নিয়মিতকরণের সাথে বৈসাদৃশ্য।

লেবেল

#মৌলিক

তত্ত্বাবধানে মেশিন লার্নিং -এ, একটি উদাহরণের "উত্তর" বা "ফলাফল" অংশ।

প্রতিটি লেবেলযুক্ত উদাহরণে এক বা একাধিক বৈশিষ্ট্য এবং একটি লেবেল থাকে। উদাহরণস্বরূপ, একটি স্প্যাম সনাক্তকরণ ডেটাসেটে, লেবেলটি সম্ভবত "স্প্যাম" বা "স্প্যাম নয়" হতে পারে। একটি বৃষ্টিপাতের ডেটাসেটে, লেবেলটি একটি নির্দিষ্ট সময়ের মধ্যে বৃষ্টিপাতের পরিমাণ হতে পারে।

লেবেলযুক্ত উদাহরণ

#মৌলিক

একটি উদাহরণ যাতে এক বা একাধিক বৈশিষ্ট্য এবং একটি লেবেল রয়েছে৷ উদাহরণস্বরূপ, নিম্নোক্ত সারণীটি একটি বাড়ির মূল্যায়ন মডেল থেকে তিনটি লেবেলযুক্ত উদাহরণ দেখায়, প্রতিটিতে তিনটি বৈশিষ্ট্য এবং একটি লেবেল রয়েছে:

বেডরুমের সংখ্যা বাথরুমের সংখ্যা ঘরের বয়স বাড়ির দাম (লেবেল)
3 2 15 $345,000
2 1 72 $179,000
4 2 34 $392,000

তত্ত্বাবধানে মেশিন লার্নিং -এ, মডেলগুলি লেবেলযুক্ত উদাহরণগুলির উপর প্রশিক্ষণ দেয় এবং লেবেলবিহীন উদাহরণগুলির উপর ভবিষ্যদ্বাণী করে৷

লেবেলবিহীন উদাহরণের সাথে কন্ট্রাস্ট লেবেলযুক্ত উদাহরণ।

ল্যাম্বডা

#মৌলিক

নিয়মিতকরণ হারের প্রতিশব্দ।

ল্যাম্বডা একটি ওভারলোডেড শব্দ। এখানে আমরা নিয়মিতকরণের মধ্যে শব্দটির সংজ্ঞার উপর ফোকাস করছি।

স্তর

#মৌলিক

একটি নিউরাল নেটওয়ার্কে নিউরনের একটি সেট। তিনটি সাধারণ ধরনের স্তর নিম্নরূপ:

উদাহরণস্বরূপ, নিম্নলিখিত চিত্রটি একটি ইনপুট স্তর, দুটি লুকানো স্তর এবং একটি আউটপুট স্তর সহ একটি নিউরাল নেটওয়ার্ক দেখায়:

একটি ইনপুট স্তর, দুটি লুকানো স্তর, এবং একটি আউটপুট স্তর সহ একটি নিউরাল নেটওয়ার্ক৷ ইনপুট স্তর দুটি বৈশিষ্ট্য নিয়ে গঠিত। প্রথম লুকানো স্তর তিনটি নিউরন নিয়ে গঠিত এবং দ্বিতীয় লুকানো স্তর দুটি নিউরন নিয়ে গঠিত। আউটপুট স্তর একটি একক নোড নিয়ে গঠিত।

TensorFlow- এ, স্তরগুলি হল পাইথন ফাংশন যা টেনসর এবং কনফিগারেশন বিকল্পগুলিকে ইনপুট হিসাবে গ্রহণ করে এবং আউটপুট হিসাবে অন্যান্য টেনসর তৈরি করে।

শেখার হার

#মৌলিক

একটি ফ্লোটিং-পয়েন্ট সংখ্যা যা গ্রেডিয়েন্ট ডিসেন্ট অ্যালগরিদমকে বলে যে প্রতিটি পুনরাবৃত্তিতে ওজন এবং পক্ষপাতগুলি কতটা জোরালোভাবে সামঞ্জস্য করা যায়। উদাহরণস্বরূপ, 0.3 এর শেখার হার 0.1 এর শেখার হারের চেয়ে তিনগুণ বেশি শক্তিশালীভাবে ওজন এবং পক্ষপাতগুলিকে সামঞ্জস্য করবে।

শেখার হার একটি মূল হাইপারপ্যারামিটার । আপনি যদি শেখার হার খুব কম সেট করেন তবে প্রশিক্ষণ অনেক বেশি সময় নেবে। আপনি যদি শেখার হার খুব বেশি সেট করেন, গ্রেডিয়েন্ট ডিসেন্টে প্রায়ই কনভারজেন্সে পৌঁছাতে সমস্যা হয়।

রৈখিক

#মৌলিক

দুই বা ততোধিক চলকের মধ্যে একটি সম্পর্ক যা শুধুমাত্র যোগ এবং গুণের মাধ্যমে উপস্থাপন করা যেতে পারে।

একটি রৈখিক সম্পর্কের প্লট একটি লাইন।

অরৈখিক সঙ্গে বৈসাদৃশ্য.

রৈখিক মডেল

#মৌলিক

একটি মডেল যা ভবিষ্যদ্বাণী করার জন্য বৈশিষ্ট্য প্রতি একটি ওজন নির্ধারণ করে৷ (লিনিয়ার মডেলগুলিও একটি পক্ষপাতকে অন্তর্ভুক্ত করে।) বিপরীতে, গভীর মডেলের ভবিষ্যদ্বাণীগুলির সাথে বৈশিষ্ট্যগুলির সম্পর্ক সাধারণত অরৈখিক হয়।

রৈখিক মডেলগুলি সাধারণত প্রশিক্ষণ দেওয়া সহজ এবং গভীর মডেলগুলির তুলনায় আরও ব্যাখ্যাযোগ্য । যাইহোক, গভীর মডেল বৈশিষ্ট্যগুলির মধ্যে জটিল সম্পর্ক শিখতে পারে।

লিনিয়ার রিগ্রেশন এবং লজিস্টিক রিগ্রেশন দুই ধরনের লিনিয়ার মডেল।

লিনিয়ার রিগ্রেশন

#মৌলিক

এক ধরনের মেশিন লার্নিং মডেল যাতে নিম্নলিখিত দুটিই সত্য:

লজিস্টিক রিগ্রেশনের সাথে কনট্রাস্ট লিনিয়ার রিগ্রেশন। এছাড়াও, শ্রেণীবিভাগের সাথে বৈপরীত্য রিগ্রেশন।

পণ্য সরবরাহ সংশ্লেষণ

#মৌলিক

রিগ্রেশন মডেলের একটি প্রকার যা সম্ভাব্যতার পূর্বাভাস দেয়। লজিস্টিক রিগ্রেশন মডেলগুলির নিম্নলিখিত বৈশিষ্ট্য রয়েছে:

  • লেবেলটি সুনির্দিষ্ট । লজিস্টিক রিগ্রেশন শব্দটি সাধারণত বাইনারি লজিস্টিক রিগ্রেশনকে বোঝায়, অর্থাৎ এমন একটি মডেলকে বোঝায় যা দুটি সম্ভাব্য মান সহ লেবেলের সম্ভাব্যতা গণনা করে। একটি কম সাধারণ বৈকল্পিক, মাল্টিনমিয়াল লজিস্টিক রিগ্রেশন , দুটি সম্ভাব্য মান সহ লেবেলের জন্য সম্ভাব্যতা গণনা করে।
  • প্রশিক্ষণের সময় ক্ষতির কাজটি হল লগ লস । (একাধিক লগ লস ইউনিট দুটি সম্ভাব্য মান সহ লেবেলের সমান্তরালে স্থাপন করা যেতে পারে।)
  • মডেলটিতে একটি লিনিয়ার আর্কিটেকচার রয়েছে, একটি গভীর নিউরাল নেটওয়ার্ক নয়। যাইহোক, এই সংজ্ঞার অবশিষ্টাংশ গভীর মডেলগুলির ক্ষেত্রেও প্রযোজ্য যা শ্রেণীবদ্ধ লেবেলের সম্ভাব্যতার পূর্বাভাস দেয়।

উদাহরণস্বরূপ, একটি লজিস্টিক রিগ্রেশন মডেল বিবেচনা করুন যা একটি ইনপুট ইমেল স্প্যাম বা স্প্যাম না হওয়ার সম্ভাবনা গণনা করে৷ অনুমানের সময়, ধরুন মডেলটি 0.72 ভবিষ্যদ্বাণী করেছে। অতএব, মডেল অনুমান করা হয়:

  • ইমেল স্প্যাম হওয়ার 72% সম্ভাবনা।
  • ইমেল স্প্যাম না হওয়ার 28% সম্ভাবনা।

একটি লজিস্টিক রিগ্রেশন মডেল নিম্নলিখিত দ্বি-পদক্ষেপ আর্কিটেকচার ব্যবহার করে:

  1. মডেলটি ইনপুট বৈশিষ্ট্যগুলির একটি রৈখিক ফাংশন প্রয়োগ করে একটি কাঁচা ভবিষ্যদ্বাণী (y') তৈরি করে।
  2. মডেলটি সেই কাঁচা ভবিষ্যদ্বাণীটিকে একটি সিগমায়েড ফাংশনে ইনপুট হিসাবে ব্যবহার করে, যা কাঁচা ভবিষ্যদ্বাণীকে 0 এবং 1-এর মধ্যে একটি মানের মধ্যে রূপান্তর করে, এক্সক্লুসিভ৷

যেকোনো রিগ্রেশন মডেলের মতো, একটি লজিস্টিক রিগ্রেশন মডেল একটি সংখ্যার পূর্বাভাস দেয়। যাইহোক, এই সংখ্যাটি সাধারণত নিম্নরূপ একটি বাইনারি শ্রেণীবিভাগ মডেলের অংশ হয়ে ওঠে:

  • যদি ভবিষ্যদ্বাণীকৃত সংখ্যাটি শ্রেণীবিন্যাস থ্রেশহোল্ডের চেয়ে বেশি হয়, বাইনারি শ্রেণিবিন্যাস মডেলটি ধনাত্মক শ্রেণির পূর্বাভাস দেয়।
  • যদি ভবিষ্যদ্বাণীকৃত সংখ্যাটি শ্রেণীবিন্যাস থ্রেশহোল্ডের চেয়ে কম হয়, বাইনারি শ্রেণীবিভাগ মডেলটি নেতিবাচক শ্রেণীর পূর্বাভাস দেয়।

লগ ক্ষতি

#মৌলিক

বাইনারি লজিস্টিক রিগ্রেশনে ব্যবহৃত ক্ষতি ফাংশন

log-odds

#মৌলিক

কিছু ইভেন্টের অদ্ভুততার লগারিদম।

ক্ষতি

#মৌলিক

একটি তত্ত্বাবধানে থাকা মডেলের প্রশিক্ষণের সময়, একটি মডেলের ভবিষ্যদ্বাণী তার লেবেল থেকে কতদূর রয়েছে তার একটি পরিমাপ।

একটি ক্ষতি ফাংশন ক্ষতি গণনা করে।

ক্ষতি বক্ররেখা

#মৌলিক

প্রশিক্ষণের পুনরাবৃত্তির সংখ্যার একটি ফাংশন হিসাবে ক্ষতির প্লট। নিম্নলিখিত প্লটটি একটি সাধারণ ক্ষতি বক্ররেখা দেখায়:

লস বনাম প্রশিক্ষণের পুনরাবৃত্তির একটি কার্টেসিয়ান গ্রাফ, প্রাথমিক পুনরাবৃত্তির জন্য ক্ষতির দ্রুত ড্রপ দেখায়, তারপরে ধীরে ধীরে ড্রপ এবং তারপর চূড়ান্ত পুনরাবৃত্তির সময় একটি সমতল ঢাল দেখায়।

লস বক্ররেখা আপনাকে নির্ধারণ করতে সাহায্য করতে পারে কখন আপনার মডেল কনভার্জিং বা অতিরিক্ত ফিটিং

ক্ষতির বক্ররেখাগুলি নিম্নলিখিত সমস্ত ধরণের ক্ষতির পরিকল্পনা করতে পারে:

সাধারণীকরণ বক্ররেখাও দেখুন।

ক্ষতি ফাংশন

#মৌলিক

প্রশিক্ষণ বা পরীক্ষার সময়, একটি গাণিতিক ফাংশন যা উদাহরণগুলির একটি ব্যাচে ক্ষতি গণনা করে। একটি ক্ষতি ফাংশন খারাপ ভবিষ্যদ্বাণী করে এমন মডেলগুলির তুলনায় ভাল ভবিষ্যদ্বাণী করে এমন মডেলগুলির জন্য কম ক্ষতি প্রদান করে৷

প্রশিক্ষণের লক্ষ্য হল সাধারণত ক্ষতি কমানো যা একটি ক্ষতি ফাংশন ফেরত দেয়।

বিভিন্ন ধরনের ক্ষতি ফাংশন বিদ্যমান। আপনি যে ধরনের মডেল তৈরি করছেন তার জন্য উপযুক্ত ক্ষতির ফাংশন বেছে নিন। উদাহরণ স্বরূপ:

এম

মেশিন লার্নিং

#মৌলিক

একটি প্রোগ্রাম বা সিস্টেম যা ইনপুট ডেটা থেকে একটি মডেলকে প্রশিক্ষণ দেয় । প্রশিক্ষিত মডেলটি নতুন (আগে কখনো দেখা যায়নি) ডেটা থেকে উপযোগী ভবিষ্যদ্বাণী করতে পারে যেটি মডেলটিকে প্রশিক্ষণের জন্য ব্যবহার করা হয়েছিল একই বিতরণ থেকে।

মেশিন লার্নিং এই প্রোগ্রাম বা সিস্টেমগুলির সাথে সম্পর্কিত অধ্যয়নের ক্ষেত্রকেও বোঝায়।

সংখ্যাগরিষ্ঠ শ্রেণী

#মৌলিক

একটি শ্রেণি-ভারসাম্যহীন ডেটাসেটে সবচেয়ে সাধারণ লেবেল। উদাহরণস্বরূপ, 99% নেতিবাচক লেবেল এবং 1% ইতিবাচক লেবেল ধারণকারী একটি ডেটাসেট দেওয়া হলে, নেতিবাচক লেবেলগুলি সংখ্যাগরিষ্ঠ শ্রেণী।

সংখ্যালঘু শ্রেণীর সাথে বৈসাদৃশ্য।

মিনি-ব্যাচ

#মৌলিক

একটি ব্যাচের একটি ছোট, এলোমেলোভাবে নির্বাচিত উপসেট একটি পুনরাবৃত্তিতে প্রক্রিয়া করা হয়। একটি মিনি-ব্যাচের ব্যাচের আকার সাধারণত 10 থেকে 1,000টি উদাহরণের মধ্যে থাকে।

উদাহরণস্বরূপ, ধরুন পুরো প্রশিক্ষণ সেটে (সম্পূর্ণ ব্যাচ) 1,000টি উদাহরণ রয়েছে। আরও ধরুন যে আপনি প্রতিটি মিনি-ব্যাচের ব্যাচের আকার 20-এ সেট করেছেন। অতএব, প্রতিটি পুনরাবৃত্তি 1,000 উদাহরণগুলির মধ্যে 20-এ র্যান্ডম ক্ষয়ক্ষতি নির্ধারণ করে এবং তারপর সেই অনুযায়ী ওজন এবং পক্ষপাতগুলি সামঞ্জস্য করে।

সম্পূর্ণ ব্যাচের সমস্ত উদাহরণের ক্ষতির চেয়ে একটি মিনি-ব্যাচে ক্ষতি গণনা করা অনেক বেশি কার্যকর।

সংখ্যালঘু শ্রেণী

#মৌলিক

শ্রেণী-ভারসাম্যহীন ডেটাসেটে কম সাধারণ লেবেল। উদাহরণস্বরূপ, 99% নেতিবাচক লেবেল এবং 1% ইতিবাচক লেবেল ধারণকারী একটি ডেটাসেট দেওয়া হয়েছে, ইতিবাচক লেবেলগুলি সংখ্যালঘু শ্রেণী।

সংখ্যাগরিষ্ঠ শ্রেণীর সাথে বৈসাদৃশ্য।

মডেল

#মৌলিক

সাধারণভাবে, যেকোনো গাণিতিক গঠন যা ইনপুট ডেটা প্রক্রিয়া করে এবং আউটপুট প্রদান করে। ভিন্নভাবে বাক্যাংশ, একটি মডেল হল ভবিষ্যদ্বাণী করার জন্য একটি সিস্টেমের জন্য প্রয়োজনীয় প্যারামিটার এবং কাঠামোর সেট। তত্ত্বাবধানে মেশিন লার্নিংয়ে , একটি মডেল ইনপুট হিসাবে একটি উদাহরণ নেয় এবং আউটপুট হিসাবে একটি ভবিষ্যদ্বাণী অনুমান করে। তত্ত্বাবধানে থাকা মেশিন লার্নিংয়ের মধ্যে, মডেলগুলি কিছুটা আলাদা। উদাহরণ স্বরূপ:

আপনি একটি মডেল সংরক্ষণ, পুনরুদ্ধার, বা কপি করতে পারেন.

তত্ত্বাবধানহীন মেশিন লার্নিং মডেল তৈরি করে, সাধারণত একটি ফাংশন যা সবচেয়ে উপযুক্ত ক্লাস্টারে একটি ইনপুট উদাহরণ ম্যাপ করতে পারে।

বহু-শ্রেণীর শ্রেণীবিভাগ

#মৌলিক

তত্ত্বাবধানে শেখার ক্ষেত্রে, একটি শ্রেণীবিন্যাস সমস্যা যেখানে ডেটাসেটে দুই শ্রেণীর লেবেলের বেশি থাকে। উদাহরণস্বরূপ, আইরিস ডেটাসেটের লেবেলগুলি অবশ্যই নিম্নলিখিত তিনটি শ্রেণীর মধ্যে একটি হতে হবে:

  • আইরিস সেটোসা
  • আইরিস ভার্জিনিকা
  • আইরিস ভার্সিকলার

আইরিস ডেটাসেটে প্রশিক্ষিত একটি মডেল যা নতুন উদাহরণে আইরিস প্রকারের ভবিষ্যদ্বাণী করে বহু-শ্রেণীর শ্রেণীবিভাগ সম্পাদন করছে।

বিপরীতে, শ্রেণীবিন্যাস সমস্যা যা ঠিক দুটি শ্রেণীর মধ্যে পার্থক্য করে তা হল বাইনারি শ্রেণীবিভাগ মডেল । উদাহরণস্বরূপ, একটি ইমেল মডেল যা স্প্যাম বা স্প্যাম নয় তা ভবিষ্যদ্বাণী করে একটি বাইনারি শ্রেণীবিভাগ মডেল৷

ক্লাস্টারিং সমস্যায়, মাল্টি-ক্লাস শ্রেণীবিভাগ দুইটির বেশি ক্লাস্টারকে বোঝায়।

এন

নেতিবাচক ক্লাস

#মৌলিক

বাইনারি শ্রেণীবিভাগে , একটি শ্রেণীকে ধনাত্মক এবং অন্যটিকে ঋণাত্মক বলা হয়। ইতিবাচক শ্রেণিটি এমন জিনিস বা ইভেন্ট যা মডেলটি পরীক্ষা করছে এবং নেতিবাচক শ্রেণিটি অন্য সম্ভাবনা। উদাহরণ স্বরূপ:

  • চিকিত্সা পরীক্ষায় নেতিবাচক শ্রেণি "টিউমার নয়" হতে পারে।
  • একটি ইমেল শ্রেণিবদ্ধের নেতিবাচক শ্রেণি হতে পারে "স্প্যাম নয়"।

ইতিবাচক শ্রেণীর সাথে বৈপরীত্য।

নিউরাল নেটওয়ার্ক

#মৌলিক

কমপক্ষে একটি লুকানো স্তরযুক্ত একটি মডেল । একটি গভীর নিউরাল নেটওয়ার্ক হ'ল এক ধরণের নিউরাল নেটওয়ার্ক যা একাধিক লুকানো স্তরযুক্ত। উদাহরণস্বরূপ, নিম্নলিখিত চিত্রটি দুটি লুকানো স্তরযুক্ত একটি গভীর নিউরাল নেটওয়ার্ক দেখায়।

একটি ইনপুট স্তর, দুটি লুকানো স্তর এবং একটি আউটপুট স্তর সহ একটি নিউরাল নেটওয়ার্ক।

একটি নিউরাল নেটওয়ার্কের প্রতিটি নিউরন পরবর্তী স্তরের সমস্ত নোডের সাথে সংযোগ স্থাপন করে। উদাহরণস্বরূপ, পূর্ববর্তী ডায়াগ্রামে, লক্ষ্য করুন যে প্রথম লুকানো স্তরের তিনটি নিউরনের প্রত্যেকটি পৃথকভাবে দ্বিতীয় লুকানো স্তরটির দুটি নিউরনের সাথে সংযুক্ত করে।

কম্পিউটারগুলিতে প্রয়োগ করা নিউরাল নেটওয়ার্কগুলিকে কখনও কখনও মস্তিষ্ক এবং অন্যান্য স্নায়ুতন্ত্রের মধ্যে পাওয়া নিউরাল নেটওয়ার্কগুলি থেকে আলাদা করার জন্য কৃত্রিম নিউরাল নেটওয়ার্ক বলা হয়।

কিছু নিউরাল নেটওয়ার্ক বিভিন্ন বৈশিষ্ট্য এবং লেবেলের মধ্যে অত্যন্ত জটিল ননলাইনার সম্পর্কের নকল করতে পারে।

কনভোলিউশনাল নিউরাল নেটওয়ার্ক এবং পুনরাবৃত্ত নিউরাল নেটওয়ার্কও দেখুন।

নিউরন

#মৌলিক

মেশিন লার্নিংয়ে, একটি নিউরাল নেটওয়ার্কের একটি লুকানো স্তরের মধ্যে একটি স্বতন্ত্র ইউনিট। প্রতিটি নিউরন নিম্নলিখিত দ্বি-পদক্ষেপের ক্রিয়া সম্পাদন করে:

  1. তাদের সংশ্লিষ্ট ওজন দ্বারা গুণিত ইনপুট মানগুলির ওজনযুক্ত যোগফল গণনা করে।
  2. একটি অ্যাক্টিভেশন ফাংশনে ইনপুট হিসাবে ওজনযুক্ত যোগফল পাস করে।

প্রথম লুকানো স্তরের একটি নিউরন ইনপুট স্তরটির বৈশিষ্ট্য মানগুলি থেকে ইনপুট গ্রহণ করে। প্রথমটির বাইরে যে কোনও লুকানো স্তরের নিউরন পূর্ববর্তী লুকানো স্তরটিতে নিউরনগুলি থেকে ইনপুটগুলি গ্রহণ করে। উদাহরণস্বরূপ, দ্বিতীয় লুকানো স্তরটির একটি নিউরন প্রথম লুকানো স্তরটিতে নিউরনগুলি থেকে ইনপুট গ্রহণ করে।

নিম্নলিখিত চিত্রটি দুটি নিউরন এবং তাদের ইনপুটগুলি হাইলাইট করে।

একটি ইনপুট স্তর, দুটি লুকানো স্তর এবং একটি আউটপুট স্তর সহ একটি নিউরাল নেটওয়ার্ক। দুটি নিউরন হাইলাইট করা হয়েছে: একটি প্রথম লুকানো স্তর এবং একটি দ্বিতীয় লুকানো স্তর মধ্যে একটি। প্রথম লুকানো স্তরটিতে হাইলাইট করা নিউরন ইনপুট স্তরটির উভয় বৈশিষ্ট্য থেকে ইনপুট গ্রহণ করে। দ্বিতীয় লুকানো স্তরটিতে হাইলাইট করা নিউরন প্রথম লুকানো স্তরটির তিনটি নিউরনের প্রতিটি থেকে ইনপুট গ্রহণ করে।

একটি নিউরাল নেটওয়ার্কের একটি নিউরন মস্তিষ্ক এবং স্নায়ুতন্ত্রের অন্যান্য অংশে নিউরনের আচরণের নকল করে।

নোড (নিউরাল নেটওয়ার্ক)

#মৌলিক

একটি লুকানো স্তরে একটি নিউরন

অরৈখিক

#মৌলিক

দুটি বা ততোধিক ভেরিয়েবলের মধ্যে একটি সম্পর্ক যা কেবলমাত্র সংযোজন এবং গুণের মাধ্যমে প্রতিনিধিত্ব করা যায় না। একটি লিনিয়ার সম্পর্ক একটি লাইন হিসাবে প্রতিনিধিত্ব করা যেতে পারে; একটি অরৈখিক সম্পর্ক একটি লাইন হিসাবে প্রতিনিধিত্ব করা যায় না। উদাহরণস্বরূপ, দুটি মডেল বিবেচনা করুন যা প্রতিটি একক বৈশিষ্ট্যকে একটি একক লেবেলের সাথে সম্পর্কিত করে। বাম দিকের মডেলটি লিনিয়ার এবং ডানদিকে মডেলটি অরৈখিক:

দুটি প্লট। একটি প্লট একটি লাইন, সুতরাং এটি একটি লিনিয়ার সম্পর্ক। অন্য প্লটটি একটি বক্ররেখা, সুতরাং এটি একটি অরৈখিক সম্পর্ক।

অবিচ্ছিন্নতা

#মৌলিক

এমন একটি বৈশিষ্ট্য যার মানগুলি এক বা একাধিক মাত্রা জুড়ে পরিবর্তিত হয়, সাধারণত সময়। উদাহরণস্বরূপ, ননস্টেশনারিটির নিম্নলিখিত উদাহরণগুলি বিবেচনা করুন:

  • একটি নির্দিষ্ট স্টোরে বিক্রি হওয়া সাঁতারের পোশাকের সংখ্যা মরসুমের সাথে পরিবর্তিত হয়।
  • একটি নির্দিষ্ট অঞ্চলে কাটা একটি নির্দিষ্ট ফলের পরিমাণ বছরের বেশিরভাগ সময় শূন্য তবে সংক্ষিপ্ত সময়ের জন্য বড়।
  • জলবায়ু পরিবর্তনের কারণে, বার্ষিক গড় তাপমাত্রা স্থানান্তরিত হয়।

স্টেশনারিটির সাথে বৈপরীত্য।

স্বাভাবিকীকরণ

#মৌলিক

বিস্তৃতভাবে বলতে গেলে, একটি ভেরিয়েবলের প্রকৃত পরিসীমা মানগুলির মানগুলির একটি স্ট্যান্ডার্ড পরিসরে রূপান্তর করার প্রক্রিয়া যেমন:

  • -1 থেকে +1
  • 0 থেকে 1
  • সাধারণ বিতরণ

উদাহরণস্বরূপ, ধরুন একটি নির্দিষ্ট বৈশিষ্ট্যের মানগুলির প্রকৃত পরিসীমা 800 থেকে 2,400। বৈশিষ্ট্য ইঞ্জিনিয়ারিংয়ের অংশ হিসাবে, আপনি প্রকৃত মানগুলি একটি স্ট্যান্ডার্ড পরিসরে যেমন -1 থেকে +1 এর নিচে স্বাভাবিক করতে পারেন।

বৈশিষ্ট্য ইঞ্জিনিয়ারিংয়ের ক্ষেত্রে স্বাভাবিককরণ একটি সাধারণ কাজ। মডেলগুলি সাধারণত দ্রুত প্রশিক্ষণ দেয় (এবং আরও ভাল ভবিষ্যদ্বাণী তৈরি করে) যখন বৈশিষ্ট্য ভেক্টরের প্রতিটি সংখ্যার বৈশিষ্ট্যটিতে মোটামুটি একই পরিসীমা থাকে।

গানিতিক তথ্য

#মৌলিক

বৈশিষ্ট্যগুলি পূর্ণসংখ্যা বা বাস্তব-মূল্যবান সংখ্যা হিসাবে প্রতিনিধিত্ব করে। উদাহরণস্বরূপ, একটি বাড়ির মূল্যায়ন মডেল সম্ভবত কোনও বাড়ির আকার (বর্গফুট বা বর্গমিটারে) সংখ্যার ডেটা হিসাবে উপস্থাপন করবে। সংখ্যার ডেটা হিসাবে কোনও বৈশিষ্ট্য উপস্থাপন করা ইঙ্গিত দেয় যে বৈশিষ্ট্যটির মানগুলির লেবেলের সাথে গাণিতিক সম্পর্ক রয়েছে। এটি হ'ল, কোনও বাড়িতে বর্গমিটারের সংখ্যা সম্ভবত বাড়ির মূল্যের সাথে কিছু গাণিতিক সম্পর্ক রয়েছে।

সমস্ত পূর্ণসংখ্যার ডেটা সংখ্যার ডেটা হিসাবে প্রতিনিধিত্ব করা উচিত নয়। উদাহরণস্বরূপ, বিশ্বের কিছু অংশে ডাক কোডগুলি পূর্ণসংখ্যা; তবে, পূর্ণসংখ্যা ডাক কোডগুলি মডেলগুলিতে সংখ্যাসূচক ডেটা হিসাবে প্রতিনিধিত্ব করা উচিত নয়। কারণ 20000 এর একটি ডাক কোডটি 10000 এর ডাক কোড হিসাবে দু'বার (বা অর্ধেক) শক্তিশালী নয় Furly তদ্ব্যতীত, যদিও বিভিন্ন ডাক কোডগুলি বিভিন্ন রিয়েল এস্টেট মানগুলির সাথে সম্পর্কিত , আমরা ধরে নিতে পারি না যে ডাক কোড 20000 এ রিয়েল এস্টেটের মানগুলি ডাক কোড 10000 এ রিয়েল এস্টেটের মানগুলির মতো দ্বিগুণ মূল্যবান Post ডাক কোডগুলি পরিবর্তে শ্রেণিবদ্ধ ডেটা হিসাবে উপস্থাপন করা উচিত।

সংখ্যার বৈশিষ্ট্যগুলি কখনও কখনও অবিচ্ছিন্ন বৈশিষ্ট্য বলা হয়।

অফলাইন

#মৌলিক

স্ট্যাটিক জন্য প্রতিশব্দ।

অফলাইন অনুমান

#মৌলিক

একটি মডেল ভবিষ্যদ্বাণীগুলির একটি ব্যাচ উত্পন্ন করে এবং তারপরে সেই ভবিষ্যদ্বাণীগুলি ক্যাশে (সংরক্ষণ)। অ্যাপ্লিকেশনগুলি তখন মডেলটিকে পুনরায় সাজানোর পরিবর্তে ক্যাশে থেকে অনুমিত পূর্বাভাস অ্যাক্সেস করতে পারে।

উদাহরণস্বরূপ, এমন একটি মডেল বিবেচনা করুন যা স্থানীয় আবহাওয়ার পূর্বাভাস (ভবিষ্যদ্বাণীগুলি) প্রতি চার ঘন্টা একবার উত্পন্ন করে। প্রতিটি মডেল চালানোর পরে, সিস্টেমটি সমস্ত স্থানীয় আবহাওয়ার পূর্বাভাস ক্যাশে করে। আবহাওয়া অ্যাপ্লিকেশনগুলি ক্যাশে থেকে পূর্বাভাস পুনরুদ্ধার করে।

অফলাইন অনুমানকে স্ট্যাটিক অনুমানও বলা হয়।

অনলাইন অনুমানের সাথে বৈপরীত্য।

এক-হট এনকোডিং

#মৌলিক

ভেক্টর হিসাবে শ্রেণীবদ্ধ ডেটা উপস্থাপন করে:

  • একটি উপাদান 1 এ সেট করা আছে।
  • অন্যান্য সমস্ত উপাদান 0 এ সেট করা আছে।

ওয়ান-হট এনকোডিং সাধারণত স্ট্রিং বা শনাক্তকারীদের প্রতিনিধিত্ব করতে ব্যবহৃত হয় যার সম্ভাব্য মানগুলির একটি সীমাবদ্ধ সেট রয়েছে। উদাহরণস্বরূপ, ধরুন Scandinavia নামের একটি নির্দিষ্ট শ্রেণিবদ্ধ বৈশিষ্ট্যের পাঁচটি সম্ভাব্য মান রয়েছে:

  • "ডেনমার্ক"
  • "সুইডেন"
  • "নরওয়ে"
  • "ফিনল্যান্ড"
  • "আইসল্যান্ড"

এক-হট এনকোডিং নিম্নলিখিত পাঁচটি মানের প্রত্যেককে উপস্থাপন করতে পারে:

দেশ ভেক্টর
"ডেনমার্ক" 1 0 0 0 0
"সুইডেন" 0 1 0 0 0
"নরওয়ে" 0 0 1 0 0
"ফিনল্যান্ড" 0 0 0 1 0
"আইসল্যান্ড" 0 0 0 0 1

ওয়ান-হট এনকোডিংয়ের জন্য ধন্যবাদ, একটি মডেল পাঁচটি দেশের প্রত্যেকটির উপর ভিত্তি করে বিভিন্ন সংযোগ শিখতে পারে।

সংখ্যার ডেটা হিসাবে কোনও বৈশিষ্ট্য উপস্থাপন করা এক-হট এনকোডিংয়ের বিকল্প। দুর্ভাগ্যক্রমে, স্ক্যান্ডিনেভিয়ার দেশগুলিকে সংখ্যায় উপস্থাপন করা ভাল পছন্দ নয়। উদাহরণস্বরূপ, নিম্নলিখিত সংখ্যার প্রতিনিধিত্ব বিবেচনা করুন:

  • "ডেনমার্ক" 0
  • "সুইডেন" 1
  • "নরওয়ে" 2
  • "ফিনল্যান্ড" 3
  • "আইসল্যান্ড" 4

সংখ্যার এনকোডিং সহ, একটি মডেল কাঁচা সংখ্যাগুলি গাণিতিকভাবে ব্যাখ্যা করবে এবং এই সংখ্যাগুলিতে প্রশিক্ষণের চেষ্টা করবে। যাইহোক, আইসল্যান্ড আসলে নরওয়ের মতো কোনও কিছুর দ্বিগুণ (বা অর্ধেক) নয়, তাই মডেলটি কিছু অদ্ভুত সিদ্ধান্তে আসবে।

এক-ভিএস-সমস্ত

#মৌলিক

এন ক্লাসগুলির সাথে একটি শ্রেণিবিন্যাসের সমস্যা দেওয়া, প্রতিটি সম্ভাব্য ফলাফলের জন্য এন পৃথক বাইনারি শ্রেণিবদ্ধ - এক বাইনারি শ্রেণিবদ্ধ সমন্বিত একটি সমাধান। উদাহরণস্বরূপ, এমন একটি মডেল দেওয়া যা উদাহরণগুলিকে প্রাণী, উদ্ভিজ্জ বা খনিজ হিসাবে শ্রেণিবদ্ধ করে, একটি এক-বনাম-সমস্ত সমাধান নিম্নলিখিত তিনটি পৃথক বাইনারি শ্রেণিবদ্ধ সরবরাহ করবে:

  • প্রাণী বনাম প্রাণী নয়
  • উদ্ভিজ্জ বনাম উদ্ভিজ্জ নয়
  • খনিজ বনাম খনিজ নয়

অনলাইন

#মৌলিক

গতিশীলের প্রতিশব্দ।

অনলাইন অনুমান

#মৌলিক

চাহিদা উপর ভবিষ্যদ্বাণী উত্পন্ন করা। উদাহরণস্বরূপ, ধরুন কোনও অ্যাপ্লিকেশন কোনও মডেলের ইনপুট পাস করে এবং একটি পূর্বাভাসের জন্য একটি অনুরোধ জারি করে। অনলাইন ইনফারেন্স ব্যবহার করে একটি সিস্টেম মডেলটি চালিয়ে অনুরোধের প্রতিক্রিয়া জানায় (এবং অ্যাপ্লিকেশনটিতে ভবিষ্যদ্বাণীটি ফিরিয়ে দেয়)।

অফলাইন অনুমানের সাথে বিপরীতে।

আউটপুট স্তর

#মৌলিক

একটি নিউরাল নেটওয়ার্কের "চূড়ান্ত" স্তর। আউটপুট স্তরটিতে পূর্বাভাস রয়েছে।

নিম্নলিখিত চিত্রটি একটি ইনপুট স্তর, দুটি লুকানো স্তর এবং একটি আউটপুট স্তর সহ একটি ছোট গভীর নিউরাল নেটওয়ার্ক দেখায়:

একটি ইনপুট স্তর, দুটি লুকানো স্তর এবং একটি আউটপুট স্তর সহ একটি নিউরাল নেটওয়ার্ক। ইনপুট স্তরটিতে দুটি বৈশিষ্ট্য রয়েছে। প্রথম লুকানো স্তরটিতে তিনটি নিউরন থাকে এবং দ্বিতীয় লুকানো স্তরটিতে দুটি নিউরন থাকে। আউটপুট স্তরটিতে একটি একক নোড থাকে।

ওভারফিটিং

#মৌলিক

এমন একটি মডেল তৈরি করা যা প্রশিক্ষণের ডেটা এত ঘনিষ্ঠভাবে মেলে যে মডেলটি নতুন ডেটাতে সঠিক ভবিষ্যদ্বাণী করতে ব্যর্থ হয়।

নিয়মিতকরণ ওভারফিটিং হ্রাস করতে পারে। একটি বৃহত এবং বৈচিত্র্যময় প্রশিক্ষণ সেট উপর প্রশিক্ষণ ওভারফিটিং হ্রাস করতে পারে।

পৃ

পান্ডা

#মৌলিক

একটি কলাম-ভিত্তিক ডেটা বিশ্লেষণ এপিআই নম্বির শীর্ষে নির্মিত। টেনসরফ্লো সহ অনেকগুলি মেশিন লার্নিং ফ্রেমওয়ার্কগুলি ইনপুট হিসাবে পান্ডাস ডেটা স্ট্রাকচারকে সমর্থন করে। বিশদ জন্য পান্ডাস ডকুমেন্টেশন দেখুন।

প্যারামিটার

#মৌলিক

প্রশিক্ষণের সময় কোনও মডেল যে ওজন এবং পক্ষপাতিত্বগুলি শিখেন। উদাহরণস্বরূপ, একটি লিনিয়ার রিগ্রেশন মডেলটিতে, প্যারামিটারগুলি নিম্নলিখিত সূত্রে পক্ষপাত ( বি ) এবং সমস্ত ওজন ( ডাব্লু 1 , ডাব্লু 2 , এবং আরও) নিয়ে গঠিত:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

বিপরীতে, হাইপারপ্যারামিটার হ'ল মানগুলি যা আপনি (বা হাইপারপ্যারামিটার টার্নিং সার্ভিস) মডেলটিতে সরবরাহ করেন। উদাহরণস্বরূপ, শেখার হার একটি হাইপারপ্যারামিটার।

ইতিবাচক শ্রেণি

#মৌলিক

আপনি যে ক্লাসটির জন্য পরীক্ষা করছেন।

উদাহরণস্বরূপ, ক্যান্সার মডেলের ইতিবাচক শ্রেণি হতে পারে "টিউমার"। একটি ইমেল শ্রেণিবদ্ধের ইতিবাচক শ্রেণি হতে পারে "স্প্যাম"।

নেতিবাচক শ্রেণীর সাথে বৈপরীত্য।

পোস্ট প্রসেসিং

#ন্যায্যতা
#মৌলিক

মডেলটি চালানোর পরে কোনও মডেলের আউটপুট সামঞ্জস্য করা। পোস্ট-প্রসেসিং তাদের মডেলগুলি সংশোধন না করে ন্যায্যতার সীমাবদ্ধতাগুলি প্রয়োগ করতে ব্যবহার করা যেতে পারে।

উদাহরণস্বরূপ, কেউ বাইনারি শ্রেণিবদ্ধের জন্য পোস্ট-প্রসেসিং প্রয়োগ করতে পারে এমন একটি শ্রেণিবিন্যাসের প্রান্তিক সেট করে যাতে সুযোগের সমতা কিছু বৈশিষ্ট্যের জন্য রক্ষণাবেক্ষণ করা হয় যা পরীক্ষা করে যে সত্যিকারের ইতিবাচক হারটি সেই বৈশিষ্ট্যের সমস্ত মানের জন্য একই।

ভবিষ্যদ্বাণী

#মৌলিক

একটি মডেলের আউটপুট। উদাহরণ স্বরূপ:

  • বাইনারি শ্রেণিবদ্ধকরণ মডেলের পূর্বাভাস হয় হয় ইতিবাচক শ্রেণি বা নেতিবাচক শ্রেণি।
  • মাল্টি-ক্লাসের শ্রেণিবদ্ধকরণ মডেলের পূর্বাভাস এক শ্রেণি।
  • লিনিয়ার রিগ্রেশন মডেলের পূর্বাভাস একটি সংখ্যা।

প্রক্সি লেবেল

#মৌলিক

কোনও ডেটাসেটে সরাসরি উপলভ্য নয় এমন আনুমানিক লেবেলগুলিতে ব্যবহৃত ডেটা।

উদাহরণস্বরূপ, ধরুন আপনাকে অবশ্যই কর্মচারী স্ট্রেস স্তরের পূর্বাভাস দেওয়ার জন্য একটি মডেল প্রশিক্ষণ দিতে হবে। আপনার ডেটাসেটে প্রচুর ভবিষ্যদ্বাণীমূলক বৈশিষ্ট্য রয়েছে তবে স্ট্রেস লেভেল নামে একটি লেবেল নেই। অনাবৃত, আপনি স্ট্রেস লেভেলের প্রক্সি লেবেল হিসাবে "কর্মক্ষেত্রের দুর্ঘটনা" বেছে নিয়েছেন। সর্বোপরি, উচ্চ চাপের মধ্যে কর্মীরা শান্ত কর্মীদের চেয়ে বেশি দুর্ঘটনায় পড়েন। নাকি তারা করে? সম্ভবত কর্মক্ষেত্রের দুর্ঘটনাগুলি আসলে একাধিক কারণে উত্থিত এবং পড়ে যায়।

দ্বিতীয় উদাহরণ হিসাবে, ধরুন আপনি চান কি বৃষ্টি হচ্ছে? আপনার ডেটাসেটের জন্য বুলিয়ান লেবেল হতে, তবে আপনার ডেটাসেটে বৃষ্টির ডেটা থাকে না। যদি ফটোগ্রাফগুলি উপলভ্য থাকে তবে আপনি কি বৃষ্টিপাতের জন্য প্রক্সি লেবেল হিসাবে ছাতা বহনকারী লোকদের ছবি স্থাপন করতে পারেন? এটি কি একটি ভাল প্রক্সি লেবেল? সম্ভবত, তবে কিছু সংস্কৃতির লোকেরা বৃষ্টির চেয়ে সূর্যের বিরুদ্ধে রক্ষার জন্য ছাতা বহন করার সম্ভাবনা বেশি থাকতে পারে।

প্রক্সি লেবেলগুলি প্রায়শই অসম্পূর্ণ থাকে। যখন সম্ভব হয়, প্রক্সি লেবেলের মাধ্যমে প্রকৃত লেবেলগুলি চয়ন করুন। এটি বলেছিল, যখন কোনও আসল লেবেল অনুপস্থিত থাকে, তখন প্রক্সি লেবেলটি খুব সাবধানে বেছে নিন, কমপক্ষে ভয়ঙ্কর প্রক্সি লেবেল প্রার্থীকে বেছে নিন।

আর

RAG

#মৌলিক

পুনরুদ্ধার-আপত্তিজনক প্রজন্মের জন্য সংক্ষেপণ।

রেটার

#মৌলিক

এমন একজন মানুষ যিনি উদাহরণের জন্য লেবেল সরবরাহ করেন। "টীকা" রেটারের আরেকটি নাম।

সংশোধনকৃত লিনিয়ার ইউনিট (ReLU)

#মৌলিক

নিম্নলিখিত আচরণ সহ একটি অ্যাক্টিভেশন ফাংশন :

  • যদি ইনপুট নেতিবাচক বা শূন্য হয় তবে আউটপুট 0 হয়।
  • যদি ইনপুট ইতিবাচক হয় তবে আউটপুটটি ইনপুটটির সমান।

উদাহরণ স্বরূপ:

  • যদি ইনপুটটি -3 হয় তবে আউটপুট 0 হয়।
  • যদি ইনপুটটি +3 হয় তবে আউটপুটটি 3.0।

এখানে রিলুর একটি প্লট রয়েছে:

দুটি লাইনের একটি কার্টেসিয়ান প্লট। প্রথম লাইনের একটি ধ্রুবক y মান আছে 0, x-অক্ষ বরাবর -ইনফিনিটি,0 থেকে 0,-0 পর্যন্ত চলছে। দ্বিতীয় লাইন 0,0 এ শুরু হয়। এই লাইনে +1 এর ঢাল রয়েছে, তাই এটি 0,0 থেকে +ইনফিনিটি,+ইনফিনিটি পর্যন্ত চলে।

রিলু একটি খুব জনপ্রিয় অ্যাক্টিভেশন ফাংশন। এর সাধারণ আচরণ সত্ত্বেও, রিলু এখনও বৈশিষ্ট্য এবং লেবেলের মধ্যে অরৈখিক সম্পর্ক শিখতে একটি নিউরাল নেটওয়ার্ককে সক্ষম করে।

রিগ্রেশন মডেল

#মৌলিক

অনানুষ্ঠানিকভাবে, এমন একটি মডেল যা একটি সংখ্যাসূচক ভবিষ্যদ্বাণী তৈরি করে। (বিপরীতে, একটি শ্রেণিবদ্ধকরণ মডেল একটি শ্রেণীর ভবিষ্যদ্বাণী উত্পন্ন করে)) উদাহরণস্বরূপ, নিম্নলিখিত সমস্ত রিগ্রেশন মডেল:

  • এমন একটি মডেল যা একটি নির্দিষ্ট বাড়ির মানের পূর্বাভাস দেয়, যেমন 423,000 ইউরো।
  • এমন একটি মডেল যা একটি নির্দিষ্ট গাছের আয়ুর পূর্বাভাস দেয়, যেমন 23.2 বছর।
  • এমন একটি মডেল যা পরবর্তী ছয় ঘন্টা যেমন 0.18 ইঞ্চি পর্যন্ত একটি নির্দিষ্ট শহরে পড়বে এমন পরিমাণ বৃষ্টিপাতের পূর্বাভাস দেয়।

দুটি সাধারণ ধরণের রিগ্রেশন মডেল হ'ল:

  • লিনিয়ার রিগ্রেশন , যা লাইনটি খুঁজে পায় যা বৈশিষ্ট্যগুলিতে লেবেল মানগুলি সেরা ফিট করে।
  • লজিস্টিক রিগ্রেশন , যা 0.0 এবং 1.0 এর মধ্যে সম্ভাবনা তৈরি করে যা সাধারণত কোনও সিস্টেমের পরে শ্রেণীর ভবিষ্যদ্বাণীতে মানচিত্র করে।

সংখ্যার পূর্বাভাসকে আউটপুট করে এমন প্রতিটি মডেলই একটি রিগ্রেশন মডেল নয়। কিছু ক্ষেত্রে, একটি সংখ্যার ভবিষ্যদ্বাণীটি সত্যই কেবল একটি শ্রেণিবিন্যাসের মডেল যা সংখ্যার শ্রেণীর নাম থাকে। উদাহরণস্বরূপ, একটি মডেল যা একটি সংখ্যার ডাক কোডের পূর্বাভাস দেয় একটি শ্রেণিবদ্ধকরণ মডেল, কোনও রিগ্রেশন মডেল নয়।

নিয়মিতকরণ

#মৌলিক

যে কোনও প্রক্রিয়া যা ওভারফিটিং হ্রাস করে। নিয়মিতকরণের জনপ্রিয় ধরণের অন্তর্ভুক্ত:

নিয়মিতকরণকে কোনও মডেলের জটিলতায় জরিমানা হিসাবেও সংজ্ঞায়িত করা যেতে পারে।

নিয়মিতকরণ হার

#মৌলিক

একটি সংখ্যা যা প্রশিক্ষণের সময় নিয়মিতকরণের আপেক্ষিক গুরুত্ব নির্দিষ্ট করে। নিয়মিতকরণের হার বাড়ানো ওভারফিটিং হ্রাস করে তবে মডেলের ভবিষ্যদ্বাণীমূলক শক্তি হ্রাস করতে পারে। বিপরীতে, নিয়মিতকরণের হার হ্রাস বা বাদ দেওয়া ওভারফিটিং বৃদ্ধি করে।

ReLU

#মৌলিক

সংশোধিত লিনিয়ার ইউনিটের সংক্ষেপণ।

পুনরুদ্ধার-আগত প্রজন্ম (আরএজি)

#মৌলিক

মডেলটি প্রশিক্ষিত হওয়ার পরে পুনরুদ্ধার করা জ্ঞানের উত্সগুলির সাথে এটি গ্রাউন্ড করে বৃহত ভাষার মডেল (এলএলএম) আউটপুটটির গুণমান উন্নত করার জন্য একটি কৌশল। র‌্যাগ প্রশিক্ষিত এলএলএমকে বিশ্বস্ত জ্ঞানের ঘাঁটি বা নথি থেকে প্রাপ্ত তথ্যের অ্যাক্সেস সরবরাহ করে এলএলএম প্রতিক্রিয়াগুলির যথার্থতার উন্নতি করে।

পুনরুদ্ধার-আপত্তিজনক প্রজন্মের ব্যবহারের সাধারণ অনুপ্রেরণাগুলির মধ্যে রয়েছে:

  • কোনও মডেলের উত্পন্ন প্রতিক্রিয়াগুলির সত্যিকারের নির্ভুলতা বৃদ্ধি করা।
  • মডেলটিকে জ্ঞানের অ্যাক্সেস দেওয়া এটি প্রশিক্ষিত হয়নি।
  • মডেলটি ব্যবহার করে এমন জ্ঞান পরিবর্তন করা।
  • উত্সগুলি উদ্ধৃত করতে মডেলটিকে সক্ষম করা।

উদাহরণস্বরূপ, ধরুন যে কোনও রসায়ন অ্যাপ্লিকেশন ব্যবহারকারীর প্রশ্নের সাথে সম্পর্কিত সংক্ষিপ্তসারগুলি তৈরি করতে পাম এপিআই ব্যবহার করে। যখন অ্যাপটির ব্যাকএন্ড একটি কোয়েরি গ্রহণ করে, ব্যাকএন্ড:

  1. ব্যবহারকারীর ক্যোয়ারির সাথে প্রাসঙ্গিক ("পুনরুদ্ধার") ডেটা অনুসন্ধান করে।
  2. ব্যবহারকারীর ক্যোয়ারিতে প্রাসঙ্গিক রসায়ন ডেটা সংযোজন ("অগমেন্টস")।
  3. সংযুক্ত ডেটার উপর ভিত্তি করে এলএলএমকে সংক্ষিপ্তসার তৈরি করার নির্দেশ দেয়।

আরওসি (রিসিভার অপারেটিং বৈশিষ্ট্য) বক্ররেখা

#মৌলিক

বাইনারি শ্রেণিবিন্যাসে বিভিন্ন শ্রেণিবিন্যাসের থ্রেশহোল্ডগুলির জন্য সত্য ধনাত্মক হারের বনাম মিথ্যা পজিটিভ হারের একটি গ্রাফ।

একটি আরওসি বক্ররেখার আকারটি বাইনারি শ্রেণিবদ্ধকরণ মডেলের নেতিবাচক শ্রেণি থেকে ইতিবাচক শ্রেণিগুলি পৃথক করার দক্ষতার পরামর্শ দেয়। ধরুন, উদাহরণস্বরূপ, একটি বাইনারি শ্রেণিবদ্ধকরণ মডেল সমস্ত নেতিবাচক শ্রেণিকে সমস্ত ইতিবাচক শ্রেণি থেকে পুরোপুরি পৃথক করে:

ডানদিকে 8 টি ধনাত্মক উদাহরণ সহ একটি নম্বর লাইন এবং বাম দিকে 7 টি নেতিবাচক উদাহরণ।

পূর্ববর্তী মডেলের জন্য আরওসি বক্ররেখা নীচে দেখায়:

একটি আরওসি বক্ররেখা। এক্স-অক্ষটি মিথ্যা ইতিবাচক হার এবং ওয়াই-অক্ষটি সত্য ধনাত্মক হার। বক্ররেখার একটি উল্টানো এল আকার রয়েছে। বক্ররেখা (0.0,0.0) থেকে শুরু হয় এবং সরাসরি (0.0,1.0) এ যায়। তারপরে বক্ররেখা (0.0,1.0) থেকে (1.0,1.0) এ যায়।

বিপরীতে, নিম্নলিখিত চিত্রগুলি একটি ভয়াবহ মডেলের জন্য কাঁচা লজিস্টিক রিগ্রেশন মানগুলি গ্রাফ করে যা নেতিবাচক শ্রেণিগুলি ইতিবাচক শ্রেণি থেকে আলাদা করতে পারে না:

ইতিবাচক উদাহরণ এবং নেতিবাচক শ্রেণীর সাথে একটি নম্বর লাইন সম্পূর্ণরূপে অন্তর্বর্তী।

এই মডেলের জন্য আরওসি বক্ররেখা নিম্নরূপ দেখায়:

একটি আরওসি বক্ররেখা, যা আসলে (0.0,0.0) থেকে (1.0,1.0) পর্যন্ত একটি সরল রেখা।

এদিকে, বাস্তব বিশ্বে ফিরে, বেশিরভাগ বাইনারি শ্রেণিবিন্যাসের মডেলগুলি ইতিবাচক এবং নেতিবাচক শ্রেণিগুলি কিছুটা হলেও পৃথক করে তবে সাধারণত পুরোপুরি নয়। সুতরাং, একটি সাধারণ আরওসি বক্ররেখা দুটি চরমের মধ্যে কোথাও পড়ে:

একটি আরওসি বক্ররেখা। এক্স-অক্ষটি মিথ্যা ইতিবাচক হার এবং ওয়াই-অক্ষটি সত্য ধনাত্মক হার। আরওসি বক্ররেখা পশ্চিম থেকে উত্তর পর্যন্ত কম্পাস পয়েন্টগুলি অতিক্রম করে একটি নড়বড়ে চাপের প্রায় অনুমান করে।

(0.0,1.0) এর নিকটতম একটি আরওসি বক্ররেখার পয়েন্টটি তাত্ত্বিকভাবে আদর্শ শ্রেণিবিন্যাসের প্রান্তিকতা সনাক্ত করে। যাইহোক, অন্যান্য বেশ কয়েকটি বাস্তব-বিশ্বের সমস্যাগুলি আদর্শ শ্রেণিবিন্যাসের প্রান্তিকের নির্বাচনকে প্রভাবিত করে। উদাহরণস্বরূপ, সম্ভবত মিথ্যা নেতিবাচকগুলি মিথ্যা ধনাত্মকগুলির চেয়ে অনেক বেশি ব্যথা সৃষ্টি করে।

এউসি নামে একটি সংখ্যাসূচক মেট্রিক আরওসি বক্ররেখাকে একটি একক ভাসমান-পয়েন্ট মান হিসাবে সংক্ষিপ্তসার করে।

রুট গড় বর্গাকার ত্রুটি (RMSE)

#মৌলিক

গড় স্কোয়ার ত্রুটির বর্গমূল।

এস

সিগমায়েড ফাংশন

#মৌলিক

একটি গাণিতিক ফাংশন যা একটি সীমাবদ্ধ পরিসরে একটি ইনপুট মানকে "স্কুইশ" করে, সাধারণত 0 থেকে 1 বা -1 থেকে +1। এটি হ'ল, আপনি সিগময়েডে যে কোনও নম্বর (দুই, এক মিলিয়ন, নেতিবাচক বিলিয়ন, যাই হোক না কেন) পাস করতে পারেন এবং আউটপুটটি এখনও সীমাবদ্ধ পরিসরে থাকবে। সিগমায়েড অ্যাক্টিভেশন ফাংশনের একটি প্লট নিম্নরূপ দেখায়:

একটি দ্বি-মাত্রিক বাঁকা প্লট যেখানে x মানগুলি ডোমেইন -ইনফিনিটি থেকে + পজিটিভ পর্যন্ত বিস্তৃত, যখন y মানগুলি 0 থেকে প্রায় 1 পর্যন্ত বিস্তৃত। যখন x 0 হয়, y হয় 0.5। বক্ররেখার ঢাল সর্বদাই ধনাত্মক, সর্বোচ্চ ঢাল 0,0.5 এবং ধীরে ধীরে ঢাল কমতে থাকে কারণ x এর পরম মান বৃদ্ধি পায়।

সিগময়েড ফাংশনটির মেশিন লার্নিংয়ে বেশ কয়েকটি ব্যবহার রয়েছে, সহ:

softmax

#মৌলিক

এমন একটি ফাংশন যা একটি মাল্টি-ক্লাস শ্রেণিবিন্যাস মডেলটিতে প্রতিটি সম্ভাব্য শ্রেণীর জন্য সম্ভাব্যতা নির্ধারণ করে। সম্ভাবনাগুলি ঠিক 1.0 পর্যন্ত যুক্ত করে। উদাহরণস্বরূপ, নীচের টেবিলটি দেখায় যে সফটম্যাক্স বিভিন্ন সম্ভাব্যতা কীভাবে বিতরণ করে:

চিত্র একটি ... সম্ভাবনা
কুকুর .85
বিড়াল .13
ঘোড়া .02

সফটম্যাক্সকে পুরো সফটম্যাক্সও বলা হয়।

প্রার্থী নমুনা সঙ্গে বৈপরীত্য।

বিরল বৈশিষ্ট্য

#ভাষা
#মৌলিক

এমন একটি বৈশিষ্ট্য যার মানগুলি মূলত শূন্য বা খালি। উদাহরণস্বরূপ, একটি একক 1 মান এবং এক মিলিয়ন 0 মান সমন্বিত একটি বৈশিষ্ট্য বিরল। বিপরীতে, একটি ঘন বৈশিষ্ট্যের মান রয়েছে যা মূলত শূন্য বা খালি নয়।

মেশিন লার্নিংয়ে, আশ্চর্যজনক সংখ্যক বৈশিষ্ট্য হ'ল স্পারস বৈশিষ্ট্য। শ্রেণীবদ্ধ বৈশিষ্ট্যগুলি সাধারণত বিরল বৈশিষ্ট্য হয়। উদাহরণস্বরূপ, একটি বনে 300 টি সম্ভাব্য গাছের প্রজাতির মধ্যে একটি একক উদাহরণ কেবল একটি ম্যাপেল গাছ সনাক্ত করতে পারে। বা, একটি ভিডিও লাইব্রেরিতে কয়েক মিলিয়ন সম্ভাব্য ভিডিওর মধ্যে একটি একক উদাহরণ কেবল "ক্যাসাব্ল্যাঙ্কা" সনাক্ত করতে পারে।

একটি মডেলটিতে, আপনি সাধারণত এক-হট এনকোডিং সহ স্পারস বৈশিষ্ট্যগুলি উপস্থাপন করেন। যদি এক-হট এনকোডিং বড় হয় তবে আপনি আরও বেশি দক্ষতার জন্য এক-হট এনকোডিংয়ের উপরে একটি এম্বেডিং স্তর রাখতে পারেন।

বিরল প্রতিনিধিত্ব

#ভাষা
#মৌলিক

একটি বিরল বৈশিষ্ট্যে ননজারো উপাদানগুলির কেবলমাত্র অবস্থান (গুলি) সংরক্ষণ করা।

উদাহরণস্বরূপ, ধরুন species নামের একটি শ্রেণিবদ্ধ বৈশিষ্ট্য একটি নির্দিষ্ট বনে 36 টি গাছের প্রজাতি সনাক্ত করে। আরও ধরে নিন যে প্রতিটি উদাহরণ কেবল একটি একক প্রজাতি চিহ্নিত করে।

আপনি প্রতিটি উদাহরণে গাছের প্রজাতির প্রতিনিধিত্ব করতে এক-হট ভেক্টর ব্যবহার করতে পারেন। এক-হট ভেক্টরটিতে একটি একক 1 (সেই উদাহরণে নির্দিষ্ট গাছের প্রজাতির প্রতিনিধিত্ব করতে) এবং 35 0 এস (35 টি গাছের প্রজাতির প্রতিনিধিত্ব করতে সেই উদাহরণে নয় ) থাকবে। সুতরাং, maple এক-হট উপস্থাপনা নিম্নলিখিতগুলির মতো কিছু দেখতে পারে:

একটি ভেক্টর যেখানে 0 থেকে 23 এর মধ্যে 0 টির মধ্যে মান 0 থাকে, অবস্থান 24 মান 1 ধারণ করে এবং 25 থেকে 35 এর মধ্যে অবস্থানগুলি মান 0 ধরে রাখে।

বিকল্পভাবে, বিরল প্রতিনিধিত্ব কেবল নির্দিষ্ট প্রজাতির অবস্থান সনাক্ত করতে পারে। যদি maple 24 অবস্থানে থাকে তবে maple বিরল উপস্থাপনা কেবল হবে:

24

লক্ষ্য করুন যে বিরল উপস্থাপনা এক-হট উপস্থাপনের চেয়ে অনেক বেশি কমপ্যাক্ট।

স্পার্স ভেক্টর

#মৌলিক

এমন একটি ভেক্টর যার মানগুলি বেশিরভাগ শূন্য। স্পারস বৈশিষ্ট্য এবং স্পারসিটিও দেখুন।

স্কোয়ার ক্ষতি

#মৌলিক

এল 2 ক্ষতির প্রতিশব্দ।

স্থির

#মৌলিক

ক্রমাগত না হয়ে একবার কিছু করা। স্ট্যাটিক এবং অফলাইন পদগুলি প্রতিশব্দ। নীচে মেশিন লার্নিংয়ে স্ট্যাটিক এবং অফলাইনের সাধারণ ব্যবহারগুলি রয়েছে:

  • স্ট্যাটিক মডেল (বা অফলাইন মডেল ) এমন একটি মডেল যা একবার এবং তারপরে কিছু সময়ের জন্য ব্যবহৃত হয়।
  • স্ট্যাটিক প্রশিক্ষণ (বা অফলাইন প্রশিক্ষণ ) হ'ল স্ট্যাটিক মডেল প্রশিক্ষণের প্রক্রিয়া।
  • স্ট্যাটিক অনুমান (বা অফলাইন অনুমান ) এমন একটি প্রক্রিয়া যেখানে কোনও মডেল একবারে পূর্বাভাসের একটি ব্যাচ তৈরি করে।

গতিশীলের সাথে বিপরীতে।

স্থির অনুমান

#মৌলিক

অফলাইন অনুমানের প্রতিশব্দ।

স্টেশনারিটি

#মৌলিক

এমন একটি বৈশিষ্ট্য যার মানগুলি এক বা একাধিক মাত্রা জুড়ে পরিবর্তিত হয় না, সাধারণত সময়। উদাহরণস্বরূপ, এমন একটি বৈশিষ্ট্য যার মানগুলি 2021 এবং 2023 সালে একই দেখায় স্টেশনারিটি প্রদর্শন করে।

বাস্তব বিশ্বে, খুব কম বৈশিষ্ট্যই স্টেশনারিটি প্রদর্শন করে। এমনকি স্থায়িত্বের সমার্থক বৈশিষ্ট্যগুলি (সমুদ্রের স্তরের মতো) সময়ের সাথে সাথে পরিবর্তিত হয়।

অবিচ্ছিন্নতার সাথে বৈপরীত্য।

স্টোকাস্টিক গ্রেডিয়েন্ট বংশোদ্ভূত (এসজিডি)

#মৌলিক

একটি গ্রেডিয়েন্ট বংশোদ্ভূত অ্যালগরিদম যেখানে ব্যাচের আকার এক। অন্য কথায়, এসজিডি একটি প্রশিক্ষণ সেট থেকে এলোমেলোভাবে অভিন্নভাবে নির্বাচিত একটি একক উদাহরণে প্রশিক্ষণ দেয়।

তত্ত্বাবধানে মেশিন লার্নিং

#মৌলিক

বৈশিষ্ট্য এবং তাদের সম্পর্কিত লেবেলগুলি থেকে একটি মডেল প্রশিক্ষণ। তত্ত্বাবধানে মেশিন লার্নিং একটি প্রশ্ন এবং তাদের সম্পর্কিত উত্তরগুলি অধ্যয়ন করে একটি বিষয় শেখার সাথে সাদৃশ্যপূর্ণ। প্রশ্ন এবং উত্তরের মধ্যে ম্যাপিংয়ে দক্ষতা অর্জনের পরে, একজন শিক্ষার্থী একই বিষয়ে নতুন (আগে কখনও দেখা যায়নি) প্রশ্নের উত্তর সরবরাহ করতে পারে।

অপ্রচলিত মেশিন লার্নিংয়ের সাথে তুলনা করুন।

সিন্থেটিক বৈশিষ্ট্য

#মৌলিক

ইনপুট বৈশিষ্ট্যগুলির মধ্যে একটি বৈশিষ্ট্য উপস্থিত নেই, তবে সেগুলির মধ্যে এক বা একাধিক থেকে একত্রিত হয়েছে। সিন্থেটিক বৈশিষ্ট্য তৈরির পদ্ধতিগুলির মধ্যে নিম্নলিখিতগুলি অন্তর্ভুক্ত রয়েছে:

  • রেঞ্জের বিনগুলিতে একটি অবিচ্ছিন্ন বৈশিষ্ট্য বালতি করা
  • একটি বৈশিষ্ট্য ক্রস তৈরি করা।
  • অন্য বৈশিষ্ট্য মান (গুলি) দ্বারা বা নিজেই একটি বৈশিষ্ট্য মান গুণ করা (বা বিভাজন)। উদাহরণস্বরূপ, যদি a এবং b ইনপুট বৈশিষ্ট্য হয় তবে নিম্নলিখিতগুলি সিন্থেটিক বৈশিষ্ট্যগুলির উদাহরণ রয়েছে:
    • ab
    • একটি 2
  • একটি বৈশিষ্ট্য মানতে ট্রান্সসেন্টেন্টাল ফাংশন প্রয়োগ করা। উদাহরণস্বরূপ, যদি c কোনও ইনপুট বৈশিষ্ট্য হয় তবে নিম্নলিখিতগুলি সিন্থেটিক বৈশিষ্ট্যগুলির উদাহরণ রয়েছে:
    • পাপ (সি)
    • ln (সি)

একা স্বাভাবিককরণ বা স্কেলিং দ্বারা নির্মিত বৈশিষ্ট্যগুলি সিন্থেটিক বৈশিষ্ট্য হিসাবে বিবেচিত হয় না।

টি

পরীক্ষা ক্ষতি

#মৌলিক

একটি মেট্রিক পরীক্ষার সেটের বিরুদ্ধে কোনও মডেলের ক্ষতির প্রতিনিধিত্ব করে। কোনও মডেল তৈরি করার সময়, আপনি সাধারণত পরীক্ষার ক্ষতি হ্রাস করার চেষ্টা করেন। এটি কারণ একটি কম পরীক্ষার ক্ষতি কম প্রশিক্ষণ হ্রাস বা কম বৈধতা ক্ষতির চেয়ে শক্তিশালী মানের সংকেত।

পরীক্ষা হ্রাস এবং প্রশিক্ষণ ক্ষতি বা বৈধতা ক্ষতির মধ্যে একটি বৃহত ব্যবধান কখনও কখনও পরামর্শ দেয় যে আপনাকে নিয়মিতকরণের হার বাড়াতে হবে।

প্রশিক্ষণ

#মৌলিক

একটি মডেল সমন্বিত আদর্শ পরামিতি (ওজন এবং পক্ষপাত) নির্ধারণের প্রক্রিয়া। প্রশিক্ষণের সময়, একটি সিস্টেম উদাহরণগুলিতে পড়ে এবং ধীরে ধীরে পরামিতিগুলি সামঞ্জস্য করে। প্রশিক্ষণ প্রতিটি উদাহরণ কয়েকবার থেকে কয়েক বিলিয়ন বার ব্যবহার করে।

প্রশিক্ষণ ক্ষতি

#মৌলিক

একটি নির্দিষ্ট প্রশিক্ষণ পুনরাবৃত্তির সময় কোনও মডেলের ক্ষতির প্রতিনিধিত্বকারী একটি মেট্রিক । উদাহরণস্বরূপ, ধরুন ক্ষতির ফাংশনটি হ'ল স্কোয়ার ত্রুটি । 10 তম পুনরাবৃত্তির জন্য সম্ভবত প্রশিক্ষণ ক্ষতি (গড় স্কোয়ার ত্রুটি) 2.2 এবং 100 তম পুনরাবৃত্তির জন্য প্রশিক্ষণ ক্ষতি 1.9।

একটি ক্ষতির বক্ররেখা প্রশিক্ষণের ক্ষতি প্লট করে পুনরাবৃত্তির সংখ্যা বনাম। একটি ক্ষতির বক্ররেখা প্রশিক্ষণ সম্পর্কে নিম্নলিখিত ইঙ্গিতগুলি সরবরাহ করে:

  • একটি নিম্নমুখী ope াল বোঝায় যে মডেলটি উন্নতি করছে।
  • একটি ward র্ধ্বমুখী ope াল বোঝায় যে মডেলটি আরও খারাপ হচ্ছে।
  • একটি সমতল ope াল বোঝায় যে মডেলটি রূপান্তর পৌঁছেছে।

উদাহরণস্বরূপ, নিম্নলিখিত কিছুটা আদর্শিক ক্ষতির বক্ররেখা শো:

  • প্রাথমিক পুনরাবৃত্তির সময় একটি খাড়া নীচের দিকে ope াল, যা দ্রুত মডেলের উন্নতি বোঝায়।
  • প্রশিক্ষণের শেষের কাছাকাছি পর্যন্ত ধীরে ধীরে সমতল (তবে এখনও নীচের দিকে) ope াল, যা প্রাথমিক পুনরাবৃত্তির সময় কিছুটা ধীর গতিতে অব্যাহত মডেল উন্নতি বোঝায়।
  • প্রশিক্ষণের শেষের দিকে একটি সমতল ope াল, যা রূপান্তরকে পরামর্শ দেয়।

প্রশিক্ষণ ক্ষতির বনাম পুনরাবৃত্তির প্লট। এই ক্ষতির বক্ররেখা একটি খাড়া নীচের দিকে ope াল দিয়ে শুরু হয়। Ope ালটি ধীরে ধীরে চ্যাপ্টা হয়ে যায় যতক্ষণ না ope ালু শূন্য হয়।

যদিও প্রশিক্ষণের ক্ষতি গুরুত্বপূর্ণ, সাধারণীকরণও দেখুন।

প্রশিক্ষণ-সরবরাহকারী স্কিউ

#মৌলিক

প্রশিক্ষণের সময় কোনও মডেলের পারফরম্যান্স এবং পরিবেশন চলাকালীন একই মডেলের পারফরম্যান্সের মধ্যে পার্থক্য।

প্রশিক্ষণ সেট

#মৌলিক

ডেটাসেটের সাবসেটটি একটি মডেল প্রশিক্ষণ দিত।

Dition তিহ্যগতভাবে, ডেটাসেটের উদাহরণগুলি নিম্নলিখিত তিনটি স্বতন্ত্র সাবসেটে বিভক্ত:

আদর্শভাবে, ডেটাসেটের প্রতিটি উদাহরণ পূর্ববর্তী সাবসেটগুলির মধ্যে একটির অন্তর্ভুক্ত হওয়া উচিত। উদাহরণস্বরূপ, একটি একক উদাহরণ প্রশিক্ষণ সেট এবং বৈধতা সেট উভয়েরই অন্তর্ভুক্ত নয়।

সত্য নেতিবাচক (টিএন)

#মৌলিক

একটি উদাহরণ যেখানে মডেলটি সঠিকভাবে নেতিবাচক শ্রেণীর পূর্বাভাস দেয়। উদাহরণস্বরূপ, মডেলটি অনুমান করে যে একটি নির্দিষ্ট ইমেল বার্তা স্প্যাম নয় , এবং সেই ইমেল বার্তাটি সত্যই স্প্যাম নয়

সত্য ইতিবাচক (TP)

#মৌলিক

একটি উদাহরণ যেখানে মডেলটি সঠিকভাবে ইতিবাচক শ্রেণীর পূর্বাভাস দেয়। উদাহরণস্বরূপ, মডেলটি অনুমান করে যে একটি নির্দিষ্ট ইমেল বার্তা স্প্যাম এবং সেই ইমেল বার্তাটি সত্যই স্প্যাম।

সত্য ইতিবাচক হার (টিপিআর)

#মৌলিক

পুনর্বিবেচনার প্রতিশব্দ। এটাই:

$$\text{true positive rate} = \frac{\text{true positives}} {\text{true positives} + \text{false negatives}}$$

সত্যিকারের ইতিবাচক হার হ'ল একটি আরওসি বক্ররেখার y- অক্ষ।

আন্ডারফিটিং

#মৌলিক

দুর্বল ভবিষ্যদ্বাণীমূলক ক্ষমতা সহ একটি মডেল উত্পাদন করা কারণ মডেলটি প্রশিক্ষণের ডেটার জটিলতা পুরোপুরি ক্যাপচার করেনি। অনেক সমস্যার কারণ হতে পারে, সহ:

লেবেলযুক্ত উদাহরণ

#ফান্ডামেন্টালস

একটি উদাহরণ যা বৈশিষ্ট্যযুক্ত তবে কোনও লেবেল নেই। উদাহরণস্বরূপ, নিম্নলিখিত টেবিলটি বাড়ির মূল্যায়ন মডেল থেকে তিনটি লেবেলযুক্ত উদাহরণ দেখায়, যার প্রতিটি তিনটি বৈশিষ্ট্য রয়েছে তবে বাড়ির মান নেই:

বেডরুমের সংখ্যা বাথরুমের সংখ্যা বাড়ির বয়স
3 2 15
2 1 72
4 2 34

তদারকি করা মেশিন লার্নিংয়ে , মডেলগুলি লেবেলযুক্ত উদাহরণগুলিতে প্রশিক্ষণ দেয় এবং লেবেলযুক্ত উদাহরণগুলিতে ভবিষ্যদ্বাণী করে।

আধা-তত্ত্বাবধানে এবং নিরবচ্ছিন্ন শিক্ষায়, প্রশিক্ষণের সময় লেবেলযুক্ত উদাহরণগুলি ব্যবহৃত হয়।

লেবেলযুক্ত উদাহরণের সাথে বিপরীতে লেবেলযুক্ত উদাহরণ।

তত্ত্বাবধানহীন মেশিন লার্নিং

# ক্লাস্টারিং
#ফান্ডামেন্টালস

একটি ডেটাসেটে নিদর্শনগুলি সন্ধান করার জন্য একটি মডেলকে প্রশিক্ষণ দেওয়া, সাধারণত একটি লেবেলযুক্ত ডেটাসেট।

অপ্রচলিত মেশিন লার্নিংয়ের সর্বাধিক সাধারণ ব্যবহার হ'ল অনুরূপ উদাহরণের গোষ্ঠীতে ডেটা ক্লাস্টার করা। উদাহরণস্বরূপ, একটি অপ্রচলিত মেশিন লার্নিং অ্যালগরিদম সংগীতের বিভিন্ন বৈশিষ্ট্যের উপর ভিত্তি করে গানগুলি ক্লাস্টার করতে পারে। ফলস্বরূপ ক্লাস্টারগুলি অন্যান্য মেশিন লার্নিং অ্যালগরিদমের ইনপুট হয়ে উঠতে পারে (উদাহরণস্বরূপ, একটি সংগীত সুপারিশ পরিষেবাতে)। ক্লাস্টারিং যখন দরকারী লেবেলগুলি দুর্লভ বা অনুপস্থিত থাকে তখন সহায়তা করতে পারে। উদাহরণস্বরূপ, অ্যান্টি-অনর্থক এবং জালিয়াতির মতো ডোমেনগুলিতে ক্লাস্টারগুলি মানুষকে ডেটা আরও ভালভাবে বুঝতে সহায়তা করতে পারে।

তদারকি করা মেশিন লার্নিংয়ের সাথে বৈপরীত্য।

ভি

বৈধতা

#ফান্ডামেন্টালস

একটি মডেলের মানের প্রাথমিক মূল্যায়ন। বৈধতা বৈধতা সেটের বিপরীতে একটি মডেলের পূর্বাভাসের গুণমান পরীক্ষা করে।

যেহেতু বৈধতা সেটটি প্রশিক্ষণ সেট থেকে পৃথক, বৈধতা ওভারফিটিং থেকে রক্ষা করতে সহায়তা করে।

আপনি পরীক্ষার প্রথম রাউন্ড হিসাবে পরীক্ষার প্রথম রাউন্ড হিসাবে পরীক্ষার দ্বিতীয় রাউন্ড হিসাবে মডেলটির বিরুদ্ধে মডেলটির বিরুদ্ধে মডেলটির মূল্যায়ন করার কথা ভাবতে পারেন।

বৈধতা ক্ষতি

#ফান্ডামেন্টালস

প্রশিক্ষণের একটি নির্দিষ্ট পুনরাবৃত্তির সময় বৈধতা সেটে কোনও মডেলের ক্ষতির প্রতিনিধিত্বকারী একটি মেট্রিক

সাধারণীকরণ বক্ররেখাও দেখুন।

বৈধতা সেট

#ফান্ডামেন্টালস

প্রশিক্ষিত মডেলের বিরুদ্ধে প্রাথমিক মূল্যায়ন সম্পাদন করে এমন ডেটাসেটের সাবসেট। সাধারণত, আপনি পরীক্ষার সেটটির বিপরীতে মডেলটি মূল্যায়ন করার আগে বেশ কয়েকবার বৈধতা সেটের বিপরীতে প্রশিক্ষিত মডেলটি মূল্যায়ন করেন।

Dition তিহ্যগতভাবে, আপনি ডেটাসেটের উদাহরণগুলি নিম্নলিখিত তিনটি স্বতন্ত্র সাবসেটে বিভক্ত করুন:

আদর্শভাবে, ডেটাসেটের প্রতিটি উদাহরণ পূর্ববর্তী সাবসেটগুলির মধ্যে একটির অন্তর্ভুক্ত হওয়া উচিত। উদাহরণস্বরূপ, একটি একক উদাহরণ প্রশিক্ষণ সেট এবং বৈধতা সেট উভয়েরই অন্তর্ভুক্ত নয়।

ডব্লিউ

ওজন

#ফান্ডামেন্টালস

একটি মান যা একটি মডেল অন্য মান দ্বারা গুণ করে। প্রশিক্ষণ একটি মডেলের আদর্শ ওজন নির্ধারণের প্রক্রিয়া; অনুমান হ'ল ভবিষ্যদ্বাণী করার জন্য সেই শিখানো ওজনগুলি ব্যবহার করার প্রক্রিয়া।

weighted sum

#ফান্ডামেন্টালস

The sum of all the relevant input values multiplied by their corresponding weights. For example, suppose the relevant inputs consist of the following:

ইনপুট মান ইনপুট ওজন
2 -1.3
-1 0.6
3 0.4

The weighted sum is therefore:

weighted sum = (2)(-1.3) + (-1)(0.6) + (3)(0.4) = -2.0

A weighted sum is the input argument to an activation function .

জেড

Z-score normalization

#ফান্ডামেন্টালস

A scaling technique that replaces a raw feature value with a floating-point value representing the number of standard deviations from that feature's mean. For example, consider a feature whose mean is 800 and whose standard deviation is 100. The following table shows how Z-score normalization would map the raw value to its Z-score:

Raw value জেড-স্কোর
800 0
950 +1.5
575 -2.25

The machine learning model then trains on the Z-scores for that feature instead of on the raw values.