মেশিন লার্নিং শব্দকোষ: ক্লাস্টারিং

এই পৃষ্ঠায় ক্লাস্টারিং শব্দকোষের পদ রয়েছে। সকল শব্দকোষের জন্য এখানে ক্লিক করুন

সমষ্টিগত ক্লাস্টারিং

# ক্লাস্টারিং

অনুক্রমিক ক্লাস্টারিং দেখুন।

কেন্দ্রিক

# ক্লাস্টারিং

একটি k-মান বা k-মিডিয়ান অ্যালগরিদম দ্বারা নির্ধারিত একটি ক্লাস্টারের কেন্দ্র৷ উদাহরণস্বরূপ, k যদি 3 হয়, তাহলে k-মান বা k-মিডিয়ান অ্যালগরিদম 3টি সেন্ট্রোয়েড খুঁজে পায়।

আরও তথ্যের জন্য ক্লাস্টারিং কোর্সে ক্লাস্টারিং অ্যালগরিদম দেখুন।

সেন্ট্রয়েড-ভিত্তিক ক্লাস্টারিং

# ক্লাস্টারিং

ক্লাস্টারিং অ্যালগরিদমের একটি বিভাগ যা ডেটাকে অ-হাইরার্কিকাল ক্লাস্টারে সংগঠিত করে। k- মানে হল সর্বাধিক ব্যবহৃত সেন্ট্রোয়েড-ভিত্তিক ক্লাস্টারিং অ্যালগরিদম।

শ্রেণিবদ্ধ ক্লাস্টারিং অ্যালগরিদমের সাথে বৈসাদৃশ্য।

আরও তথ্যের জন্য ক্লাস্টারিং কোর্সে ক্লাস্টারিং অ্যালগরিদম দেখুন।

ক্লাস্টারিং

# ক্লাস্টারিং

গ্রুপিং সম্পর্কিত উদাহরণগুলি , বিশেষ করে তত্ত্বাবধানহীন শিক্ষার সময়। একবার সমস্ত উদাহরণ গোষ্ঠীবদ্ধ হয়ে গেলে, একজন মানুষ ঐচ্ছিকভাবে প্রতিটি ক্লাস্টারে অর্থ সরবরাহ করতে পারে।

অনেক ক্লাস্টারিং অ্যালগরিদম বিদ্যমান। উদাহরণ স্বরূপ, k-মানে অ্যালগরিদম ক্লাস্টার উদাহরণগুলিকে কেন্দ্র করে তাদের নৈকট্যের উপর ভিত্তি করে, যেমন নিচের চিত্রে:

একটি দ্বি-মাত্রিক গ্রাফ যেখানে x-অক্ষকে গাছের প্রস্থ লেবেল করা হয়েছে,           এবং y-অক্ষকে গাছের উচ্চতা লেবেল করা হয়েছে। গ্রাফটিতে দুটি রয়েছে           সেন্ট্রোয়েড এবং কয়েক ডজন ডেটা পয়েন্ট। তথ্য পয়েন্ট হয়           তাদের নৈকট্যের উপর ভিত্তি করে শ্রেণীবদ্ধ করা হয়েছে। অর্থাৎ ডেটা পয়েন্ট           এক সেন্ট্রোয়েডের নিকটতমকে ক্লাস্টার 1 হিসাবে শ্রেণীবদ্ধ করা হয়, যখন সেগুলি           অন্যান্য সেন্ট্রোয়েডের নিকটতমকে ক্লাস্টার 2 হিসাবে শ্রেণীবদ্ধ করা হয়েছে।

একজন মানব গবেষক তখন ক্লাস্টারগুলি পর্যালোচনা করতে পারেন এবং উদাহরণস্বরূপ, ক্লাস্টার 1 কে "বামন গাছ" এবং ক্লাস্টার 2 কে "পূর্ণ আকারের গাছ" হিসাবে লেবেল করতে পারেন।

আরেকটি উদাহরণ হিসাবে, একটি কেন্দ্র বিন্দু থেকে উদাহরণের দূরত্বের উপর ভিত্তি করে একটি ক্লাস্টারিং অ্যালগরিদম বিবেচনা করুন, নিম্নরূপ চিত্রিত:

কয়েক ডজন ডেটা পয়েন্ট প্রায় এককেন্দ্রিক বৃত্তে সাজানো হয়েছে           ডার্ট বোর্ডের কেন্দ্রের চারপাশে গর্তের মতো। সবচেয়ে ভিতরের রিং           ডেটা পয়েন্টের ক্লাস্টার 1, মধ্যম রিং হিসাবে শ্রেণীবদ্ধ করা হয়           ক্লাস্টার 2 হিসাবে শ্রেণীবদ্ধ করা হয়, এবং সবচেয়ে বাইরের রিং হিসাবে           ক্লাস্টার 3।

আরও তথ্যের জন্য ক্লাস্টারিং কোর্স দেখুন।

ডি

বিভাজক ক্লাস্টারিং

# ক্লাস্টারিং

অনুক্রমিক ক্লাস্টারিং দেখুন।

এইচ

অনুক্রমিক ক্লাস্টারিং

# ক্লাস্টারিং

ক্লাস্টারিং অ্যালগরিদমের একটি বিভাগ যা ক্লাস্টারের একটি গাছ তৈরি করে। হায়ারার্কিক্যাল ক্লাস্টারিং অনুক্রমিক ডেটার জন্য উপযুক্ত, যেমন বোটানিকাল ট্যাক্সোনমি। দুটি ধরণের শ্রেণিবদ্ধ ক্লাস্টারিং অ্যালগরিদম রয়েছে:

  • অ্যাগ্লোমারেটিভ ক্লাস্টারিং প্রথমে প্রতিটি উদাহরণকে তার নিজস্ব ক্লাস্টারে বরাদ্দ করে এবং একটি শ্রেণীবদ্ধ গাছ তৈরি করতে নিকটতম ক্লাস্টারগুলিকে পুনরাবৃত্তি করে।
  • বিভাজনকারী ক্লাস্টারিং প্রথমে সমস্ত উদাহরণকে একটি ক্লাস্টারে গোষ্ঠী করে এবং তারপরে পুনরাবৃত্তভাবে ক্লাস্টারটিকে একটি শ্রেণিবদ্ধ গাছে ভাগ করে।

সেন্ট্রয়েড-ভিত্তিক ক্লাস্টারিংয়ের সাথে বৈসাদৃশ্য।

আরও তথ্যের জন্য ক্লাস্টারিং কোর্সে ক্লাস্টারিং অ্যালগরিদম দেখুন।

কে

k- মানে

# ক্লাস্টারিং

একটি জনপ্রিয় ক্লাস্টারিং অ্যালগরিদম যা তত্ত্বাবধানহীন শিক্ষার উদাহরণগুলিকে গোষ্ঠীভুক্ত করে। k-মানে অ্যালগরিদম মূলত নিম্নলিখিতগুলি করে:

  • পুনরাবৃত্তিমূলকভাবে সেরা k কেন্দ্র বিন্দু নির্ধারণ করে ( সেন্ট্রোয়েড নামে পরিচিত)।
  • নিকটতম সেন্ট্রয়েডে প্রতিটি উদাহরণ বরাদ্দ করে। একই সেন্ট্রোয়েডের কাছাকাছি সেই উদাহরণগুলি একই গ্রুপের অন্তর্গত।

k-মানে অ্যালগরিদম প্রতিটি উদাহরণ থেকে তার নিকটতম সেন্ট্রোয়েড পর্যন্ত দূরত্বের ক্রমবর্ধমান বর্গক্ষেত্রকে ছোট করতে সেন্ট্রোয়েড অবস্থান বেছে নেয়।

উদাহরণস্বরূপ, কুকুরের উচ্চতা থেকে কুকুরের প্রস্থের নিম্নলিখিত প্লটটি বিবেচনা করুন:

কয়েক ডজন ডেটা পয়েন্ট সহ একটি কার্টেসিয়ান প্লট।

k=3 হলে, k-মানে অ্যালগরিদম তিনটি সেন্ট্রোয়েড নির্ধারণ করবে। প্রতিটি উদাহরণ তার নিকটতম সেন্ট্রয়েডের জন্য বরাদ্দ করা হয়, তিনটি গ্রুপ দেয়:

আগের চিত্রের মতো একই কার্টেসিয়ান প্লট, ছাড়া           তিনটি সেন্ট্রোয়েড যুক্ত করা হয়েছে।           পূর্ববর্তী ডেটা পয়েন্টগুলি তিনটি স্বতন্ত্র গ্রুপে ক্লাস্টার করা হয়েছে,           প্রতিটি গ্রুপের সাথে একটি বিশেষের নিকটতম ডেটা পয়েন্ট প্রতিনিধিত্ব করে           কেন্দ্রিক

কল্পনা করুন যে একজন প্রস্তুতকারক কুকুরের জন্য ছোট, মাঝারি এবং বড় সোয়েটারগুলির জন্য আদর্শ মাপ নির্ধারণ করতে চায়। তিনটি সেন্ট্রোয়েড সেই ক্লাস্টারের প্রতিটি কুকুরের গড় উচ্চতা এবং গড় প্রস্থ সনাক্ত করে। সুতরাং, প্রস্তুতকারকের সম্ভবত সেই তিনটি সেন্ট্রোয়েডের উপর সোয়েটারের আকার বেস করা উচিত। মনে রাখবেন যে ক্লাস্টারের সেন্ট্রোয়েড সাধারণত ক্লাস্টারে একটি উদাহরণ নয়

পূর্ববর্তী চিত্রগুলি শুধুমাত্র দুটি বৈশিষ্ট্য (উচ্চতা এবং প্রস্থ) সহ উদাহরণগুলির জন্য k-মান দেখায়। মনে রাখবেন যে k- মানে অনেক বৈশিষ্ট্য জুড়ে উদাহরণ গোষ্ঠীভুক্ত করতে পারে।

k-মিডিয়ান

# ক্লাস্টারিং

একটি ক্লাস্টারিং অ্যালগরিদম k-এর সাথে ঘনিষ্ঠভাবে সম্পর্কিত। উভয়ের মধ্যে ব্যবহারিক পার্থক্য নিম্নরূপ:

  • k-অর্থে, একটি সেন্ট্রোয়েড প্রার্থী এবং এর প্রতিটি উদাহরণের মধ্যে দূরত্বের বর্গক্ষেত্রের যোগফলকে ছোট করে সেন্ট্রোয়েডগুলি নির্ধারণ করা হয়।
  • কে-মিডিয়ানে, সেন্ট্রোয়েডগুলি একটি সেন্ট্রোয়েড প্রার্থী এবং এর প্রতিটি উদাহরণের মধ্যে দূরত্বের যোগফলকে ন্যূনতম করে নির্ধারণ করা হয়।

মনে রাখবেন দূরত্বের সংজ্ঞাগুলিও ভিন্ন:

  • k-অর্থ একটি উদাহরণের জন্য সেন্ট্রোয়েড থেকে ইউক্লিডীয় দূরত্বের উপর নির্ভর করে। (দুটি মাত্রায়, ইউক্লিডীয় দূরত্ব মানে কর্ণ গণনা করার জন্য পিথাগোরিয়ান উপপাদ্য ব্যবহার করে।) উদাহরণস্বরূপ, k- মানে (2,2) এবং (5,-2) এর মধ্যে দূরত্ব হবে:
$$ {\text{Euclidean distance}} = {\sqrt {(2-5)^2 + (2--2)^2}} = 5 $$
  • কে-মিডিয়ান একটি উদাহরণের জন্য সেন্ট্রোয়েড থেকে ম্যানহাটনের দূরত্বের উপর নির্ভর করে। এই দূরত্ব হল প্রতিটি মাত্রার পরম ব-দ্বীপের সমষ্টি। উদাহরণস্বরূপ, (2,2) এবং (5,-2) এর মধ্যে k-মধ্য দূরত্ব হবে:
$$ {\text{Manhattan distance}} = \lvert 2-5 \rvert + \lvert 2--2 \rvert = 7 $$

এস

সাদৃশ্য পরিমাপ

# ক্লাস্টারিং

ক্লাস্টারিং অ্যালগরিদমে, যে কোনো দুটি উদাহরণ কতটা সমান (কতটা একই) তা নির্ধারণ করতে ব্যবহৃত মেট্রিক।

স্কেচিং

# ক্লাস্টারিং

তত্ত্বাবধানহীন মেশিন লার্নিং- এ, অ্যালগরিদমের একটি বিভাগ যা উদাহরণগুলির উপর একটি প্রাথমিক মিল বিশ্লেষণ করে। স্কেচিং অ্যালগরিদমগুলি একটি স্থানীয়-সংবেদনশীল হ্যাশ ফাংশন ব্যবহার করে পয়েন্টগুলি সনাক্ত করতে যা একই রকম হতে পারে এবং তারপরে সেগুলিকে বালতিতে গোষ্ঠীভুক্ত করে।

স্কেচিং বড় ডেটাসেটের সাদৃশ্য গণনার জন্য প্রয়োজনীয় গণনা হ্রাস করে। ডেটাসেটের প্রতিটি এক জোড়া উদাহরণের জন্য সাদৃশ্য গণনা করার পরিবর্তে, আমরা প্রতিটি বালতির মধ্যে শুধুমাত্র প্রতিটি জোড়া পয়েন্টের জন্য সাদৃশ্য গণনা করি।

টি

সময় সিরিজ বিশ্লেষণ

# ক্লাস্টারিং

মেশিন লার্নিং এবং পরিসংখ্যানের একটি সাবফিল্ড যা অস্থায়ী ডেটা বিশ্লেষণ করে। অনেক ধরনের মেশিন লার্নিং সমস্যার জন্য শ্রেণীবিভাগ, ক্লাস্টারিং, পূর্বাভাস এবং অসঙ্গতি সনাক্তকরণ সহ সময় সিরিজ বিশ্লেষণের প্রয়োজন হয়। উদাহরণস্বরূপ, আপনি ঐতিহাসিক বিক্রয় ডেটার উপর ভিত্তি করে মাসের দ্বারা শীতের কোটগুলির ভবিষ্যত বিক্রয়ের পূর্বাভাস দিতে সময় সিরিজ বিশ্লেষণ ব্যবহার করতে পারেন।

তত্ত্বাবধানহীন মেশিন লার্নিং

# ক্লাস্টারিং
#মৌলিক

একটি ডেটাসেটে প্যাটার্ন খুঁজে বের করার জন্য একটি মডেলকে প্রশিক্ষণ দেওয়া, সাধারণত একটি লেবেলবিহীন ডেটাসেট।

তত্ত্বাবধানহীন মেশিন লার্নিং-এর সবচেয়ে সাধারণ ব্যবহার হল অনুরূপ উদাহরণের গোষ্ঠীগুলিতে ডেটা ক্লাস্টার করা । উদাহরণস্বরূপ, একটি তত্ত্বাবধানহীন মেশিন লার্নিং অ্যালগরিদম সঙ্গীতের বিভিন্ন বৈশিষ্ট্যের উপর ভিত্তি করে গানগুলিকে ক্লাস্টার করতে পারে। ফলস্বরূপ ক্লাস্টারগুলি অন্যান্য মেশিন লার্নিং অ্যালগরিদমের জন্য একটি ইনপুট হয়ে উঠতে পারে (উদাহরণস্বরূপ, একটি সঙ্গীত সুপারিশ পরিষেবাতে)। যখন দরকারী লেবেল দুষ্প্রাপ্য বা অনুপস্থিত থাকে তখন ক্লাস্টারিং সাহায্য করতে পারে। উদাহরণস্বরূপ, অ্যান্টি-ব্যবহার এবং জালিয়াতির মতো ডোমেনে, ক্লাস্টারগুলি মানুষকে ডেটা আরও ভালভাবে বুঝতে সাহায্য করতে পারে।

তত্ত্বাবধানে থাকা মেশিন লার্নিংয়ের সাথে বৈসাদৃশ্য।