মেশিন লার্নিং শব্দকোষ: ক্লাস্টারিং

এই পৃষ্ঠায় ক্লাস্টারিং শব্দকোষের পদ রয়েছে। সকল শব্দকোষের জন্য এখানে ক্লিক করুন

সমষ্টিগত ক্লাস্টারিং

# ক্লাস্টারিং

অনুক্রমিক ক্লাস্টারিং দেখুন।

ভরকেন্দ্র

# ক্লাস্টারিং

একটি k-মান বা k-মিডিয়ান অ্যালগরিদম দ্বারা নির্ধারিত একটি ক্লাস্টারের কেন্দ্র৷ উদাহরণস্বরূপ, k যদি 3 হয়, তাহলে k-মান বা k-মিডিয়ান অ্যালগরিদম 3টি সেন্ট্রোয়েড খুঁজে পায়।

সেন্ট্রয়েড-ভিত্তিক ক্লাস্টারিং

# ক্লাস্টারিং

ক্লাস্টারিং অ্যালগরিদমের একটি বিভাগ যা ডেটাকে অ-হাইরার্কিকাল ক্লাস্টারে সংগঠিত করে। k- মানে হল সর্বাধিক ব্যবহৃত সেন্ট্রোয়েড-ভিত্তিক ক্লাস্টারিং অ্যালগরিদম।

শ্রেণিবদ্ধ ক্লাস্টারিং অ্যালগরিদমের সাথে বৈসাদৃশ্য।

ক্লাস্টারিং

# ক্লাস্টারিং

গ্রুপিং সম্পর্কিত উদাহরণগুলি , বিশেষ করে তত্ত্বাবধানহীন শিক্ষার সময়। একবার সমস্ত উদাহরণ গোষ্ঠীবদ্ধ হয়ে গেলে, একজন মানুষ ঐচ্ছিকভাবে প্রতিটি ক্লাস্টারে অর্থ সরবরাহ করতে পারে।

অনেক ক্লাস্টারিং অ্যালগরিদম বিদ্যমান। উদাহরণস্বরূপ, k-মানে অ্যালগরিদম ক্লাস্টার উদাহরণগুলি একটি সেন্ট্রোয়েডের সাথে তাদের নৈকট্যের উপর ভিত্তি করে, যেমনটি নিম্নলিখিত চিত্রটিতে রয়েছে:

একটি দ্বি-মাত্রিক গ্রাফ যাতে x-অক্ষকে গাছের প্রস্থ লেবেল করা হয় এবং y-অক্ষটিকে গাছের উচ্চতা লেবেল করা হয়। গ্রাফটিতে দুটি সেন্ট্রোয়েড এবং কয়েক ডজন ডেটা পয়েন্ট রয়েছে। ডেটা পয়েন্টগুলি তাদের নৈকট্যের উপর ভিত্তি করে শ্রেণীবদ্ধ করা হয়। অর্থাৎ, একটি সেন্ট্রোয়েডের নিকটতম ডেটা পয়েন্টগুলিকে ক্লাস্টার 1 হিসাবে শ্রেণীবদ্ধ করা হয়েছে, যখন অন্য সেন্ট্রোয়েডের নিকটতমগুলিকে ক্লাস্টার 2 হিসাবে শ্রেণীবদ্ধ করা হয়েছে।

একজন মানব গবেষক তখন ক্লাস্টারগুলি পর্যালোচনা করতে পারেন এবং উদাহরণস্বরূপ, ক্লাস্টার 1 কে "বামন গাছ" এবং ক্লাস্টার 2 কে "পূর্ণ আকারের গাছ" হিসাবে লেবেল করতে পারেন।

আরেকটি উদাহরণ হিসাবে, একটি কেন্দ্র বিন্দু থেকে উদাহরণের দূরত্বের উপর ভিত্তি করে একটি ক্লাস্টারিং অ্যালগরিদম বিবেচনা করুন, নিম্নরূপ চিত্রিত:

কয়েক ডজন ডেটা পয়েন্ট ঘনকেন্দ্রিক বৃত্তে সাজানো হয়, প্রায় একটি ডার্ট বোর্ডের কেন্দ্রের চারপাশে গর্তের মতো। ডেটা পয়েন্টের সবচেয়ে ভিতরের রিংটি ক্লাস্টার 1 হিসাবে শ্রেণীবদ্ধ করা হয়েছে, মাঝের রিংটি ক্লাস্টার 2 এবং বাইরের রিংটি ক্লাস্টার 3 হিসাবে শ্রেণীবদ্ধ করা হয়েছে।

ডি

বিভাজক ক্লাস্টারিং

# ক্লাস্টারিং

অনুক্রমিক ক্লাস্টারিং দেখুন।

এইচ

অনুক্রমিক ক্লাস্টারিং

# ক্লাস্টারিং

ক্লাস্টারিং অ্যালগরিদমের একটি বিভাগ যা ক্লাস্টারের একটি গাছ তৈরি করে। হায়ারার্কিক্যাল ক্লাস্টারিং অনুক্রমিক ডেটার জন্য উপযুক্ত, যেমন বোটানিকাল ট্যাক্সোনমি। দুটি ধরণের শ্রেণিবদ্ধ ক্লাস্টারিং অ্যালগরিদম রয়েছে:

  • অ্যাগ্লোমারেটিভ ক্লাস্টারিং প্রথমে প্রতিটি উদাহরণকে তার নিজস্ব ক্লাস্টারে বরাদ্দ করে এবং একটি শ্রেণীবদ্ধ গাছ তৈরি করতে নিকটতম ক্লাস্টারগুলিকে পুনরাবৃত্তি করে।
  • বিভাজনকারী ক্লাস্টারিং প্রথমে সমস্ত উদাহরণকে একটি ক্লাস্টারে গোষ্ঠী করে এবং তারপরে পুনরাবৃত্তভাবে ক্লাস্টারটিকে একটি শ্রেণিবদ্ধ গাছে ভাগ করে।

সেন্ট্রয়েড-ভিত্তিক ক্লাস্টারিংয়ের সাথে বৈসাদৃশ্য।

কে

k- মানে

# ক্লাস্টারিং

একটি জনপ্রিয় ক্লাস্টারিং অ্যালগরিদম যা তত্ত্বাবধানহীন শিক্ষার উদাহরণগুলিকে গোষ্ঠীভুক্ত করে। k-মানে অ্যালগরিদম মূলত নিম্নলিখিতগুলি করে:

  • পুনরাবৃত্তিমূলকভাবে সেরা k কেন্দ্র বিন্দু নির্ধারণ করে ( সেন্ট্রোয়েড নামে পরিচিত)।
  • নিকটতম সেন্ট্রয়েডে প্রতিটি উদাহরণ বরাদ্দ করে। একই সেন্ট্রোয়েডের কাছাকাছি সেই উদাহরণগুলি একই গ্রুপের অন্তর্গত।

k-মানে অ্যালগরিদম প্রতিটি উদাহরণ থেকে তার নিকটতম সেন্ট্রোয়েড পর্যন্ত দূরত্বের ক্রমবর্ধমান বর্গক্ষেত্রকে ছোট করতে সেন্ট্রোয়েড অবস্থান বেছে নেয়।

উদাহরণস্বরূপ, কুকুরের উচ্চতা থেকে কুকুরের প্রস্থের নিম্নলিখিত প্লটটি বিবেচনা করুন:

কয়েক ডজন ডেটা পয়েন্ট সহ একটি কার্টেসিয়ান প্লট।

k=3 হলে, k-মানে অ্যালগরিদম তিনটি সেন্ট্রোয়েড নির্ধারণ করবে। প্রতিটি উদাহরণ তার নিকটতম সেন্ট্রয়েডের জন্য বরাদ্দ করা হয়, তিনটি গ্রুপ দেয়:

আগের চিত্রের মতো একই কার্টেসিয়ান প্লট, তিনটি সেন্ট্রোয়েড যোগ করা ছাড়া। পূর্ববর্তী ডেটা পয়েন্টগুলি তিনটি স্বতন্ত্র গ্রুপে ক্লাস্টার করা হয়েছে, প্রতিটি গ্রুপ একটি নির্দিষ্ট সেন্ট্রোয়েডের নিকটতম ডেটা পয়েন্টগুলিকে প্রতিনিধিত্ব করে।

কল্পনা করুন যে একজন প্রস্তুতকারক কুকুরের জন্য ছোট, মাঝারি এবং বড় সোয়েটারগুলির জন্য আদর্শ মাপ নির্ধারণ করতে চায়। তিনটি সেন্ট্রোয়েড সেই ক্লাস্টারের প্রতিটি কুকুরের গড় উচ্চতা এবং গড় প্রস্থ সনাক্ত করে। সুতরাং, প্রস্তুতকারকের সম্ভবত সেই তিনটি সেন্ট্রোয়েডের উপর সোয়েটারের আকার বেস করা উচিত। মনে রাখবেন যে ক্লাস্টারের সেন্ট্রোয়েড সাধারণত ক্লাস্টারে একটি উদাহরণ নয়

পূর্ববর্তী চিত্রগুলি শুধুমাত্র দুটি বৈশিষ্ট্য (উচ্চতা এবং প্রস্থ) সহ উদাহরণগুলির জন্য k-মান দেখায়। মনে রাখবেন যে k- মানে অনেক বৈশিষ্ট্য জুড়ে উদাহরণ গোষ্ঠীভুক্ত করতে পারে।

k-মিডিয়ান

# ক্লাস্টারিং

একটি ক্লাস্টারিং অ্যালগরিদম k-এর সাথে ঘনিষ্ঠভাবে সম্পর্কিত। উভয়ের মধ্যে ব্যবহারিক পার্থক্য নিম্নরূপ:

  • k-অর্থে, একটি সেন্ট্রোয়েড প্রার্থী এবং এর প্রতিটি উদাহরণের মধ্যে দূরত্বের বর্গক্ষেত্রের যোগফলকে ছোট করে সেন্ট্রোয়েডগুলি নির্ধারণ করা হয়।
  • কে-মিডিয়ানে, সেন্ট্রোয়েডগুলি একটি সেন্ট্রোয়েড প্রার্থী এবং এর প্রতিটি উদাহরণের মধ্যে দূরত্বের যোগফলকে ন্যূনতম করে নির্ধারণ করা হয়।

মনে রাখবেন দূরত্বের সংজ্ঞাগুলিও ভিন্ন:

  • k-অর্থ একটি উদাহরণের জন্য সেন্ট্রোয়েড থেকে ইউক্লিডীয় দূরত্বের উপর নির্ভর করে। (দুটি মাত্রায়, ইউক্লিডীয় দূরত্ব মানে কর্ণ গণনা করার জন্য পিথাগোরিয়ান উপপাদ্য ব্যবহার করে।) উদাহরণস্বরূপ, k- মানে (2,2) এবং (5,-2) এর মধ্যে দূরত্ব হবে:
$$ {\text{Euclidean distance}} = {\sqrt {(2-5)^2 + (2--2)^2}} = 5 $$
  • কে-মিডিয়ান একটি উদাহরণের জন্য সেন্ট্রোয়েড থেকে ম্যানহাটনের দূরত্বের উপর নির্ভর করে। এই দূরত্ব হল প্রতিটি মাত্রার পরম ব-দ্বীপের সমষ্টি। উদাহরণস্বরূপ, (2,2) এবং (5,-2) এর মধ্যে k-মধ্য দূরত্ব হবে:
$$ {\text{Manhattan distance}} = \lvert 2-5 \rvert + \lvert 2--2 \rvert = 7 $$

এস

সাদৃশ্য পরিমাপ

# ক্লাস্টারিং

ক্লাস্টারিং অ্যালগরিদমে, যে কোনো দুটি উদাহরণ কতটা সমান (কতটা একই) তা নির্ধারণ করতে ব্যবহৃত মেট্রিক।

স্কেচিং

# ক্লাস্টারিং

তত্ত্বাবধানহীন মেশিন লার্নিং -এ, অ্যালগরিদমের একটি বিভাগ যা উদাহরণগুলির উপর একটি প্রাথমিক মিল বিশ্লেষণ করে। স্কেচিং অ্যালগরিদমগুলি একটি স্থানীয়-সংবেদনশীল হ্যাশ ফাংশন ব্যবহার করে পয়েন্টগুলি সনাক্ত করতে যা একই রকম হতে পারে এবং তারপরে সেগুলিকে বালতিতে গোষ্ঠীভুক্ত করে।

স্কেচিং বড় ডেটাসেটের সাদৃশ্য গণনার জন্য প্রয়োজনীয় গণনা হ্রাস করে। ডেটাসেটের প্রতিটি এক জোড়া উদাহরণের জন্য সাদৃশ্য গণনা করার পরিবর্তে, আমরা প্রতিটি বালতির মধ্যে শুধুমাত্র প্রতিটি জোড়া পয়েন্টের জন্য সাদৃশ্য গণনা করি।

টি

সময় সিরিজ বিশ্লেষণ

# ক্লাস্টারিং

মেশিন লার্নিং এবং পরিসংখ্যানের একটি সাবফিল্ড যা অস্থায়ী ডেটা বিশ্লেষণ করে। অনেক ধরনের মেশিন লার্নিং সমস্যার জন্য শ্রেণীবিভাগ, ক্লাস্টারিং, পূর্বাভাস এবং অসঙ্গতি সনাক্তকরণ সহ সময় সিরিজ বিশ্লেষণের প্রয়োজন হয়। উদাহরণস্বরূপ, আপনি ঐতিহাসিক বিক্রয় ডেটার উপর ভিত্তি করে মাসের দ্বারা শীতের কোটগুলির ভবিষ্যত বিক্রয়ের পূর্বাভাস দিতে সময় সিরিজ বিশ্লেষণ ব্যবহার করতে পারেন।

তত্ত্বাবধানহীন মেশিন লার্নিং

# ক্লাস্টারিং
#মৌলিক

একটি ডেটাসেটে প্যাটার্ন খুঁজে বের করার জন্য একটি মডেলকে প্রশিক্ষণ দেওয়া, সাধারণত একটি লেবেলবিহীন ডেটাসেট।

তত্ত্বাবধানহীন মেশিন লার্নিং-এর সবচেয়ে সাধারণ ব্যবহার হল অনুরূপ উদাহরণের গোষ্ঠীগুলিতে ডেটা ক্লাস্টার করা। উদাহরণস্বরূপ, একটি তত্ত্বাবধানহীন মেশিন লার্নিং অ্যালগরিদম সঙ্গীতের বিভিন্ন বৈশিষ্ট্যের উপর ভিত্তি করে গানগুলিকে ক্লাস্টার করতে পারে। ফলস্বরূপ ক্লাস্টারগুলি অন্যান্য মেশিন লার্নিং অ্যালগরিদমের জন্য একটি ইনপুট হয়ে উঠতে পারে (উদাহরণস্বরূপ, একটি সঙ্গীত সুপারিশ পরিষেবাতে)। যখন দরকারী লেবেল দুষ্প্রাপ্য বা অনুপস্থিত থাকে তখন ক্লাস্টারিং সাহায্য করতে পারে। উদাহরণস্বরূপ, অপব্যবহার এবং জালিয়াতির মতো ডোমেনে, ক্লাস্টারগুলি মানুষকে ডেটা আরও ভালভাবে বুঝতে সাহায্য করতে পারে।

তত্ত্বাবধানে থাকা মেশিন লার্নিংয়ের সাথে বৈসাদৃশ্য।