এই পৃষ্ঠাটি Cloud Translation API অনুবাদ করেছে।

ক্লাস্টারিং অ্যালগরিদম

মেশিন লার্নিং ডেটাসেটে লক্ষ লক্ষ উদাহরণ থাকতে পারে, কিন্তু সমস্ত ক্লাস্টারিং অ্যালগরিদম দক্ষতার সাথে স্কেল করে না। অনেক ক্লাস্টারিং অ্যালগরিদম সমস্ত জোড়া উদাহরণের মধ্যে মিল গণনা করে, যার অর্থ উদাহরণের সংখ্যার বর্গ হিসাবে তাদের রানটাইম বৃদ্ধি পায় \(n\), হিসাবে চিহ্নিত \(O(n^2)\) জটিলতার স্বরলিপিতে। \(O(n^2)\) লক্ষ লক্ষ উদাহরণ সহ ডেটাসেটের জন্য অ্যালগরিদমগুলি ব্যবহারিক নয়৷

k-মানে অ্যালগরিদমের একটি জটিলতা রয়েছে \(O(n)\), যার অর্থ অ্যালগরিদম এর সাথে রৈখিকভাবে স্কেল করে \(n\). এই অ্যালগরিদম এই কোর্সের ফোকাস হবে.

ক্লাস্টারিং এর প্রকারভেদ

ক্লাস্টারিংয়ের বিভিন্ন পদ্ধতির একটি সম্পূর্ণ তালিকার জন্য, ক্লাস্টারিং অ্যালগরিদম জু, ডি. এবং তিয়ান, ওয়াই অ্যান-এর একটি ব্যাপক সমীক্ষা দেখুন। ডেটা। বিজ্ঞান (2015) 2: 165. প্রতিটি পদ্ধতি একটি নির্দিষ্ট ডেটা বিতরণের জন্য সবচেয়ে উপযুক্ত। এই কোর্সটি সংক্ষেপে চারটি সাধারণ পন্থা নিয়ে আলোচনা করে।

Centroid-ভিত্তিক ক্লাস্টারিং

ক্লাস্টারের সেন্ট্রোয়েড হল ক্লাস্টারের সমস্ত বিন্দুর পাটিগণিত গড়। সেন্ট্রোয়েড-ভিত্তিক ক্লাস্টারিং ডেটাকে অ-হায়ারার্কিক্যাল ক্লাস্টারে সংগঠিত করে। সেন্ট্রোয়েড-ভিত্তিক ক্লাস্টারিং অ্যালগরিদমগুলি দক্ষ তবে প্রাথমিক অবস্থা এবং বহিঃপ্রকাশের প্রতি সংবেদনশীল। এর মধ্যে কে-মিনস সবচেয়ে বেশি ব্যবহৃত হয়। এটির জন্য ব্যবহারকারীদের সেন্ট্রোয়েডের সংখ্যা নির্ধারণ করতে হবে, k , এবং মোটামুটি সমান আকারের ক্লাস্টারগুলির সাথে ভাল কাজ করে৷

সেন্ট্রয়েড-ভিত্তিক ক্লাস্টারিং ব্যবহার করে ক্লাস্টারে গোষ্ঠীভুক্ত উদাহরণ। লাইনগুলি ক্লাস্টারগুলির মধ্যে সীমানা দেখায়। — **চিত্র 1: সেন্ট্রোয়েড-ভিত্তিক ক্লাস্টারিংয়ের উদাহরণ।**

ঘনত্ব-ভিত্তিক ক্লাস্টারিং

ঘনত্ব-ভিত্তিক ক্লাস্টারিং উচ্চ উদাহরণ ঘনত্বের সংলগ্ন অঞ্চলগুলিকে ক্লাস্টারে সংযুক্ত করে। এটি যেকোন আকৃতির যেকোন সংখ্যক ক্লাস্টার আবিষ্কারের অনুমতি দেয়। Outliers ক্লাস্টারে বরাদ্দ করা হয় না. এই অ্যালগরিদমের বিভিন্ন ঘনত্বের ক্লাস্টার এবং উচ্চ মাত্রার ডেটা নিয়ে অসুবিধা হয়।

বিতরণ ভিত্তিক ক্লাস্টারিং

এই ক্লাস্টারিং পদ্ধতি অনুমান করে যে ডেটা সম্ভাব্য বন্টন দ্বারা গঠিত, যেমন গাউসিয়ান ডিস্ট্রিবিউশন । চিত্র 3-এ, বিতরণ-ভিত্তিক অ্যালগরিদম তিনটি গাউসিয়ান ডিস্ট্রিবিউশনে ডেটা ক্লাস্টার করে। বন্টনের কেন্দ্র থেকে দূরত্ব বাড়ার সাথে সাথে একটি বিন্দু বন্টনের সাথে সম্পর্কিত হওয়ার সম্ভাবনা হ্রাস পায়। ব্যান্ড দেখায় যে সম্ভাবনা হ্রাস. যখন আপনি ডেটার একটি নির্দিষ্ট অন্তর্নিহিত বিতরণ অনুমান করতে স্বাচ্ছন্দ্যবোধ করেন না, তখন আপনার একটি ভিন্ন অ্যালগরিদম ব্যবহার করা উচিত।

অনুক্রমিক ক্লাস্টারিং

শ্রেণিবদ্ধ ক্লাস্টারিং ক্লাস্টারের একটি গাছ তৈরি করে। শ্রেণীবিন্যাস সংক্রান্ত ক্লাস্টারিং, আশ্চর্যজনকভাবে নয়, শ্রেণিবিন্যাসের মতো শ্রেণিবিন্যাস সংক্রান্ত তথ্যের জন্য উপযুক্ত। উদাহরণের জন্য ওকসানা লুকজানসেঙ্কো, ট্রুডি ওয়াসেনার এবং ডেভ ইউসারির 61টি সিকোয়েন্সড এসচেরিচিয়া কোলি জিনোমের তুলনা দেখুন। সঠিক স্তরে গাছ কেটে যেকোন সংখ্যক ক্লাস্টার বেছে নেওয়া যেতে পারে।

একটি শ্রেণিবদ্ধ গাছ ব্যবহার করে গুচ্ছবদ্ধ প্রাণী। — **চিত্র 4: একটি শ্রেণিবদ্ধ গাছের ক্লাস্টারিং প্রাণীর উদাহরণ।**

পূর্ববর্তী

ক্লাস্টারিং কি?

পরবর্তী

ক্লাস্টারিং ওয়ার্কফ্লো