ক্লাস্টারিং অ্যালগরিদম

মেশিন লার্নিং ডেটাসেটে লক্ষ লক্ষ উদাহরণ থাকতে পারে, কিন্তু সমস্ত ক্লাস্টারিং অ্যালগরিদম দক্ষতার সাথে স্কেল করে না। অনেক ক্লাস্টারিং অ্যালগরিদম সমস্ত জোড়া উদাহরণের মধ্যে সাদৃশ্য গণনা করে, যার অর্থ হল তাদের রানটাইম উদাহরণের সংখ্যার বর্গ হিসাবে বৃদ্ধি পায় \(n\), জটিলতার স্বরলিপিতে \(O(n^2)\) হিসাবে চিহ্নিত। \(O(n^2)\) অ্যালগরিদম লক্ষ লক্ষ উদাহরণ সহ ডেটাসেটের জন্য ব্যবহারিক নয়।

k-মানে অ্যালগরিদমে \(O(n)\)এর জটিলতা রয়েছে, যার অর্থ হল অ্যালগরিদম \(n\)এর সাথে রৈখিকভাবে স্কেল করে। এই অ্যালগরিদম এই কোর্সের ফোকাস হবে.

ক্লাস্টারিং এর প্রকারভেদ

ক্লাস্টারিংয়ের বিভিন্ন পদ্ধতির একটি সম্পূর্ণ তালিকার জন্য, ক্লাস্টারিং অ্যালগরিদম জু, ডি. এবং তিয়ান, ওয়াই অ্যান-এর একটি ব্যাপক সমীক্ষা দেখুন। ডেটা। বিজ্ঞান (2015) 2: 165. প্রতিটি পদ্ধতি একটি নির্দিষ্ট ডেটা বিতরণের জন্য সবচেয়ে উপযুক্ত। এই কোর্সটি সংক্ষেপে চারটি সাধারণ পন্থা নিয়ে আলোচনা করে।

Centroid-ভিত্তিক ক্লাস্টারিং

ক্লাস্টারের সেন্ট্রোয়েড হল ক্লাস্টারের সমস্ত বিন্দুর পাটিগণিত গড়। সেন্ট্রোয়েড-ভিত্তিক ক্লাস্টারিং ডেটাকে অ-হায়ারার্কিক্যাল ক্লাস্টারে সংগঠিত করে। সেন্ট্রোয়েড-ভিত্তিক ক্লাস্টারিং অ্যালগরিদমগুলি দক্ষ তবে প্রাথমিক অবস্থা এবং বহিঃপ্রকাশের প্রতি সংবেদনশীল। এর মধ্যে কে-মিনস সবচেয়ে বেশি ব্যবহৃত হয়। এটির জন্য ব্যবহারকারীদের সেন্ট্রোয়েডের সংখ্যা নির্ধারণ করতে হবে, k , এবং মোটামুটি সমান আকারের ক্লাস্টারগুলির সাথে ভাল কাজ করে৷

সেন্ট্রয়েড-ভিত্তিক ক্লাস্টারিং ব্যবহার করে ক্লাস্টারে গোষ্ঠীভুক্ত উদাহরণ।            লাইনগুলি ক্লাস্টারগুলির মধ্যে সীমানা দেখায়।
চিত্র 1: সেন্ট্রোয়েড-ভিত্তিক ক্লাস্টারিংয়ের উদাহরণ।

ঘনত্ব-ভিত্তিক ক্লাস্টারিং

ঘনত্ব-ভিত্তিক ক্লাস্টারিং উচ্চ উদাহরণ ঘনত্বের সংলগ্ন অঞ্চলগুলিকে ক্লাস্টারে সংযুক্ত করে। এটি যেকোন আকৃতির যেকোন সংখ্যক ক্লাস্টার আবিষ্কারের অনুমতি দেয়। Outliers ক্লাস্টারে বরাদ্দ করা হয় না. এই অ্যালগরিদমের বিভিন্ন ঘনত্বের ক্লাস্টার এবং উচ্চ মাত্রার ডেটা নিয়ে অসুবিধা হয়।

ঘনত্ব-ভিত্তিক ক্লাস্টারিং ব্যবহার করে দুটি ক্লাস্টারে বিভক্ত উদাহরণ।       ক্লাস্টারগুলি রৈখিকভাবে পৃথক করা যায় না।
চিত্র 2: ঘনত্ব-ভিত্তিক ক্লাস্টারিংয়ের উদাহরণ।

বিতরণ ভিত্তিক ক্লাস্টারিং

এই ক্লাস্টারিং পদ্ধতি অনুমান করে যে ডেটা সম্ভাব্য বন্টন দ্বারা গঠিত, যেমন গাউসিয়ান ডিস্ট্রিবিউশন । চিত্র 3-এ, বিতরণ-ভিত্তিক অ্যালগরিদম তিনটি গাউসিয়ান ডিস্ট্রিবিউশনে ডেটা ক্লাস্টার করে। বন্টনের কেন্দ্র থেকে দূরত্ব বাড়ার সাথে সাথে একটি বিন্দু বন্টনের সাথে সম্পর্কিত হওয়ার সম্ভাবনা হ্রাস পায়। ব্যান্ড দেখায় যে সম্ভাবনা হ্রাস. যখন আপনি ডেটার একটি নির্দিষ্ট অন্তর্নিহিত বিতরণ অনুমান করতে স্বাচ্ছন্দ্যবোধ করেন না, তখন আপনার একটি ভিন্ন অ্যালগরিদম ব্যবহার করা উচিত।

বিতরণ-ভিত্তিক ক্লাস্টারিং ব্যবহার করে ক্লাস্টার করা উদাহরণ। প্রতিটি ক্লাস্টারে উদাহরণের ঘনত্বের ছায়া দেখায় কিভাবে ক্লাস্টারগুলি বিতরণে ম্যাপ করে।
চিত্র 3: বিতরণ-ভিত্তিক ক্লাস্টারিংয়ের উদাহরণ।

অনুক্রমিক ক্লাস্টারিং

শ্রেণিবদ্ধ ক্লাস্টারিং ক্লাস্টারের একটি গাছ তৈরি করে। শ্রেণীবিন্যাস সংক্রান্ত ক্লাস্টারিং, আশ্চর্যজনকভাবে নয়, শ্রেণিবিন্যাসের মতো শ্রেণিবিন্যাস সংক্রান্ত তথ্যের জন্য উপযুক্ত। উদাহরণের জন্য ওকসানা লুকজানসেঙ্কো, ট্রুডি ওয়াসেনার এবং ডেভ ইউসারির 61টি সিকোয়েন্সড এসচেরিচিয়া কোলি জিনোমের তুলনা দেখুন। সঠিক স্তরে গাছ কেটে যেকোন সংখ্যক ক্লাস্টার বেছে নেওয়া যেতে পারে।

একটি শ্রেণিবদ্ধ গাছ ব্যবহার করে গুচ্ছবদ্ধ প্রাণী।
চিত্র 4: একটি শ্রেণিবদ্ধ গাছের ক্লাস্টারিং প্রাণীর উদাহরণ।