মেশিন লার্নিং ডেটাসেটে লক্ষ লক্ষ উদাহরণ থাকতে পারে, কিন্তু সমস্ত ক্লাস্টারিং অ্যালগরিদম দক্ষতার সাথে স্কেল করে না। অনেক ক্লাস্টারিং অ্যালগরিদম সমস্ত জোড়া উদাহরণের মধ্যে সাদৃশ্য গণনা করে, যার অর্থ হল তাদের রানটাইম উদাহরণের সংখ্যার বর্গ হিসাবে বৃদ্ধি পায় \(n\), জটিলতার স্বরলিপিতে \(O(n^2)\) হিসাবে চিহ্নিত। \(O(n^2)\) অ্যালগরিদম লক্ষ লক্ষ উদাহরণ সহ ডেটাসেটের জন্য ব্যবহারিক নয়।
k-মানে অ্যালগরিদমে \(O(n)\)এর জটিলতা রয়েছে, যার অর্থ হল অ্যালগরিদম \(n\)এর সাথে রৈখিকভাবে স্কেল করে। এই অ্যালগরিদম এই কোর্সের ফোকাস হবে.
ক্লাস্টারিং এর প্রকারভেদ
ক্লাস্টারিংয়ের বিভিন্ন পদ্ধতির একটি সম্পূর্ণ তালিকার জন্য, ক্লাস্টারিং অ্যালগরিদম জু, ডি. এবং তিয়ান, ওয়াই অ্যান-এর একটি ব্যাপক সমীক্ষা দেখুন। ডেটা। বিজ্ঞান (2015) 2: 165. প্রতিটি পদ্ধতি একটি নির্দিষ্ট ডেটা বিতরণের জন্য সবচেয়ে উপযুক্ত। এই কোর্সটি সংক্ষেপে চারটি সাধারণ পন্থা নিয়ে আলোচনা করে।
Centroid-ভিত্তিক ক্লাস্টারিং
ক্লাস্টারের সেন্ট্রোয়েড হল ক্লাস্টারের সমস্ত বিন্দুর পাটিগণিত গড়। সেন্ট্রোয়েড-ভিত্তিক ক্লাস্টারিং ডেটাকে অ-হায়ারার্কিক্যাল ক্লাস্টারে সংগঠিত করে। সেন্ট্রোয়েড-ভিত্তিক ক্লাস্টারিং অ্যালগরিদমগুলি দক্ষ তবে প্রাথমিক অবস্থা এবং বহিঃপ্রকাশের প্রতি সংবেদনশীল। এর মধ্যে কে-মিনস সবচেয়ে বেশি ব্যবহৃত হয়। এটির জন্য ব্যবহারকারীদের সেন্ট্রোয়েডের সংখ্যা নির্ধারণ করতে হবে, k , এবং মোটামুটি সমান আকারের ক্লাস্টারগুলির সাথে ভাল কাজ করে৷
ঘনত্ব-ভিত্তিক ক্লাস্টারিং
ঘনত্ব-ভিত্তিক ক্লাস্টারিং উচ্চ উদাহরণ ঘনত্বের সংলগ্ন অঞ্চলগুলিকে ক্লাস্টারে সংযুক্ত করে। এটি যেকোন আকৃতির যেকোন সংখ্যক ক্লাস্টার আবিষ্কারের অনুমতি দেয়। Outliers ক্লাস্টারে বরাদ্দ করা হয় না. এই অ্যালগরিদমের বিভিন্ন ঘনত্বের ক্লাস্টার এবং উচ্চ মাত্রার ডেটা নিয়ে অসুবিধা হয়।
বিতরণ ভিত্তিক ক্লাস্টারিং
এই ক্লাস্টারিং পদ্ধতি অনুমান করে যে ডেটা সম্ভাব্য বন্টন দ্বারা গঠিত, যেমন গাউসিয়ান ডিস্ট্রিবিউশন । চিত্র 3-এ, বিতরণ-ভিত্তিক অ্যালগরিদম তিনটি গাউসিয়ান ডিস্ট্রিবিউশনে ডেটা ক্লাস্টার করে। বন্টনের কেন্দ্র থেকে দূরত্ব বাড়ার সাথে সাথে একটি বিন্দু বন্টনের সাথে সম্পর্কিত হওয়ার সম্ভাবনা হ্রাস পায়। ব্যান্ড দেখায় যে সম্ভাবনা হ্রাস. যখন আপনি ডেটার একটি নির্দিষ্ট অন্তর্নিহিত বিতরণ অনুমান করতে স্বাচ্ছন্দ্যবোধ করেন না, তখন আপনার একটি ভিন্ন অ্যালগরিদম ব্যবহার করা উচিত।
অনুক্রমিক ক্লাস্টারিং
শ্রেণিবদ্ধ ক্লাস্টারিং ক্লাস্টারের একটি গাছ তৈরি করে। শ্রেণীবিন্যাস সংক্রান্ত ক্লাস্টারিং, আশ্চর্যজনকভাবে নয়, শ্রেণিবিন্যাসের মতো শ্রেণিবিন্যাস সংক্রান্ত তথ্যের জন্য উপযুক্ত। উদাহরণের জন্য ওকসানা লুকজানসেঙ্কো, ট্রুডি ওয়াসেনার এবং ডেভ ইউসারির 61টি সিকোয়েন্সড এসচেরিচিয়া কোলি জিনোমের তুলনা দেখুন। সঠিক স্তরে গাছ কেটে যেকোন সংখ্যক ক্লাস্টার বেছে নেওয়া যেতে পারে।