मशीन लर्निंग डेटासेट में लाखों उदाहरण हो सकते हैं. हालांकि, क्लस्टरिंग के सभी एल्गोरिदम, बड़े डेटा के साथ काम नहीं करते. क्लस्टरिंग के कई एल्गोरिदम, उदाहरणों के सभी पेयर के बीच समानता का हिसाब लगाते हैं. इसका मतलब है कि उदाहरणों की संख्या के वर्ग के तौर पर, उनके रनटाइम में बढ़ोतरी होती है \(n\). इसे जटिलता के नोटेशन में \(O(n^2)\) के तौर पर दिखाया जाता है. \(O(n^2)\) एल्गोरिदम, लाखों उदाहरणों वाले डेटासेट के लिए काम के नहीं होते.
क-मीन्स एल्गोरिदम की मुश्किली \(O(n)\)है. इसका मतलब है कि एल्गोरिदम, \(n\)के साथ लीनियर तरीके से स्केल करता है. इस कोर्स में इस एल्गोरिदम पर फ़ोकस किया जाएगा.
क्लस्टर करने के तरीके
क्लस्टर करने के अलग-अलग तरीकों की पूरी सूची के लिए, क्लस्टरिंग एल्गोरिदम की पूरी जानकारी Xu, D. देखें. और टिएन, वाई. ऐन. डेटा. Sci. (2015) 2: 165. हर तरीका, किसी खास डेटा डिस्ट्रिब्यूशन के लिए सबसे सही होता है. इस कोर्स में, चार सामान्य तरीकों के बारे में कम शब्दों में बताया गया है.
सेंट्रोइड पर आधारित क्लस्टरिंग
किसी क्लस्टर का सेंट्रोइड, क्लस्टर के सभी बिंदुओं का अंकगणितीय माध्य होता है. सेंट्रॉइड पर आधारित क्लस्टरिंग, डेटा को बिना हैरारकी वाले क्लस्टर में व्यवस्थित करती है. सेंट्रॉइड पर आधारित क्लस्टरिंग एल्गोरिदम असरदार होते हैं, लेकिन शुरुआती स्थितियों और आउटलायर के लिए संवेदनशील होते हैं. इनमें से, k-means का सबसे ज़्यादा इस्तेमाल किया जाता है. इसके लिए, उपयोगकर्ताओं को सेंट्राइड की संख्या, k तय करनी होती है. साथ ही, यह करीब-करीब एक जैसे साइज़ के क्लस्टर के साथ अच्छी तरह से काम करता है.
डेंसिटी पर आधारित क्लस्टरिंग
डेंसिटी-बेस्ड क्लस्टरिंग, एक जैसे डेटा वाले आस-पास के इलाकों को एक साथ क्लस्टर में जोड़ती है. इससे, किसी भी आकार के किसी भी संख्या में क्लस्टर खोजे जा सकते हैं. आउटलायर को क्लस्टर में असाइन नहीं किया जाता. इन एल्गोरिदम को अलग-अलग घनत्व वाले क्लस्टर और ज़्यादा डाइमेंशन वाले डेटा के साथ काम करने में मुश्किल होती है.
डिस्ट्रिब्यूशन के आधार पर क्लस्टरिंग
क्लस्टरिंग के इस तरीके में यह माना जाता है कि डेटा, संभावित डिस्ट्रिब्यूशन से बना है. जैसे, गॉसियन डिस्ट्रिब्यूशन. तीसरे चित्र में, डिस्ट्रिब्यूशन पर आधारित एल्गोरिदम, डेटा को तीन गॉसियन डिस्ट्रिब्यूशन में बांटता है. डिस्ट्रिब्यूशन के सेंटर से दूरी बढ़ने पर, किसी पॉइंट के डिस्ट्रिब्यूशन से जुड़े होने की संभावना कम हो जाती है. बैंड से पता चलता है कि संभावना में कमी आई है. अगर आपको डेटा के किसी खास डिस्ट्रिब्यूशन के बारे में पता नहीं है, तो आपको किसी दूसरे एल्गोरिदम का इस्तेमाल करना चाहिए.
हैरारकीकल क्लस्टरिंग
हियरार्किकल क्लस्टरिंग, क्लस्टर का ट्री बनाता है. हैरारकी क्लस्टरिंग, टैक्सोनॉमी जैसे हैरारकी वाले डेटा के लिए सबसे सही है. उदाहरण के लिए, Oksana Lukjancenko, Trudy Wassenaar, और Dave Ussery की 61 क्रम में लगाए गए Escherichia coli जीनोम की तुलना देखें. ट्री को सही लेवल पर काटकर, कितने भी क्लस्टर चुने जा सकते हैं.