क्लस्टरिंग एल्गोरिदम

मशीन लर्निंग डेटासेट में लाखों के उदाहरण हैं, लेकिन सभी क्लस्टरिंग एल्गोरिदम बेहतर तरीके से नहीं मापे जा सकते. कई क्लस्टरिंग एल्गोरिदम, उदाहरणों के सभी जोड़े के बीच समानता का हिसाब लगाते हैं, जो इसका मतलब है कि उदाहरणों की संख्या के स्क्वेयर जैसे-जैसे बढ़ने पर, रनटाइम बढ़ता है \(n\), इसे कॉम्प्लेक्सिटी नोटेशन में \(O(n^2)\) के रूप में दिखाया जाता है. \(O(n^2)\) एल्गोरिदम के लिए व्यावहारिक कर सकते हैं.

k-means एल्गोरिदम में \(O(n)\)की जटिलता का मतलब है कि एल्गोरिदम, \(n\)के साथ लीनियर तौर पर स्केल करता है. इस एल्गोरिदम में, मुख्य विषय के तौर पर फ़ोकस किया जाएगा.

क्लस्टरिंग के टाइप

क्लस्टरिंग के अलग-अलग तरीकों की पूरी सूची के लिए, यह देखें क्लस्टरिंग एल्गोरिदम का एक बड़ा सर्वे डी॰ जू, & वाई॰ टियान, ऐन॰ डेटा. साइंस. (2015) 2: 165. हर रणनीति, इन कामों के लिए सबसे सही है किसी खास तरह का डेटा डिस्ट्रिब्यूशन. इस कोर्स में चार सामान्य विषयों के बारे में जानकारी दी गई है अप्रोच.

सेंट्रोइड पर आधारित क्लस्टरिंग

क्लस्टर का सेंट्रोइड इसमें सभी बिंदुओं का अंकगणितीय माध्य क्लस्टर. सेंट्रॉइड-आधारित क्लस्टरिंग, डेटा को गैर-पदानुक्रमिक में व्यवस्थित करती है क्लस्टर. सेंट्रोइड पर आधारित क्लस्टरिंग एल्गोरिदम कुशल हैं, लेकिन शुरुआती शर्तों और आउटलायर्स (आउटलायर्स) की गणना करें. इनमें से k-मीन सबसे ज़्यादा इसका ज़्यादा इस्तेमाल होता है. इसमें उपयोगकर्ताओं को सेंट्रोइड, k, और करीब-करीब बराबर साइज़ वाले क्लस्टर के साथ अच्छी तरह काम करता है.

सेंट्रोइड-आधारित क्लस्टरिंग का इस्तेमाल करके क्लस्टर में ग्रुप किए गए उदाहरण.
           लाइनें, क्लस्टर के बीच बॉर्डर दिखाती हैं.
इमेज 1: सेंट्रोइड-आधारित क्लस्टरिंग का उदाहरण.

डेंसिटी-बेस्ड क्लस्टरिंग

डेंसिटी-आधारित क्लस्टरिंग, हाई उदाहरण डेंसिटी वाले आस-पास के इलाकों को क्लस्टर. यह किसी भी आकार के कितने भी क्लस्टर की खोज करने की अनुमति देता है. क्लस्टर को आउटलायर असाइन नहीं किए जाते. इन एल्गोरिदम को यह अलग-अलग सघनता और डेटा के क्लस्टर है.

सघनता पर आधारित क्लस्टरिंग का इस्तेमाल करके, दो क्लस्टर में ग्रुप किए गए उदाहरण.
      क्लस्टर को लीनियर तौर पर अलग नहीं किया जा सकता.
इमेज 2: डेंसिटी पर आधारित क्लस्टरिंग का उदाहरण.

डिस्ट्रिब्यूशन पर आधारित क्लस्टरिंग

क्लस्टरिंग अप्रोच का मतलब है कि डेटा, संभावित डिस्ट्रिब्यूशन, जैसे कि गॉसियन डिस्ट्रिब्यूशन. तय सीमा में इमेज 3, डिस्ट्रिब्यूशन-आधारित एल्गोरिदम, डेटा को तीन गॉसियन में बांटता है डिस्ट्रिब्यूशन. वितरण के केंद्र से दूरी बढ़ने पर, यह संभावना कि डिस्ट्रिब्यूशन से जुड़ा कोई पॉइंट घटता है. बैंड शो कम संभावना होती है. जब आप किसी खास चीज़ को पहले से मौजूद डेटा के डिस्ट्रिब्यूशन के लिए, आपको दूसरे एल्गोरिदम का इस्तेमाल करना चाहिए.

डिस्ट्रिब्यूशन पर आधारित क्लस्टरिंग का इस्तेमाल करके, क्लस्टर में शामिल किए गए उदाहरण. हर क्लस्टर में उदाहरणों की सघनता का शेडिंग से पता चलता है कि क्लस्टर डिस्ट्रिब्यूशन के लिए कैसे मैप किए जाते हैं.
इमेज 3: डिस्ट्रिब्यूशन पर आधारित क्लस्टरिंग का उदाहरण.

हैरारकी के हिसाब से क्लस्टरिंग

क्रम के हिसाब से क्लस्टरिंग, क्लस्टर का ट्री बनाती है. हैरारकीकल क्लस्टरिंग, इसमें कोई हैरानी की बात नहीं है कि यह हैरारकी जैसे डेटा के लिए सही है. यहां जाएं: 61 सीक्वेंस्ड एस्केरिचिया कोली जीनोम की तुलना ओक्साना लुक्जैनेको, ट्रुडी वासेनार, और उदाहरण के लिए डेव उसेरी. सही लेवल पर पेड़ को काटकर कितने भी क्लस्टर चुने जा सकते हैं.

एक हैरारकी वाले पेड़ की मदद से जानवरों का एक समूह.
इमेज 4: क्रम में लगे पेड़ों से कलेक्शन करने वाले जानवरों का उदाहरण.