क्लस्टरिंग एल्गोरिदम

आइए, तुरंत क्लस्टरिंग एल्गोरिदम के प्रकार और उनके हर टाइप का चुनाव करने का समय देखें.

क्लस्टरिंग एल्गोरिदम चुनते समय, आपको इस बात पर विचार करना चाहिए कि एल्गोरिदम आपके डेटासेट को स्केल करता है या नहीं. मशीन लर्निंग में डेटासेट के लाखों उदाहरण हो सकते हैं, लेकिन सभी क्लस्टरिंग एल्गोरिदम असरदार तरीके से काम नहीं करते. कई क्लस्टरिंग एल्गोरिदम, सभी उदाहरणों के बीच समानता का हिसाब लगाकर काम करते हैं. इसका मतलब है कि उनके रनटाइम की संख्या \(n\)के रूप में दिखाई गई संख्या के वर्ग के रूप में बढ़ती है. इसे \(O(n^2)\) जटिलता के नोटेशन में बताया गया है. \(O(n^2)\) एल्गोरिदम, व्यावहारिक नहीं हैं, क्योंकि उदाहरणों की संख्या लाखों में होती है. यह कोर्स, k-means एल्गोरिदम पर फ़ोकस करता है, जो \(O(n)\)के बारे में मुश्किल काम करता है. इसका मतलब है कि एल्गोरिदम बिल्कुल \(n\)के हिसाब से बढ़ता है.

क्लस्टर बनाने के प्रकार

क्लस्टरिंग के लिए कई तरीके मौजूद हैं. पूरी सूची के लिए, क्लस्टरिंग एल्गोरिदम का एक बड़ा सर्वे एक्सयू, डी. टियान, वाई. ऐन. डेटा विज्ञान (2015) 2: 165. हर तरीका, किसी खास डेटा डिस्ट्रिब्यूशन के लिए सबसे सही होता है. नीचे चार सामान्य तरीक़ों के बारे में एक छोटी सी चर्चा की गई है, जिसमें k-mean का इस्तेमाल करके सेंट्रल-आधारित क्लस्टरिंग पर फ़ोकस किया गया है.

सेंट्रोइड-आधारित क्लस्टरिंग

Centroid पर आधारित क्लस्टरिंग डेटा को नीचे हैरारकी क्लस्टर के उलट, हैरारकी क्लस्टर के तौर पर व्यवस्थित करती है. k-mean सबसे ज़्यादा इस्तेमाल किया जाने वाला सेंट्रोइड-आधारित क्लस्टरिंग एल्गोरिदम है. सेंट्रोइड पर आधारित एल्गोरिदम, पहली स्थिति और बाहरी स्थितियों के लिए असरदार होते हैं. यह कोर्स k-mean पर फ़ोकस करता है, क्योंकि यह एक प्रभावी, प्रभावी, और आसान क्लस्टरिंग एल्गोरिदम है.

सेलरॉइड पर आधारित क्लस्टरिंग का इस्तेमाल करके, क्लस्टर किए जाने वाले उदाहरण.
           लाइनों में, क्लस्टर के बीच में बॉर्डर दिखते हैं.
पहली इमेज: सेंट्रोइड पर आधारित क्लस्टरिंग का उदाहरण.

डेंसिटी पर आधारित क्लस्टरिंग

डेंसिटी पर आधारित क्लस्टरिंग में, उदाहरण के तौर पर ज़्यादा डेंसिटी वाले एरिया को क्लस्टर में जोड़ा जाता है. इससे आर्बिट्ररी डिस्ट्रिब्यूशन की तब तक अनुमति मिलती है, जब तक कि घनी जगह को आपस में जोड़ा जा सकता है. इन एल्गोरिदम को हर तरह के डेंसिटी और ज़्यादा डाइमेंशन वाले डेटा की ज़रूरत नहीं होती. इसके अलावा, डिज़ाइन के हिसाब से, ये एल्गोरिदम क्लस्टर में आउटलायर असाइन नहीं करते हैं.

डेंसिटी पर आधारित क्लस्टरिंग का इस्तेमाल करके, दो क्लस्टर में ग्रुप किए गए उदाहरण. क्लस्टर एक-दूसरे से अलग नहीं किए जा सकते.
दूसरी इमेज: डेंसिटी पर आधारित क्लस्टरिंग का उदाहरण.

डिस्ट्रिब्यूशन-आधारित क्लस्टरिंग

क्लस्टरिंग के इस तरीके में यह माना जाता है कि डेटा में डिस्ट्रिब्यूशन शामिल होता है, जैसे कि गाज़ियन डिस्ट्रिब्यूशन. इमेज 3 में, डिस्ट्रिब्यूशन के हिसाब से बना एल्गोरिदम, गॉसियन डिस्ट्रिब्यूशन के तीन डेटा को क्लस्टर में बांटता है. जैसे-जैसे डिस्ट्रिब्यूशन के सेंटर से दूरी बढ़ती है, यह संभावना बढ़ती जाती है कि किसी बिंदु से जुड़े डिस्ट्रिब्यूशन में कमी होगी. बैंड यह दिखाते हैं कि संभावना में कमी आ सकती है. अगर आपको अपने डेटा के डिस्ट्रिब्यूशन का तरीका नहीं पता है, तो आपको कोई दूसरा एल्गोरिदम इस्तेमाल करना चाहिए.

डिस्ट्रिब्यूशन के हिसाब से क्लस्टर बनाने की सुविधा का इस्तेमाल करके, क्लस्टर किए गए उदाहरण. हर क्लस्टर में उदाहरणों की सघनता बताती है कि क्लस्टर डिस्ट्रिब्यूशन के लिए मैप कैसे करते हैं.
तीसरी इमेज: डिस्ट्रिब्यूशन पर आधारित क्लस्टरिंग का उदाहरण.

हैरारकल क्लस्टरिंग

हैरारकल क्लस्टरिंग क्लस्टर का ट्री बनाता है. हैरानी की बात है कि यह ग्रुप, हैरानी की बात नहीं है. जैसे, क्रम के हिसाब से डेटा. उदाहरण के लिए, ओक्साना लूकांचेंको, ट्रडी वासेनार, और डेव वेसरी की 61 क्रम में लगाई गई कोचेरिनिया की जीवाश्म की तुलना देखें. इसके साथ-साथ, एक और फ़ायदा यह है कि पेड़ को सही लेवल पर काटकर, कई क्लस्टर चुने जा सकते हैं.

हैरारकी ट्री का इस्तेमाल करके, जानवरों के समूह.
चौथी इमेज: क्रम के हिसाब से लगे पेड़ों की कैटगरी का उदाहरण.