K-मीन टूल, कई मशीन लर्निंग के लिए बहुत काम का और कारगर है. हालांकि, में कुछ कमियां होती हैं.
k-मीन के फ़ायदे
इसे आसानी से लागू किया जा सकता है.
बड़े डेटा सेट में स्केल करता है.
हमेशा एक-दूसरे से मिलता-जुलता.
सेंट्रोइड की पोज़िशन को वार्म-स्टार्ट करने की सुविधा देता है.
नए उदाहरणों के हिसाब से ढल जाता है.
यह अलग-अलग क्लस्टर में आकार और साइज़, जैसे कि एलिप्टिकल क्लस्टर.
k-मीन का सामान्य होना
k-मीन को सीधे तौर पर लागू करने पर, इसके क्लस्टर के साथ आपको परेशानी हो सकती है अलग-अलग डेंसिटी और साइज़ के बारे में जानें. पहली इमेज की बाईं ओर, क्लस्टर दिखाए गए हैं हम देखना चाहेंगे, जबकि दाईं ओर k-मीन से प्रस्तावित क्लस्टर दिखाए गए हैं.
असंतुलित क्लस्टर की बेहतर परफ़ॉर्मेंस के लिए, जैसा कि पहली इमेज में दिखाया गया है, आप सामान्य बना सकते हैं, जिसका मतलब है कि आप खुद को मॉडल कर सकते हैं. दूसरी इमेज में तीन अलग-अलग चीज़ें दिखाई गई हैं डेटासेट को दो अलग-अलग सामान्यताओं के साथ क्लस्टर में रखा गया है. पहला डेटासेट दिखाता है k-मीन, जिसमें कोई सामान्य जानकारी नहीं है. वहीं, दूसरे और तीसरे चरण में क्लस्टर का इस्तेमाल चौड़ाई अलग-अलग हो सकती है.
इस कोर्स में, के-मीन (k-मीन) को सामान्य बनाने के बारे में नहीं बताया गया है. हालांकि, इसमें रुचि रखने वाले लोगों के लिए जानकारी दी गई है क्लस्टरिंग – k-मीन गाउसियन मिक्स्चर देखना चाहिए मॉडल कार्नेगी मेलन यूनिवर्सिटी से कार्लोस गेस्टरीन.
k-मीन के नुकसान
\(k\) को मैन्युअल तरीके से चुनना होगा.
नतीजे, शुरुआती वैल्यू पर निर्भर करते हैं.
कम \(k\)के लिए, k-मीन चलाकर इस डिपेंडेंसी को कम किया जा सकता है: समय के साथ शुरू करें और सबसे अच्छा नतीजा चुनें. \(k\)के तौर पर बढ़ जाता है, तो आपको बेहतर नाम वाली शुरुआत चुनने के लिए k-मीन सीडिंग की ज़रूरत होगी सीडिंग के बारे में पूरी चर्चा के लिए, सेंट्रोइड देखें "एक तुलनात्मक के-मीन क्लस्टरिंग के लिए, शुरू करने के बेहतर तरीकों की स्टडी Algorithm," एम. एमरे सेलेबी, हसन ए॰ किंगरावी, और पेट्रीसियो ए॰ वेला.
अलग-अलग साइज़ और डाइमेंशन वाले डेटा को इकट्ठा करने में परेशानी होना डेंसिटी को तय करना ज़रूरी नहीं है.
आउटलायर के ग्रुप में रखने में परेशानी.
सेंट्रोइड को आउटलायर की ओर से खींचा जा सकता है या आउटलायर को उनका खुद का क्लस्टर मिल सकता है बल्कि उन्हें नज़रअंदाज़ नहीं किया जा सकता. पहले, आउटलायर को हटाएं या उन्हें क्लिप से हटाएं क्लस्टरिंग.
डाइमेंशन की संख्या को स्केल करने में समस्या.
जैसे-जैसे डेटा में डाइमेंशन की संख्या बढ़ती है, दूरी के हिसाब से समानता दिखती है दिए गए उदाहरणों के बीच किसी कॉन्सटैंट वैल्यू में कन्वर्ट हो जाता है. गलत जानकारी को फैलने से रोकना डाइमेंशन के हिसाब से, PCA क्लस्टरिंग में बदलाव करने के लिए, स्पेक्ट्रल क्लस्टरिंग का इस्तेमाल किया जा सकता है. एल्गोरिदम.
डाइमेंशनिटी और स्पेक्ट्रल क्लस्टरिंग की समस्या
इन तीन प्लॉट में, देखें कि डाइमेंशन में बढ़ोतरी होने पर, स्टैंडर्ड डेविएशन (मानक विचलन) में कैसे उदाहरणों के बीच की दूरी, इनके बीच की औसत दूरी के मुकाबले कम हो जाती है उदाहरण. यह कन्वर्जेंस का मतलब है कि k-मीन, दोनों के बीच अंतर करने में कम असरदार हो जाते हैं जैसे-जैसे डेटा के डाइमेंशन में बढ़ोतरी होती है, वैसे-वैसे उदाहरण. इसे इस तौर पर जाना जाता है: डाइमेंशन के असर को कम करता है.
स्पेक्ट्रल क्लस्टरिंग की मदद से, परफ़ॉर्मेंस में इस कमी से बचा जा सकता है, जो एल्गोरिदम में प्री-क्लस्टरिंग चरणों को जोड़ता है. स्पेक्ट्रल परफ़ॉर्म करने के लिए क्लस्टरिंग:
- पीसीए का इस्तेमाल करके, सुविधा के डेटा के डाइमेंशन को कम करें.
- सभी डेटा पॉइंट को लोअर-डाइमेंशन वाले सबस्पेस में प्रोजेक्ट करें.
- अपने चुने हुए एल्गोरिदम का इस्तेमाल करके, इस सबस्पेस में डेटा को क्लस्टर करें.
स्पेक्ट्रल पर एक ट्यूटोरियल देखें स्पेक्ट्रल के बारे में ज़्यादा जानकारी के लिए, Ulrike वॉन लक्सबर्ग से क्लस्टरिंग क्लस्टरिंग.