k-मीन के फ़ायदे और नुकसान

K-मीन टूल, कई मशीन लर्निंग के लिए बहुत काम का और कारगर है. हालांकि, में कुछ कमियां होती हैं.

k-मीन के फ़ायदे

इसे आसानी से लागू किया जा सकता है.

बड़े डेटा सेट में स्केल करता है.

हमेशा एक-दूसरे से मिलता-जुलता.

सेंट्रोइड की पोज़िशन को वार्म-स्टार्ट करने की सुविधा देता है.

नए उदाहरणों के हिसाब से ढल जाता है.

यह अलग-अलग क्लस्टर में आकार और साइज़, जैसे कि एलिप्टिकल क्लस्टर.

k-मीन का सामान्य होना

k-मीन को सीधे तौर पर लागू करने पर, इसके क्लस्टर के साथ आपको परेशानी हो सकती है अलग-अलग डेंसिटी और साइज़ के बारे में जानें. पहली इमेज की बाईं ओर, क्लस्टर दिखाए गए हैं हम देखना चाहेंगे, जबकि दाईं ओर k-मीन से प्रस्तावित क्लस्टर दिखाए गए हैं.

एक-साथ दो ग्राफ़. पहले डेटासेट में साफ़ तौर पर दिख रहे क्लस्टर दिए गए हैं. दूसरा, k-मीन चलाने के बाद उदाहरणों के एक विषम समूह को दिखाता है.
पहली इमेज: सामान्य के तौर पर सेट किए गए k-मीन का उदाहरण.

असंतुलित क्लस्टर की बेहतर परफ़ॉर्मेंस के लिए, जैसा कि पहली इमेज में दिखाया गया है, आप सामान्य बना सकते हैं, जिसका मतलब है कि आप खुद को मॉडल कर सकते हैं. दूसरी इमेज में तीन अलग-अलग चीज़ें दिखाई गई हैं डेटासेट को दो अलग-अलग सामान्यताओं के साथ क्लस्टर में रखा गया है. पहला डेटासेट दिखाता है k-मीन, जिसमें कोई सामान्य जानकारी नहीं है. वहीं, दूसरे और तीसरे चरण में क्लस्टर का इस्तेमाल चौड़ाई अलग-अलग हो सकती है.

तीन ग्राफ़, जिनमें सामान्यीकरण के बिना k-मीन दिखाए गए हैं, फिर k-मीन दिखाए गए हैं
       इससे अलग-अलग चौड़ाई बनाई जा सकती हैं, फिर k-मीन से अलग-अलग चौड़ाई बनाई जा सकती हैं
       डाइमेंशन के हिसाब से.
इमेज 2: k-मीन का मतलब, सामान्य जानकारी के साथ और उसके बिना क्लस्टर करना.

इस कोर्स में, के-मीन (k-मीन) को सामान्य बनाने के बारे में नहीं बताया गया है. हालांकि, इसमें रुचि रखने वाले लोगों के लिए जानकारी दी गई है क्लस्टरिंग – k-मीन गाउसियन मिक्स्चर देखना चाहिए मॉडल कार्नेगी मेलन यूनिवर्सिटी से कार्लोस गेस्टरीन.

k-मीन के नुकसान

\(k\) को मैन्युअल तरीके से चुनना होगा.

नतीजे, शुरुआती वैल्यू पर निर्भर करते हैं.

कम \(k\)के लिए, k-मीन चलाकर इस डिपेंडेंसी को कम किया जा सकता है: समय के साथ शुरू करें और सबसे अच्छा नतीजा चुनें. \(k\)के तौर पर बढ़ जाता है, तो आपको बेहतर नाम वाली शुरुआत चुनने के लिए k-मीन सीडिंग की ज़रूरत होगी सीडिंग के बारे में पूरी चर्चा के लिए, सेंट्रोइड देखें "एक तुलनात्मक के-मीन क्लस्टरिंग के लिए, शुरू करने के बेहतर तरीकों की स्टडी Algorithm," एम. एमरे सेलेबी, हसन ए॰ किंगरावी, और पेट्रीसियो ए॰ वेला.

अलग-अलग साइज़ और डाइमेंशन वाले डेटा को इकट्ठा करने में परेशानी होना डेंसिटी को तय करना ज़रूरी नहीं है.

आउटलायर के ग्रुप में रखने में परेशानी.

सेंट्रोइड को आउटलायर की ओर से खींचा जा सकता है या आउटलायर को उनका खुद का क्लस्टर मिल सकता है बल्कि उन्हें नज़रअंदाज़ नहीं किया जा सकता. पहले, आउटलायर को हटाएं या उन्हें क्लिप से हटाएं क्लस्टरिंग.

डाइमेंशन की संख्या को स्केल करने में समस्या.

जैसे-जैसे डेटा में डाइमेंशन की संख्या बढ़ती है, दूरी के हिसाब से समानता दिखती है दिए गए उदाहरणों के बीच किसी कॉन्सटैंट वैल्यू में कन्वर्ट हो जाता है. गलत जानकारी को फैलने से रोकना डाइमेंशन के हिसाब से, PCA क्लस्टरिंग में बदलाव करने के लिए, स्पेक्ट्रल क्लस्टरिंग का इस्तेमाल किया जा सकता है. एल्गोरिदम.

डाइमेंशनिटी और स्पेक्ट्रल क्लस्टरिंग की समस्या

इन तीन प्लॉट में, देखें कि डाइमेंशन में बढ़ोतरी होने पर, स्टैंडर्ड डेविएशन (मानक विचलन) में कैसे उदाहरणों के बीच की दूरी, इनके बीच की औसत दूरी के मुकाबले कम हो जाती है उदाहरण. यह कन्वर्जेंस का मतलब है कि k-मीन, दोनों के बीच अंतर करने में कम असरदार हो जाते हैं जैसे-जैसे डेटा के डाइमेंशन में बढ़ोतरी होती है, वैसे-वैसे उदाहरण. इसे इस तौर पर जाना जाता है: डाइमेंशन के असर को कम करता है.

तीन प्लॉट जो दिखाते हैं कि डाइमेंशन की संख्या बढ़ने पर, उदाहरणों के बीच की दूरी का स्टैंडर्ड डीविएशन कैसे घटता है
इमेज 3: डाइमेंशनलिटी को बर्बाद होने से जुड़ी जानकारी. हर प्लॉट में, 200 रैंडम पॉइंट के बीच की जोड़ी के हिसाब से दूरियां दिखाई जाती हैं.

स्पेक्ट्रल क्लस्टरिंग की मदद से, परफ़ॉर्मेंस में इस कमी से बचा जा सकता है, जो एल्गोरिदम में प्री-क्लस्टरिंग चरणों को जोड़ता है. स्पेक्ट्रल परफ़ॉर्म करने के लिए क्लस्टरिंग:

  1. पीसीए का इस्तेमाल करके, सुविधा के डेटा के डाइमेंशन को कम करें.
  2. सभी डेटा पॉइंट को लोअर-डाइमेंशन वाले सबस्पेस में प्रोजेक्ट करें.
  3. अपने चुने हुए एल्गोरिदम का इस्तेमाल करके, इस सबस्पेस में डेटा को क्लस्टर करें.

स्पेक्ट्रल पर एक ट्यूटोरियल देखें स्पेक्ट्रल के बारे में ज़्यादा जानकारी के लिए, Ulrike वॉन लक्सबर्ग से क्लस्टरिंग क्लस्टरिंग.