क्लस्टरिंग की निगरानी नहीं की जा रही है, इसलिए कोई तथ्यों की पुष्टि के लिए, नतीजे. सच न होने की वजह से, क्वालिटी का आकलन करना मुश्किल हो जाता है. इतना ही नहीं, वास्तविक दुनिया के डेटासेट आम तौर पर उदाहरणों के स्पष्ट समूह ऑफ़र नहीं करते, जैसा कि इमेज 1 में दिया गया उदाहरण.
इसके बजाय, रीयल-वर्ल्ड का डेटा अक्सर इमेज 2 जैसा दिखता है. इस वजह से, यह काम करना मुश्किल हो जाता है क्लस्टरिंग की क्वालिटी का विज़ुअल तौर पर आकलन करें.
हालांकि, कुछ अनुभवों और सबसे सही तरीकों को बार-बार लागू किया जा सकता है क्लस्टरिंग की क्वालिटी को बेहतर बनाया जा सकता है. निम्न फ़्लोचार्ट एक क्लस्टरिंग नतीजों का आकलन करने के तरीके के बारे में खास जानकारी. हम हर विषय के बारे में, चरण पूरा करें.
पहला चरण: क्लस्टरिंग की क्वालिटी का आकलन करें
सबसे पहले यह जांच करें कि क्लस्टर आपकी उम्मीद के मुताबिक दिखते हैं या नहीं और उदाहरण के लिए एक जैसे क्लस्टर में दिखते हैं.
इसके बाद, आम तौर पर इस्तेमाल होने वाली इन मेट्रिक को देखें. हालांकि, यह पूरी सूची नहीं है:
- क्लस्टर एलिमेंट की संख्या
- क्लस्टर की तीव्रता
- डाउनस्ट्रीम परफ़ॉर्मेंस
क्लस्टर एलिमेंट की संख्या
क्लस्टर एलिमेंट की संख्या, हर क्लस्टर के उदाहरणों की संख्या होती है. ग्राफ़ बनाएं सभी क्लस्टर के लिए, क्लस्टर एलिमेंट की संख्या और उन क्लस्टर की जांच करें जो सबसे अहम आउटलायर्स होते हैं. इमेज 2 में, यह क्लस्टर 5 होगा.
क्लस्टर की तीव्रता
क्लस्टर मैग्निट्यूड, किसी क्लस्टर के सभी उदाहरणों से दूरी का योग है क्लस्टर के केंद्रक तक. सभी क्लस्टर और आउटलायर की जांच करें. इमेज 3 में, क्लस्टर 0 एक आउटलायर है.
साथ ही, उदाहरणों में दी गई ज़्यादा से ज़्यादा या औसत दूरी पर ध्यान दें सेंट्रोइड्स से, क्लस्टर के हिसाब से, और आउटलायर का पता लगाने में मदद मिलती है.
तीव्रता बनाम एलिमेंट की संख्या
आपने देखा होगा कि ज़्यादा क्लस्टर एलिमेंट की संख्या, क्लस्टर की मात्रा का अनुमान लगाता है, जो समझने में आसान होता है, क्योंकि क्लस्टर (एलिमेंट की संख्या), उनकी दूरी का संभावित योग जितना ज़्यादा होगा केंद्र से पॉइंट (आकलन). असामान्य क्लस्टर की भी पहचान की जा सकती है उन नतीजों को देखा जा सकता है जिनमें एलिमेंट की संख्या और संख्या के बीच यह संबंध होता है अन्य क्लस्टर से बहुत अलग है. चौथी इमेज में, लाइन को फ़िट करते हुए एलिमेंट की संख्या और मैग्निट्यूड के प्लॉट से पता चलता है कि क्लस्टर 0 असामान्य है. (क्लस्टर 5 भी लाइन से बहुत दूर है, लेकिन अगर क्लस्टर 0 को छोड़ दिया जाता है, तो फ़िट की गई लाइन, क्लस्टर 5 के काफ़ी करीब होगी.)
डाउनस्ट्रीम परफ़ॉर्मेंस
क्लस्टरिंग आउटपुट का इस्तेमाल अक्सर डाउनस्ट्रीम एमएल सिस्टम में किया जाता है. इसलिए, देखें कि क्या क्लस्टरिंग की प्रोसेस में बदलाव होने पर, डाउनस्ट्रीम मॉडल की परफ़ॉर्मेंस बेहतर होती है. इससे आपके क्लस्टरिंग नतीजों की क्वालिटी का असल मूल्यांकन किया जाता है, हालांकि, इस तरह की जांच करना जटिल और महंगा हो सकता है.
दूसरा चरण: समानता के माप का फिर से आकलन करना
आपका क्लस्टरिंग एल्गोरिदम, आपकी समानता के माप की तरह ही अच्छा है. पक्का करें कि आपकी समानता के माप से सही नतीजे मिलते हैं. फटाफट जांच करने का मतलब है कि कम या ज़्यादा एक जैसे माने जाने वाले उदाहरणों के जोड़े की पहचान करना. कैलकुलेट करें उदाहरणों की हर जोड़ी के लिए, समानता का आकलन करें और अपने नतीजों की तुलना आपका ज्ञान: एक जैसे उदाहरणों के जोड़े में ज़्यादा समानता होनी चाहिए असमान उदाहरणों की तुलना में मापता है.
समानता का पता लगाने के लिए आपने जिन उदाहरणों का इस्तेमाल किया है वे डेटासेट की प्रतिनिधि है, ताकि आप विश्वास कर सकें कि आपकी समानता अपने सभी उदाहरणों के लिए, होल्ड शामिल करें. आपके किसी कैंपेन की परफ़ॉर्मेंस समानता का माप, चाहे मैन्युअल हो या निगरानी में, आपकी सभी सेवाओं में एक जैसा होना चाहिए डेटासेट. अगर कुछ उदाहरणों के लिए, समानता का माप अलग-अलग है, तो उदाहरणों को मिलते-जुलते उदाहरणों के साथ नहीं दिखाया जाएगा.
अगर आपको गलत समानता स्कोर वाले उदाहरण मिलते हैं, तो आपकी समानता शायद माप उन सुविधा डेटा को पूरी तरह से कैप्चर न करे जो उन उदाहरण. मिलते-जुलते पैरामीटर के इस्तेमाल से तब तक एक्सपेरिमेंट करते रहें, जब तक इसके और नतीजे न मिल जाएं सटीक और एक जैसे नतीजे पाने की सुविधा मिलती है.
तीसरा चरण: क्लस्टर की सही संख्या पता करना
k-मीन का मतलब है कि आपको पहले से ही क्लस्टर की संख्या \(k\) तय करनी होगी. पीटीएसडी (पोस्ट-ट्रॉमैटिक स्ट्रेस डिसऑर्डर) आपके हिसाब से सबसे सही \(k\)क्या है? एल्गोरिदम को इसके साथ चलाकर देखें की बढ़ती वैल्यू \(k\) और सभी क्लस्टर की मात्रा के योग पर ध्यान दें. जैसे \(k\) बढ़ता है, क्लस्टर छोटे हो जाते हैं, और पॉइंट की कुल दूरी सेंट्रोइड्स के घटने से. हम इस कुल दूरी को नुकसान के तौर पर देख सकते हैं. क्लस्टर की संख्या के हिसाब से यह दूरी दिखाएं.
जैसा कि इमेज 5 में दिखाया गया है, एक तय \(k\)से ऊपर, नुकसान में कमी बढ़ोतरी के साथ हाशिए पर. \(k\). \(k\)का इस्तेमाल करें जहां पहले ढलान में भारी बदलाव होता है, इसे कहा जाता है एल्बो मेथड. दिखाया गया है, तो सबसे बेहतर \(k\) करीब 11 है. अगर आपको ज़्यादा जानकारी चाहिए, तो क्लस्टर के लिए, इस प्लॉट से ज़्यादा \(k\)को चुना जा सकता है.
समस्या हल करने से जुड़े सवाल
अगर आपको आकलन के दौरान समस्याएं मिलती हैं, तो अपने डेटा का फिर से आकलन करें की तैयारी के चरण चुने और समानता का माप चुना. सवाल:
- क्या आपका डेटा सही तरीके से स्केल किया गया है?
- क्या आपकी समानता का माप सही है?
- क्या आपका एल्गोरिदम, डेटा पर शब्दों के हिसाब से सही कार्रवाइयां कर रहा है?
- क्या आपके एल्गोरिदम के अनुमान, डेटा से मेल खाते हैं?