मशीन लर्निंग शब्दावली: क्लस्टरिंग

इस पेज में क्लस्टरिंग शब्दावली शब्द शामिल हैं. शब्दावली के सभी शब्दों के लिए, यहां क्लिक करें.

जवाब

एगलोमेरेटिव क्लस्टरिंग

#clustering

हैरारकी क्लस्टरिंग देखें.

C

सेंट्रोइड

#clustering

क्लस्टर का केंद्र, जिसे k-means या k-median एल्गोरिदम से तय किया जाता है. उदाहरण के लिए, अगर k 3 है, तो k-मीन या k-मीडियन एल्गोरिदम को तीन सेंट्रोइड मिलेंगे.

सेंट्रोइड-आधारित क्लस्टरिंग

#clustering

क्लस्टरिंग एल्गोरिदम की एक कैटगरी, जो डेटा को नॉन-हैरारकी वाले क्लस्टर में व्यवस्थित करती है. k-means, सबसे ज़्यादा इस्तेमाल किया जाने वाला सेंट्रोइड पर आधारित क्लस्टरिंग एल्गोरिदम है.

हैरारकी क्लस्टरिंग एल्गोरिदम के बीच कंट्रास्ट.

क्लस्टरिंग

#clustering

इनसे मिलते-जुलते उदाहरण को ग्रुप करना. खास तौर पर, अनसुपरवाइज़्ड लर्निंग के दौरान. सभी उदाहरणों को ग्रुप कर लेने के बाद, कोई व्यक्ति हर क्लस्टर को मतलब बता सकता है. हालांकि, ऐसा करना ज़रूरी नहीं है.

कई क्लस्टरिंग एल्गोरिदम मौजूद हैं. उदाहरण के लिए, k-means एल्गोरिदम के क्लस्टर के उदाहरण, जो सेंट्रोइड से उनकी नज़दीकी के आधार पर दिए जाते हैं, जैसा कि यहां दिखाया गया है:

दो डाइमेंशन वाला ग्राफ़, जिसमें x-ऐक्सिस को पेड़ की चौड़ाई का लेबल दिया गया है और y-ऐक्सिस को पेड़ की ऊंचाई के तौर पर लेबल किया गया है. ग्राफ़ में दो
          सेंट्रोइड और कई दर्जन डेटा पॉइंट होते हैं. डेटा पॉइंट को उनकी नज़दीकी के आधार पर
          कैटगरी में बांटा जाता है. इसका मतलब है कि एक सेंट्रोइड के सबसे करीब वाले डेटा पॉइंट को क्लस्टर 1 की कैटगरी में रखा जाता है, जबकि दूसरे सेंट्रोइड के सबसे करीब वाले डेटा पॉइंट को क्लस्टर 2 की कैटगरी में रखा जाता है.

इसके बाद, मानवीय शोधकर्ता इन क्लस्टर की समीक्षा कर सकता है. उदाहरण के लिए, क्लस्टर 1 को "बौने ट्री" और क्लस्टर 2 को "फ़ुल-साइज़ ट्री" के तौर पर लेबल किया जा सकता है.

एक अन्य उदाहरण के तौर पर, किसी उदाहरण के केंद्र बिंदु से दूरी के आधार पर क्लस्टरिंग एल्गोरिदम पर विचार करें. इसका उदाहरण नीचे दिया गया है:

कई डेटा पॉइंट, एक ही केंद्र में बने गोल घेरे में बनाए गए हैं. ये करीब-करीब
          डार्ट बोर्ड के बीच में छेद की तरह हैं. डेटा पॉइंट के सबसे अंदर वाले रिंग को क्लस्टर 1, बीच की रिंग को क्लस्टर 2, और सबसे बाहरी रिंग को क्लस्टर 3 की कैटगरी में रखा जाता है.

D

डिवीसिव क्लस्टरिंग

#clustering

हैरारकी क्लस्टरिंग देखें.

H

हैरारकीकल क्लस्टरिंग

#clustering

क्लस्टरिंग एल्गोरिदम की कैटगरी, जो क्लस्टर का ट्री बनाती है. हैरारकी के हिसाब से क्लस्टर में बांटने की सुविधा, हैरारकी के हिसाब से डेटा को बेहतर तरीके से दिखाती है, जैसे कि वनस्पति उद्यानों की अलग-अलग कैटगरी. हैरारकी वाले क्लस्टरिंग एल्गोरिदम दो तरह के होते हैं:

  • एगलोमेरेटिव क्लस्टरिंग में सबसे पहले, हर उदाहरण को अपने क्लस्टर में असाइन किया जाता है. साथ ही, हैरारकी वाला पेड़ बनाने के लिए, यह सबसे नज़दीकी क्लस्टर को मर्ज करता है.
  • डिविज़िव क्लस्टरिंग में सबसे पहले सभी उदाहरणों को एक क्लस्टर में रखा जाता है. इसके बाद, इन्हें फिर से क्रम के हिसाब से हैरारकी ट्री में बांटा जाता है.

सेंट्रोइड-आधारित क्लस्टरिंग के साथ कंट्रास्ट.

K

के-मीन

#clustering

एक लोकप्रिय क्लस्टरिंग एल्गोरिदम, जो बिना निगरानी वाले लर्निंग सिस्टम के उदाहरणों का ग्रुप बनाता है. मूल रूप से, k-मीन एल्गोरिदम ये काम करता है:

  • बार-बार सबसे अच्छे k सेंटर पॉइंट तय करते हैं (जिन्हें सेंट्रोइड कहा जाता है).
  • हर उदाहरण को सबसे नज़दीकी सेंट्रोइड को असाइन करता है. एक ही सेंट्रोइड के सबसे करीब वाले वे उदाहरण एक ही ग्रुप से जुड़े हैं.

k-मीन एल्गोरिदम, हर उदाहरण से सबसे नज़दीकी सेंट्रोइड की दूरी के कुल स्क्वेयर को कम से कम करने के लिए, सेंट्रोइड लोकेशन चुनता है.

उदाहरण के लिए, कुत्ते की लंबाई और उसकी चौड़ाई के हिसाब से, नीचे दिए गए प्लॉट का इस्तेमाल करें:

कई दर्जन डेटा पॉइंट वाला एक कार्टीज़न प्लॉट.

अगर k=3 है, तो k-मीन एल्गोरिदम तीन सेंट्रोइड तय करेगा. हर उदाहरण अपने सबसे नज़दीकी सेंट्रोइड को असाइन किया जाता है, जिससे तीन ग्रुप मिलते हैं:

पिछले उदाहरण में दिखाया गया कार्टीज़न प्लॉट. इसमें तीन सेंट्रोइड जोड़े गए हैं.
          पिछले डेटा पॉइंट को तीन अलग-अलग ग्रुप में बांटा जाता है.
          इनमें हर ग्रुप, किसी खास सेंट्रोइड के सबसे करीब मौजूद डेटा पॉइंट
          को दिखाता है.

मान लें कि कोई मैन्युफ़ैक्चरर, कुत्तों के लिए छोटे, मीडियम, और बड़े स्वेटर के लिए सही साइज़ तय करना चाहता है. तीन सेंट्रोइड, उस क्लस्टर में हर कुत्ते की औसत ऊंचाई और औसत चौड़ाई की पहचान करते हैं. इसलिए, मैन्युफ़ैक्चरर को स्वेटर के साइज़ को उन तीन सेंट्रोइड के हिसाब से सेट करना चाहिए. ध्यान दें कि क्लस्टर का सेंट्रोइड, आम तौर पर क्लस्टर में मौजूद उदाहरण नहीं होता है.

पहले दिए गए इलस्ट्रेशन में, सिर्फ़ दो सुविधाओं (ऊंचाई और चौड़ाई) वाले उदाहरणों के लिए k-मीन दिखाए गए हैं. ध्यान दें कि k-मीन कई सुविधाओं के उदाहरणों को एक ग्रुप में डाल सकता है.

के-मीडियन

#clustering

क्लस्टरिंग एल्गोरिदम, जो k-means से काफ़ी हद तक मिलता-जुलता है. दोनों के बीच व्यावहारिक अंतर इस तरह हैं:

  • के-मीन में, सेंट्रोइड को एक सेंट्रोइड कैंडिडेट और उसके हर उदाहरण के बीच की दूरी के स्क्वेयर के योग को कम करके तय किया जाता है.
  • के-मीडियन में, सेंट्रोइड को सेंट्रोइड कैंडिडेट और उसके हर उदाहरण के बीच की दूरी के योग को कम करके तय किया जाता है.

ध्यान दें कि दूरी की परिभाषाएं भी अलग-अलग होती हैं:

  • k-मीन, सेंट्रोइड से एक उदाहरण तक यूक्लिडियन दूरी पर निर्भर करता है. (दो डाइमेंशन में, यूक्लिडियन दूरी का मतलब है, पाइथागोरस प्रमेय की मदद से कर्ण की गणना करना.) उदाहरण के लिए, (2,2) और (5,-2) के बीच k-मीन की दूरी इस होगी:
$$ {\text{Euclidean distance}} = {\sqrt {(2-5)^2 + (2--2)^2}} = 5 $$
  • के-मीडियन, सेंट्रोइड से एक उदाहरण तक मैनहैटन की दूरी पर निर्भर करता है. यह दूरी हर डाइमेंशन में कुल डेल्टा का कुल योग होती है. उदाहरण के लिए, (2,2) और (5,-2) के बीच के-मीडियन दूरी होगी:
$$ {\text{Manhattan distance}} = \lvert 2-5 \rvert + \lvert 2--2 \rvert = 7 $$

S

समानता माप

#clustering

क्लस्टरिंग एल्गोरिदम में, मेट्रिक का इस्तेमाल यह तय करने के लिए किया जाता है कि दोनों उदाहरण एक जैसे (कितने मिलते-जुलते हैं) हैं.

स्केचिंग

#clustering

निगरानी में नहीं रखी गई मशीन लर्निंग में, एल्गोरिदम की एक कैटगरी है जो उदाहरणों पर शुरुआती समानता का विश्लेषण करती है. स्केचिंग एल्गोरिदम, एक जैसे पॉइंट की पहचान करने के लिए, इलाके के हिसाब से संवेदनशील हैश फ़ंक्शन का इस्तेमाल करते हैं. इसके बाद, उन्हें बकेट में ग्रुप करते हैं.

स्केचिंग से, बड़े डेटासेट पर समानता की गणना के लिए ज़रूरी कंप्यूटेशन कम हो जाता है. डेटासेट में मौजूद उदाहरणों के हर जोड़े की समानता का हिसाब लगाने के बजाय, हम हर बकेट में पॉइंट के हर जोड़े के लिए समानता का हिसाब लगाते हैं.

T

टाइम सीरीज़ विश्लेषण

#clustering

मशीन लर्निंग और आंकड़ों का एक सबफ़ील्ड, जो अस्थायी डेटा का विश्लेषण करता है. मशीन लर्निंग से जुड़ी कई तरह की समस्याओं के लिए, टाइम सीरीज़ के विश्लेषण की ज़रूरत होती है. इसमें डेटा की कैटगरी तय करना, क्लस्टरिंग, अनुमान लगाना, और गड़बड़ी की पहचान करना शामिल है. उदाहरण के लिए, टाइम सीरीज़ विश्लेषण का इस्तेमाल करके, बिक्री के पुराने डेटा के आधार पर महीने के हिसाब से विंटर कोट की होने वाली बिक्री का अनुमान लगाया जा सकता है.

U

बिना निगरानी वाली मशीन लर्निंग

#clustering
#fundamentals

किसी डेटासेट में पैटर्न ढूंढने के लिए model को ट्रेनिंग देना. आम तौर पर, यह डेटासेट बिना लेबल वाला डेटासेट होता है.

बिना निगरानी वाली मशीन लर्निंग का आम तौर पर, एक जैसे उदाहरणों के ग्रुप में क्लस्टर डेटा इस्तेमाल करना होता है. उदाहरण के लिए, बिना निगरानी वाला मशीन लर्निंग एल्गोरिदम, संगीत की अलग-अलग प्रॉपर्टी के आधार पर गानों का ग्रुप बना सकता है. ये क्लस्टर दूसरे मशीन लर्निंग एल्गोरिदम के लिए इनपुट बन सकते हैं (उदाहरण के लिए, संगीत का सुझाव देने वाली किसी सेवा के लिए). क्लस्टरिंग से मदद मिल सकती है, जब काम के लेबल कम हों या मौजूद न हों. उदाहरण के लिए, गलत इस्तेमाल और धोखाधड़ी रोकने जैसे डोमेन में क्लस्टर, डेटा को बेहतर तरीके से समझने में इंसानों की मदद कर सकते हैं.

सुपरवाइज़्ड मशीन लर्निंग के साथ कंट्रास्ट.