इस पेज में क्लस्टरिंग शब्दावली शब्द शामिल हैं. शब्दावली के सभी शब्दों के लिए, यहां क्लिक करें.
जवाब
एगलोमेरेटिव क्लस्टरिंग
हैरारकी क्लस्टरिंग देखें.
C
सेंट्रोइड
क्लस्टर का केंद्र, जिसे k-means या k-median एल्गोरिदम से तय किया जाता है. उदाहरण के लिए, अगर k 3 है, तो k-मीन या k-मीडियन एल्गोरिदम को तीन सेंट्रोइड मिलेंगे.
सेंट्रोइड-आधारित क्लस्टरिंग
क्लस्टरिंग एल्गोरिदम की एक कैटगरी, जो डेटा को नॉन-हैरारकी वाले क्लस्टर में व्यवस्थित करती है. k-means, सबसे ज़्यादा इस्तेमाल किया जाने वाला सेंट्रोइड पर आधारित क्लस्टरिंग एल्गोरिदम है.
हैरारकी क्लस्टरिंग एल्गोरिदम के बीच कंट्रास्ट.
क्लस्टरिंग
इनसे मिलते-जुलते उदाहरण को ग्रुप करना. खास तौर पर, अनसुपरवाइज़्ड लर्निंग के दौरान. सभी उदाहरणों को ग्रुप कर लेने के बाद, कोई व्यक्ति हर क्लस्टर को मतलब बता सकता है. हालांकि, ऐसा करना ज़रूरी नहीं है.
कई क्लस्टरिंग एल्गोरिदम मौजूद हैं. उदाहरण के लिए, k-means एल्गोरिदम के क्लस्टर के उदाहरण, जो सेंट्रोइड से उनकी नज़दीकी के आधार पर दिए जाते हैं, जैसा कि यहां दिखाया गया है:
इसके बाद, मानवीय शोधकर्ता इन क्लस्टर की समीक्षा कर सकता है. उदाहरण के लिए, क्लस्टर 1 को "बौने ट्री" और क्लस्टर 2 को "फ़ुल-साइज़ ट्री" के तौर पर लेबल किया जा सकता है.
एक अन्य उदाहरण के तौर पर, किसी उदाहरण के केंद्र बिंदु से दूरी के आधार पर क्लस्टरिंग एल्गोरिदम पर विचार करें. इसका उदाहरण नीचे दिया गया है:
D
डिवीसिव क्लस्टरिंग
हैरारकी क्लस्टरिंग देखें.
H
हैरारकीकल क्लस्टरिंग
क्लस्टरिंग एल्गोरिदम की कैटगरी, जो क्लस्टर का ट्री बनाती है. हैरारकी के हिसाब से क्लस्टर में बांटने की सुविधा, हैरारकी के हिसाब से डेटा को बेहतर तरीके से दिखाती है, जैसे कि वनस्पति उद्यानों की अलग-अलग कैटगरी. हैरारकी वाले क्लस्टरिंग एल्गोरिदम दो तरह के होते हैं:
- एगलोमेरेटिव क्लस्टरिंग में सबसे पहले, हर उदाहरण को अपने क्लस्टर में असाइन किया जाता है. साथ ही, हैरारकी वाला पेड़ बनाने के लिए, यह सबसे नज़दीकी क्लस्टर को मर्ज करता है.
- डिविज़िव क्लस्टरिंग में सबसे पहले सभी उदाहरणों को एक क्लस्टर में रखा जाता है. इसके बाद, इन्हें फिर से क्रम के हिसाब से हैरारकी ट्री में बांटा जाता है.
सेंट्रोइड-आधारित क्लस्टरिंग के साथ कंट्रास्ट.
K
के-मीन
एक लोकप्रिय क्लस्टरिंग एल्गोरिदम, जो बिना निगरानी वाले लर्निंग सिस्टम के उदाहरणों का ग्रुप बनाता है. मूल रूप से, k-मीन एल्गोरिदम ये काम करता है:
- बार-बार सबसे अच्छे k सेंटर पॉइंट तय करते हैं (जिन्हें सेंट्रोइड कहा जाता है).
- हर उदाहरण को सबसे नज़दीकी सेंट्रोइड को असाइन करता है. एक ही सेंट्रोइड के सबसे करीब वाले वे उदाहरण एक ही ग्रुप से जुड़े हैं.
k-मीन एल्गोरिदम, हर उदाहरण से सबसे नज़दीकी सेंट्रोइड की दूरी के कुल स्क्वेयर को कम से कम करने के लिए, सेंट्रोइड लोकेशन चुनता है.
उदाहरण के लिए, कुत्ते की लंबाई और उसकी चौड़ाई के हिसाब से, नीचे दिए गए प्लॉट का इस्तेमाल करें:
अगर k=3 है, तो k-मीन एल्गोरिदम तीन सेंट्रोइड तय करेगा. हर उदाहरण अपने सबसे नज़दीकी सेंट्रोइड को असाइन किया जाता है, जिससे तीन ग्रुप मिलते हैं:
मान लें कि कोई मैन्युफ़ैक्चरर, कुत्तों के लिए छोटे, मीडियम, और बड़े स्वेटर के लिए सही साइज़ तय करना चाहता है. तीन सेंट्रोइड, उस क्लस्टर में हर कुत्ते की औसत ऊंचाई और औसत चौड़ाई की पहचान करते हैं. इसलिए, मैन्युफ़ैक्चरर को स्वेटर के साइज़ को उन तीन सेंट्रोइड के हिसाब से सेट करना चाहिए. ध्यान दें कि क्लस्टर का सेंट्रोइड, आम तौर पर क्लस्टर में मौजूद उदाहरण नहीं होता है.
पहले दिए गए इलस्ट्रेशन में, सिर्फ़ दो सुविधाओं (ऊंचाई और चौड़ाई) वाले उदाहरणों के लिए k-मीन दिखाए गए हैं. ध्यान दें कि k-मीन कई सुविधाओं के उदाहरणों को एक ग्रुप में डाल सकता है.
के-मीडियन
क्लस्टरिंग एल्गोरिदम, जो k-means से काफ़ी हद तक मिलता-जुलता है. दोनों के बीच व्यावहारिक अंतर इस तरह हैं:
- के-मीन में, सेंट्रोइड को एक सेंट्रोइड कैंडिडेट और उसके हर उदाहरण के बीच की दूरी के स्क्वेयर के योग को कम करके तय किया जाता है.
- के-मीडियन में, सेंट्रोइड को सेंट्रोइड कैंडिडेट और उसके हर उदाहरण के बीच की दूरी के योग को कम करके तय किया जाता है.
ध्यान दें कि दूरी की परिभाषाएं भी अलग-अलग होती हैं:
- k-मीन, सेंट्रोइड से एक उदाहरण तक यूक्लिडियन दूरी पर निर्भर करता है. (दो डाइमेंशन में, यूक्लिडियन दूरी का मतलब है, पाइथागोरस प्रमेय की मदद से कर्ण की गणना करना.) उदाहरण के लिए, (2,2) और (5,-2) के बीच k-मीन की दूरी इस होगी:
- के-मीडियन, सेंट्रोइड से एक उदाहरण तक मैनहैटन की दूरी पर निर्भर करता है. यह दूरी हर डाइमेंशन में कुल डेल्टा का कुल योग होती है. उदाहरण के लिए, (2,2) और (5,-2) के बीच के-मीडियन दूरी होगी:
S
समानता माप
क्लस्टरिंग एल्गोरिदम में, मेट्रिक का इस्तेमाल यह तय करने के लिए किया जाता है कि दोनों उदाहरण एक जैसे (कितने मिलते-जुलते हैं) हैं.
स्केचिंग
निगरानी में नहीं रखी गई मशीन लर्निंग में, एल्गोरिदम की एक कैटगरी है जो उदाहरणों पर शुरुआती समानता का विश्लेषण करती है. स्केचिंग एल्गोरिदम, एक जैसे पॉइंट की पहचान करने के लिए, इलाके के हिसाब से संवेदनशील हैश फ़ंक्शन का इस्तेमाल करते हैं. इसके बाद, उन्हें बकेट में ग्रुप करते हैं.
स्केचिंग से, बड़े डेटासेट पर समानता की गणना के लिए ज़रूरी कंप्यूटेशन कम हो जाता है. डेटासेट में मौजूद उदाहरणों के हर जोड़े की समानता का हिसाब लगाने के बजाय, हम हर बकेट में पॉइंट के हर जोड़े के लिए समानता का हिसाब लगाते हैं.
T
टाइम सीरीज़ विश्लेषण
मशीन लर्निंग और आंकड़ों का एक सबफ़ील्ड, जो अस्थायी डेटा का विश्लेषण करता है. मशीन लर्निंग से जुड़ी कई तरह की समस्याओं के लिए, टाइम सीरीज़ के विश्लेषण की ज़रूरत होती है. इसमें डेटा की कैटगरी तय करना, क्लस्टरिंग, अनुमान लगाना, और गड़बड़ी की पहचान करना शामिल है. उदाहरण के लिए, टाइम सीरीज़ विश्लेषण का इस्तेमाल करके, बिक्री के पुराने डेटा के आधार पर महीने के हिसाब से विंटर कोट की होने वाली बिक्री का अनुमान लगाया जा सकता है.
U
बिना निगरानी वाली मशीन लर्निंग
किसी डेटासेट में पैटर्न ढूंढने के लिए model को ट्रेनिंग देना. आम तौर पर, यह डेटासेट बिना लेबल वाला डेटासेट होता है.
बिना निगरानी वाली मशीन लर्निंग का आम तौर पर, एक जैसे उदाहरणों के ग्रुप में क्लस्टर डेटा इस्तेमाल करना होता है. उदाहरण के लिए, बिना निगरानी वाला मशीन लर्निंग एल्गोरिदम, संगीत की अलग-अलग प्रॉपर्टी के आधार पर गानों का ग्रुप बना सकता है. ये क्लस्टर दूसरे मशीन लर्निंग एल्गोरिदम के लिए इनपुट बन सकते हैं (उदाहरण के लिए, संगीत का सुझाव देने वाली किसी सेवा के लिए). क्लस्टरिंग से मदद मिल सकती है, जब काम के लेबल कम हों या मौजूद न हों. उदाहरण के लिए, गलत इस्तेमाल और धोखाधड़ी रोकने जैसे डोमेन में क्लस्टर, डेटा को बेहतर तरीके से समझने में इंसानों की मदद कर सकते हैं.
सुपरवाइज़्ड मशीन लर्निंग के साथ कंट्रास्ट.