इस पेज पर क्लस्टरिंग की ग्लॉसरी के शब्द मौजूद हैं. ग्लॉसरी में मौजूद सभी शब्दों के लिए, यहां क्लिक करें.
A
एगलोमेरेटिव क्लस्टरिंग
हैरारकी क्लस्टरिंग देखें.
C
सेंट्रोइड
क्लस्टर का केंद्र, k-means या k-median एल्गोरिदम से तय होता है. उदाहरण के लिए, अगर k का मान 3 है, तो k-means या k-median एल्गोरिदम तीन सेंट्राइड ढूंढता है.
ज़्यादा जानकारी के लिए, क्लस्टरिंग कोर्स में क्लस्टरिंग एल्गोरिदम देखें.
सेंट्राइड पर आधारित क्लस्टरिंग
क्लस्टरिंग एल्गोरिदम की एक कैटगरी, जो डेटा को बिना हैरारकी वाले क्लस्टर में व्यवस्थित करती है. सेंट्राइड पर आधारित क्लस्टरिंग एल्गोरिदम में सबसे ज़्यादा इस्तेमाल किया जाने वाला एल्गोरिदम k-means है.
हियरार्किकल क्लस्टरिंग एल्गोरिदम के साथ तुलना करें.
ज़्यादा जानकारी के लिए, क्लस्टरिंग कोर्स में क्लस्टरिंग एल्गोरिदम देखें.
क्लस्टर
मिलते-जुलते उदाहरणों को ग्रुप में बांटना. ऐसा खास तौर पर, बिना निगरानी वाले लर्निंग के दौरान किया जाता है. सभी उदाहरणों को ग्रुप करने के बाद, कोई व्यक्ति हर क्लस्टर के लिए अपने हिसाब से मतलब दे सकता है.
क्लस्टरिंग के कई एल्गोरिदम मौजूद हैं. उदाहरण के लिए, k-means एल्गोरिदम, उदाहरणों को सेंट्रॉइड के आस-पास होने के आधार पर क्लस्टर करता है. इसका उदाहरण नीचे दिए गए डायग्राम में दिया गया है:
इसके बाद, कोई रिसर्चर इन क्लस्टर की समीक्षा कर सकता है. उदाहरण के लिए, क्लस्टर 1 को "छोटे पेड़" और क्लस्टर 2 को "बड़े पेड़" के तौर पर लेबल किया जा सकता है.
एक और उदाहरण के तौर पर, किसी उदाहरण के सेंटर पॉइंट से दूरी के आधार पर क्लस्टरिंग एल्गोरिदम का इस्तेमाल करें. इसका उदाहरण यहां दिया गया है:
ज़्यादा जानकारी के लिए, क्लस्टरिंग कोर्स देखें.
D
डिविज़िव क्लस्टरिंग
हैरारकी क्लस्टरिंग देखें.
H
हैरारकीकल क्लस्टरिंग
क्लस्टरिंग एल्गोरिदम की कैटगरी, जो क्लस्टर का ट्री बनाती है. हैरारकी क्लस्टरिंग, हैरारकी वाले डेटा के लिए सबसे सही है. जैसे, बोटैनिकल टैक्सोनॉमी. हैरारकी के हिसाब से क्लस्टर बनाने वाले एल्गोरिदम दो तरह के होते हैं:
- एग्लोमेरेटिव क्लस्टरिंग सबसे पहले हर उदाहरण को अपने क्लस्टर में असाइन करता है. इसके बाद, यह हैरारकी वाला ट्री बनाने के लिए, सबसे मिलते-जुलते क्लस्टर को बार-बार मर्ज करता है.
- डिविज़िव क्लस्टरिंग सबसे पहले सभी उदाहरणों को एक क्लस्टर में ग्रुप करती है. इसके बाद, क्लस्टर को बार-बार हैरारकी वाले ट्री में बांटती है.
सेंट्रॉइड पर आधारित क्लस्टरिंग के साथ तुलना करें.
ज़्यादा जानकारी के लिए, क्लस्टरिंग कोर्स में क्लस्टरिंग एल्गोरिदम देखें.
K
के-मीन
क्लस्टरिंग का एक लोकप्रिय एल्गोरिदम, जो बिना निगरानी वाली लर्निंग में उदाहरणों को ग्रुप करता है. k-means एल्गोरिदम, मुख्य रूप से ये काम करता है:
- यह बार-बार सबसे अच्छे k सेंटर पॉइंट (जिन्हें सेंट्रॉइड कहा जाता है) का पता लगाता है.
- हर उदाहरण को सबसे नज़दीकी सेंट्रोइड को असाइन करता है. एक ही सेंट्राइड के आस-पास मौजूद उदाहरण, एक ही ग्रुप से जुड़े होते हैं.
k-means एल्गोरिदम, सेंट्रोइड की जगहें चुनता है, ताकि हर उदाहरण से उसके सबसे नज़दीकी सेंट्रोइड की दूरी के स्क्वेयर को कम किया जा सके.
उदाहरण के लिए, कुत्ते की ऊंचाई और चौड़ाई के बीच के संबंध का यह प्लॉट देखें:
अगर k=3 है, तो k-means एल्गोरिदम तीन सेंट्राइड तय करेगा. हर उदाहरण को उसके सबसे नज़दीकी सेंट्रोइड को असाइन किया जाता है. इससे तीन ग्रुप बनते हैं:
मान लें कि कोई मैन्युफ़ैक्चरर, कुत्तों के लिए छोटे, मीडियम, और बड़े स्वेटर के सही साइज़ तय करना चाहता है. तीन सेंट्राइड, उस क्लस्टर में मौजूद हर कुत्ते की औसत ऊंचाई और औसत चौड़ाई की पहचान करते हैं. इसलिए, मैन्युफ़ैक्चरर को स्वेटर के साइज़, उन तीन सेंट्राइड पर आधारित करने चाहिए. ध्यान दें कि आम तौर पर, क्लस्टर का सेंट्राइड, क्लस्टर का उदाहरण नहीं होता.
ऊपर दिए गए उदाहरणों में, सिर्फ़ दो एट्रिब्यूट (ऊंचाई और चौड़ाई) वाले उदाहरणों के लिए, क-मीन्स का इस्तेमाल दिखाया गया है. ध्यान दें कि k-means, कई सुविधाओं के उदाहरणों को ग्रुप कर सकता है.
के-मीडियन
k-means से मिलता-जुलता क्लस्टरिंग एल्गोरिदम. दोनों के बीच का फ़र्क़ इस तरह है:
- क-मीन्स में, सेंट्रोइड तय करने के लिए, सेंट्रोइड के संभावित उम्मीदवार और उसके हर उदाहरण के बीच की दूरी के वर्ग का योग कम से कम किया जाता है.
- क-मीडियन में, सेंट्रोइड का पता लगाने के लिए, सेंट्रोइड के उम्मीदवार और उसके हर उदाहरण के बीच की दूरी के योग को कम किया जाता है.
ध्यान दें कि दूरी की परिभाषाएं भी अलग-अलग हैं:
- के-मीन, उदाहरण के लिए, सेंट्राइड से इयूक्लिडियन दूरी पर निर्भर करता है. (दो डाइमेंशन में, यूक्लिडियन दूरी का मतलब है कि पाइथागोरस प्रमेय का इस्तेमाल करके, कर्ण का हिसाब लगाना.) उदाहरण के लिए, (2,2) और (5,-2) के बीच का k-means डिस्टेंस यह होगा:
- क-मीडियन, सेंट्राइड से किसी उदाहरण तक की मैनहैटन दूरी पर निर्भर करता है. यह दूरी, हर डाइमेंशन में मौजूद एब्सोल्यूट डेल्टा का कुल योग होती है. उदाहरण के लिए, (2,2) और (5,-2) के बीच का k-मीडियन डिस्टेंस यह होगा:
S
मिलते-जुलते कॉन्टेंट का पता लगाने के लिए मेज़र
क्लस्टरिंग एल्गोरिदम में, इस मेट्रिक का इस्तेमाल करके यह तय किया जाता है कि दो उदाहरण कितने मिलते-जुलते हैं.
स्केच करना
बिना निगरानी वाली मशीन लर्निंग में, एल्गोरिदम की एक कैटगरी होती है. यह कैटगरी, उदाहरणों के आधार पर मिलती-जुलती चीज़ों का शुरुआती विश्लेषण करती है. स्केचिंग एल्गोरिदम, एक जैसे होने की संभावना वाले पॉइंट की पहचान करने के लिए, लोकलिटी-सेंसिटिव हैश फ़ंक्शन का इस्तेमाल करते हैं. इसके बाद, उन्हें बकेट में बांटते हैं.
स्केचिंग की मदद से, बड़े डेटासेट में मिलती-जुलती चीज़ों का हिसाब लगाने के लिए, कम कैलकुलेशन की ज़रूरत होती है. हम डेटासेट में मौजूद हर उदाहरण के हर जोड़े के लिए, मिलती-जुलती चीज़ों का हिसाब लगाने के बजाय, हर बकेट में मौजूद हर पॉइंट के जोड़े के लिए ही मिलती-जुलती चीज़ों का हिसाब लगाते हैं.
T
टाइम सीरीज़ का विश्लेषण
मशीन लर्निंग और आंकड़ों का एक उप-क्षेत्र, जो समय के साथ बदलने वाले डेटा का विश्लेषण करता है. मशीन लर्निंग से जुड़ी कई तरह की समस्याओं के लिए, टाइम सीरीज़ विश्लेषण की ज़रूरत होती है. इनमें डेटा की कैटगरी तय करना, क्लस्टर बनाना, अनुमान लगाना, और गड़बड़ी का पता लगाना शामिल है. उदाहरण के लिए, बिक्री के पुराने डेटा के आधार पर, सर्दियों के कोट की बिक्री के अनुमान के लिए, टाइम सीरीज़ विश्लेषण का इस्तेमाल किया जा सकता है.
U
अनसुपरवाइज़्ड मशीन लर्निंग
किसी डेटासेट में पैटर्न ढूंढने के लिए, मॉडल को ट्रेन करना. आम तौर पर, यह बिना लेबल वाला डेटासेट होता है.
बिना निगरानी वाली मशीन लर्निंग का सबसे सामान्य इस्तेमाल, डेटा को मिलते-जुलते उदाहरणों के ग्रुप में क्लस्टर करने के लिए किया जाता है. उदाहरण के लिए, बिना निगरानी वाले मशीन लर्निंग एल्गोरिदम, संगीत की अलग-अलग प्रॉपर्टी के आधार पर गाने को क्लस्टर कर सकता है. इस तरह से बनाए गए क्लस्टर, मशीन लर्निंग के अन्य एल्गोरिदम के लिए इनपुट बन सकते हैं. उदाहरण के लिए, संगीत के सुझाव देने वाली सेवा के लिए. जब काम के लेबल कम हों या न हों, तब क्लस्टर करने की सुविधा से मदद मिल सकती है. उदाहरण के लिए, गलत इस्तेमाल और धोखाधड़ी जैसे डोमेन में, क्लस्टर की मदद से, लोगों को डेटा को बेहतर तरीके से समझने में मदद मिल सकती है.
सुपरवाइज़्ड मशीन लर्निंग के साथ तुलना करें.