मशीन लर्निंग शब्दावली: क्लस्टरिंग

इस पेज पर क्लस्टरिंग की ग्लॉसरी के शब्द मौजूद हैं. ग्लॉसरी में मौजूद सभी शब्दों के लिए, यहां क्लिक करें.

A

एगलोमेरेटिव क्लस्टरिंग

#clustering

हैरारकी क्लस्टरिंग देखें.

C

सेंट्रोइड

#clustering

क्लस्टर का केंद्र, k-means या k-median एल्गोरिदम से तय होता है. उदाहरण के लिए, अगर k का मान 3 है, तो k-means या k-median एल्गोरिदम तीन सेंट्राइड ढूंढता है.

ज़्यादा जानकारी के लिए, क्लस्टरिंग कोर्स में क्लस्टरिंग एल्गोरिदम देखें.

सेंट्राइड पर आधारित क्लस्टरिंग

#clustering

क्लस्टरिंग एल्गोरिदम की एक कैटगरी, जो डेटा को बिना हैरारकी वाले क्लस्टर में व्यवस्थित करती है. सेंट्राइड पर आधारित क्लस्टरिंग एल्गोरिदम में सबसे ज़्यादा इस्तेमाल किया जाने वाला एल्गोरिदम k-means है.

हियरार्किकल क्लस्टरिंग एल्गोरिदम के साथ तुलना करें.

ज़्यादा जानकारी के लिए, क्लस्टरिंग कोर्स में क्लस्टरिंग एल्गोरिदम देखें.

क्लस्टर

#clustering

मिलते-जुलते उदाहरणों को ग्रुप में बांटना. ऐसा खास तौर पर, बिना निगरानी वाले लर्निंग के दौरान किया जाता है. सभी उदाहरणों को ग्रुप करने के बाद, कोई व्यक्ति हर क्लस्टर के लिए अपने हिसाब से मतलब दे सकता है.

क्लस्टरिंग के कई एल्गोरिदम मौजूद हैं. उदाहरण के लिए, k-means एल्गोरिदम, उदाहरणों को सेंट्रॉइड के आस-पास होने के आधार पर क्लस्टर करता है. इसका उदाहरण नीचे दिए गए डायग्राम में दिया गया है:

दो डाइमेंशन वाला ग्राफ़, जिसमें x-ऐक्सिस को पेड़ की चौड़ाई और
          y-ऐक्सिस को पेड़ की ऊंचाई के तौर पर लेबल किया गया है. ग्राफ़ में दो
          सेंट्राइड और कई दर्जन डेटा पॉइंट हैं. डेटा पॉइंट को, एक-दूसरे के आस-पास होने के आधार पर अलग-अलग कैटगरी में बांटा जाता है. इसका मतलब है कि एक सेंट्राइड के सबसे करीब मौजूद डेटा पॉइंट को क्लस्टर 1 के तौर पर और दूसरे सेंट्राइड के सबसे करीब मौजूद डेटा पॉइंट को क्लस्टर 2 के तौर पर बांटा जाता है.

इसके बाद, कोई रिसर्चर इन क्लस्टर की समीक्षा कर सकता है. उदाहरण के लिए, क्लस्टर 1 को "छोटे पेड़" और क्लस्टर 2 को "बड़े पेड़" के तौर पर लेबल किया जा सकता है.

एक और उदाहरण के तौर पर, किसी उदाहरण के सेंटर पॉइंट से दूरी के आधार पर क्लस्टरिंग एल्गोरिदम का इस्तेमाल करें. इसका उदाहरण यहां दिया गया है:

इसमें दर्जनों डेटा पॉइंट, एक-दूसरे के केंद्र में मौजूद सर्कल में व्यवस्थित किए जाते हैं. यह बिल्कुल वैसा ही होता है जैसे डार्ट बोर्ड के बीच में मौजूद छेद. डेटा पॉइंट की सबसे अंदर वाली रिंग को क्लस्टर 1, बीच वाली रिंग को क्लस्टर 2, और सबसे बाहर वाली रिंग को क्लस्टर 3 के तौर पर बांटा जाता है.

ज़्यादा जानकारी के लिए, क्लस्टरिंग कोर्स देखें.

D

डिविज़िव क्लस्टरिंग

#clustering

हैरारकी क्लस्टरिंग देखें.

H

हैरारकीकल क्लस्टरिंग

#clustering

क्लस्टरिंग एल्गोरिदम की कैटगरी, जो क्लस्टर का ट्री बनाती है. हैरारकी क्लस्टरिंग, हैरारकी वाले डेटा के लिए सबसे सही है. जैसे, बोटैनिकल टैक्सोनॉमी. हैरारकी के हिसाब से क्लस्टर बनाने वाले एल्गोरिदम दो तरह के होते हैं:

  • एग्लोमेरेटिव क्लस्टरिंग सबसे पहले हर उदाहरण को अपने क्लस्टर में असाइन करता है. इसके बाद, यह हैरारकी वाला ट्री बनाने के लिए, सबसे मिलते-जुलते क्लस्टर को बार-बार मर्ज करता है.
  • डिविज़िव क्लस्टरिंग सबसे पहले सभी उदाहरणों को एक क्लस्टर में ग्रुप करती है. इसके बाद, क्लस्टर को बार-बार हैरारकी वाले ट्री में बांटती है.

सेंट्रॉइड पर आधारित क्लस्टरिंग के साथ तुलना करें.

ज़्यादा जानकारी के लिए, क्लस्टरिंग कोर्स में क्लस्टरिंग एल्गोरिदम देखें.

K

के-मीन

#clustering

क्लस्टरिंग का एक लोकप्रिय एल्गोरिदम, जो बिना निगरानी वाली लर्निंग में उदाहरणों को ग्रुप करता है. k-means एल्गोरिदम, मुख्य रूप से ये काम करता है:

  • यह बार-बार सबसे अच्छे k सेंटर पॉइंट (जिन्हें सेंट्रॉइड कहा जाता है) का पता लगाता है.
  • हर उदाहरण को सबसे नज़दीकी सेंट्रोइड को असाइन करता है. एक ही सेंट्राइड के आस-पास मौजूद उदाहरण, एक ही ग्रुप से जुड़े होते हैं.

k-means एल्गोरिदम, सेंट्रोइड की जगहें चुनता है, ताकि हर उदाहरण से उसके सबसे नज़दीकी सेंट्रोइड की दूरी के स्क्वेयर को कम किया जा सके.

उदाहरण के लिए, कुत्ते की ऊंचाई और चौड़ाई के बीच के संबंध का यह प्लॉट देखें:

कई दर्जन डेटा पॉइंट वाला कार्टेशियन प्लॉट.

अगर k=3 है, तो k-means एल्गोरिदम तीन सेंट्राइड तय करेगा. हर उदाहरण को उसके सबसे नज़दीकी सेंट्रोइड को असाइन किया जाता है. इससे तीन ग्रुप बनते हैं:

पिछले इलस्ट्रेशन में दिखाया गया कैटिसियन प्लॉट, जिसमें तीन सेंट्राइड जोड़े गए हैं.
          पिछले डेटा पॉइंट को तीन अलग-अलग ग्रुप में बांटा जाता है.
          हर ग्रुप में, किसी खास सेंट्राइड के सबसे करीब मौजूद डेटा पॉइंट होते हैं.

मान लें कि कोई मैन्युफ़ैक्चरर, कुत्तों के लिए छोटे, मीडियम, और बड़े स्वेटर के सही साइज़ तय करना चाहता है. तीन सेंट्राइड, उस क्लस्टर में मौजूद हर कुत्ते की औसत ऊंचाई और औसत चौड़ाई की पहचान करते हैं. इसलिए, मैन्युफ़ैक्चरर को स्वेटर के साइज़, उन तीन सेंट्राइड पर आधारित करने चाहिए. ध्यान दें कि आम तौर पर, क्लस्टर का सेंट्राइड, क्लस्टर का उदाहरण नहीं होता.

ऊपर दिए गए उदाहरणों में, सिर्फ़ दो एट्रिब्यूट (ऊंचाई और चौड़ाई) वाले उदाहरणों के लिए, क-मीन्स का इस्तेमाल दिखाया गया है. ध्यान दें कि k-means, कई सुविधाओं के उदाहरणों को ग्रुप कर सकता है.

के-मीडियन

#clustering

k-means से मिलता-जुलता क्लस्टरिंग एल्गोरिदम. दोनों के बीच का फ़र्क़ इस तरह है:

  • क-मीन्स में, सेंट्रोइड तय करने के लिए, सेंट्रोइड के संभावित उम्मीदवार और उसके हर उदाहरण के बीच की दूरी के वर्ग का योग कम से कम किया जाता है.
  • क-मीडियन में, सेंट्रोइड का पता लगाने के लिए, सेंट्रोइड के उम्मीदवार और उसके हर उदाहरण के बीच की दूरी के योग को कम किया जाता है.

ध्यान दें कि दूरी की परिभाषाएं भी अलग-अलग हैं:

  • के-मीन, उदाहरण के लिए, सेंट्राइड से इयूक्लिडियन दूरी पर निर्भर करता है. (दो डाइमेंशन में, यूक्लिडियन दूरी का मतलब है कि पाइथागोरस प्रमेय का इस्तेमाल करके, कर्ण का हिसाब लगाना.) उदाहरण के लिए, (2,2) और (5,-2) के बीच का k-means डिस्टेंस यह होगा:
$$ {\text{Euclidean distance}} = {\sqrt {(2-5)^2 + (2--2)^2}} = 5 $$
  • क-मीडियन, सेंट्राइड से किसी उदाहरण तक की मैनहैटन दूरी पर निर्भर करता है. यह दूरी, हर डाइमेंशन में मौजूद एब्सोल्यूट डेल्टा का कुल योग होती है. उदाहरण के लिए, (2,2) और (5,-2) के बीच का k-मीडियन डिस्टेंस यह होगा:
$$ {\text{Manhattan distance}} = \lvert 2-5 \rvert + \lvert 2--2 \rvert = 7 $$

S

मिलते-जुलते कॉन्टेंट का पता लगाने के लिए मेज़र

#clustering

क्लस्टरिंग एल्गोरिदम में, इस मेट्रिक का इस्तेमाल करके यह तय किया जाता है कि दो उदाहरण कितने मिलते-जुलते हैं.

स्केच करना

#clustering

बिना निगरानी वाली मशीन लर्निंग में, एल्गोरिदम की एक कैटगरी होती है. यह कैटगरी, उदाहरणों के आधार पर मिलती-जुलती चीज़ों का शुरुआती विश्लेषण करती है. स्केचिंग एल्गोरिदम, एक जैसे होने की संभावना वाले पॉइंट की पहचान करने के लिए, लोकलिटी-सेंसिटिव हैश फ़ंक्शन का इस्तेमाल करते हैं. इसके बाद, उन्हें बकेट में बांटते हैं.

स्केचिंग की मदद से, बड़े डेटासेट में मिलती-जुलती चीज़ों का हिसाब लगाने के लिए, कम कैलकुलेशन की ज़रूरत होती है. हम डेटासेट में मौजूद हर उदाहरण के हर जोड़े के लिए, मिलती-जुलती चीज़ों का हिसाब लगाने के बजाय, हर बकेट में मौजूद हर पॉइंट के जोड़े के लिए ही मिलती-जुलती चीज़ों का हिसाब लगाते हैं.

T

टाइम सीरीज़ का विश्लेषण

#clustering

मशीन लर्निंग और आंकड़ों का एक उप-क्षेत्र, जो समय के साथ बदलने वाले डेटा का विश्लेषण करता है. मशीन लर्निंग से जुड़ी कई तरह की समस्याओं के लिए, टाइम सीरीज़ विश्लेषण की ज़रूरत होती है. इनमें डेटा की कैटगरी तय करना, क्लस्टर बनाना, अनुमान लगाना, और गड़बड़ी का पता लगाना शामिल है. उदाहरण के लिए, बिक्री के पुराने डेटा के आधार पर, सर्दियों के कोट की बिक्री के अनुमान के लिए, टाइम सीरीज़ विश्लेषण का इस्तेमाल किया जा सकता है.

U

अनसुपरवाइज़्ड मशीन लर्निंग

#clustering
#fundamentals

किसी डेटासेट में पैटर्न ढूंढने के लिए, मॉडल को ट्रेन करना. आम तौर पर, यह बिना लेबल वाला डेटासेट होता है.

बिना निगरानी वाली मशीन लर्निंग का सबसे सामान्य इस्तेमाल, डेटा को मिलते-जुलते उदाहरणों के ग्रुप में क्लस्टर करने के लिए किया जाता है. उदाहरण के लिए, बिना निगरानी वाले मशीन लर्निंग एल्गोरिदम, संगीत की अलग-अलग प्रॉपर्टी के आधार पर गाने को क्लस्टर कर सकता है. इस तरह से बनाए गए क्लस्टर, मशीन लर्निंग के अन्य एल्गोरिदम के लिए इनपुट बन सकते हैं. उदाहरण के लिए, संगीत के सुझाव देने वाली सेवा के लिए. जब काम के लेबल कम हों या न हों, तब क्लस्टर करने की सुविधा से मदद मिल सकती है. उदाहरण के लिए, गलत इस्तेमाल और धोखाधड़ी जैसे डोमेन में, क्लस्टर की मदद से, लोगों को डेटा को बेहतर तरीके से समझने में मदद मिल सकती है.

सुपरवाइज़्ड मशीन लर्निंग के साथ तुलना करें.