क्लस्टरिंग क्या है?

जब आप किसी चीज़ के बारे में जानने की कोशिश कर रहे हों, तो संगीत बोलें. ऐसा करने के लिए, आप अपने काम के ग्रुप या संग्रह ढूंढ सकते हैं. हो सकता है कि आप संगीत को शैली के हिसाब से व्यवस्थित कर लें, लेकिन आपका दोस्त, संगीत को एक दशक के हिसाब से व्यवस्थित कर सकता है. आइटम को ग्रुप में बांटने का तरीका चुनने पर, आपको संगीत के अलग-अलग हिस्सों के बारे में ज़्यादा जानकारी मिलती है. हो सकता है कि आपको पंक रॉक और अलग-अलग जगहों के अपने संगीत के बारे में अलग जानकारी या संगीत मिले. दूसरी ओर, हो सकता है कि आपका दोस्त 1980 के दशक का संगीत देखे और यह समझ सके कि उस समय के सभी शैलियों के संगीत पर सामाजिक सामाजिक जलवायु का क्या असर हुआ. दोनों ही मामलों में, आपने और आपके दोस्त ने संगीत के बारे में कुछ दिलचस्प बातें सीखी हैं, हालांकि आपने अलग-अलग तरीके अपनाए हैं.

मशीन लर्निंग में भी, हम अक्सर मशीन लर्निंग सिस्टम में विषयों (डेटा सेट) को समझने के लिए, पहले चरण के तौर पर उदाहरणों को ग्रुप में रखते हैं. बिना लेबल वाले उदाहरणों को ग्रुप करने के लिए, क्लस्टरिंग कहा जाता है.

बिना लेबल वाले उदाहरणों पर, क्लस्टरिंग बिना निगरानी वाली मशीन लर्निंग पर निर्भर करती है. अगर उदाहरणों को लेबल किया जाता है, तो क्लस्टर बनाने की सुविधा क्लासिफ़िकेशन बन जाती है. निगरानी में रखे गए और निगरानी में नहीं रखे गए तरीकों के बारे में ज़्यादा जानकारी के लिए, मशीन लर्निंग से जुड़ी समस्या के बारे में जानकारी देने वाला लेख देखें.

तीन क्लस्टर दिखाने वाला ग्राफ़
पहली इमेज: बिना लेबल वाले उदाहरण, जिन्हें तीन क्लस्टर में बांटा गया है.

मिलते-जुलते उदाहरणों का ग्रुप बनाने से पहले, आपको उनसे मिलते-जुलते उदाहरण ढूंढने होंगे. आप उदाहरणों में सुविधा के डेटा को मेट्रिक में जोड़कर, एक जैसे माप को उदाहरणों में एक जैसे रखते हैं. जब एक उदाहरण को एक या दो सुविधाओं के ज़रिए तय किया जाता है, तो समानता को मापना आसान हो जाता है. उदाहरण के लिए, आप उनकी लेखकों की मिलती-जुलती किताबें ढूंढ सकते हैं. सुविधाओं की संख्या बढ़ने के साथ-साथ, मिलते-जुलते मेज़रमेंट को और कॉम्प्लेक्स बनाया जाता है. हम बाद में यह देखेंगे कि अलग-अलग स्थितियों में, मिलते-जुलते वीडियो का तरीका कैसे बनाया जाता है.

क्लस्टर बनाने के क्या फ़ायदे हैं?

क्लस्टर बनाने के कई तरीके हैं और कई तरह के उद्योगों में इनका इस्तेमाल होता है. क्लस्टरिंग के लिए कुछ सामान्य ऐप्लिकेशन में ये शामिल हैं:

  • मार्केट सेगमेंटेशन
  • सोशल नेटवर्क ऐनलिसिस
  • खोज के नतीजों का ग्रुप
  • इलाज के लिए तस्वीर
  • इमेज सेगमेंटेशन
  • गड़बड़ी की पहचान करना

क्लस्टर बनाने के बाद, हर क्लस्टर को एक नंबर आईडी असाइन किया जाता है. अब, आप उदाहरण के लिए पूरी सुविधा सेट को उसके क्लस्टर आईडी में शामिल कर सकते हैं. किसी आसान क्लस्टर आईडी से मुश्किल उदाहरण दिखाने से क्लस्टर को बेहतर बनाया जा सकता है. आइडिया को बढ़ाने से, डेटा को ग्रुप करने से बड़े डेटासेट को आसान बनाया जा सकता है.

उदाहरण के लिए, आप नीचे दिए गए उदाहरणों के मुताबिक आइटम को अलग-अलग सुविधाओं के हिसाब से ग्रुप में बांट सकते हैं:

उदाहरण
  • तारों की चमक के हिसाब से ग्रुप.
  • टेक्सॉनमी में आनुवंशिक जानकारी के आधार पर जीव-जंतुओं का समूह बनाएं.
  • विषय के हिसाब से दस्तावेज़ों का ग्रुप बनाएं.

इसके बाद, मशीन लर्निंग सिस्टम बड़े डेटासेट की प्रोसेसिंग को आसान बनाने के लिए, क्लस्टर आईडी का इस्तेमाल कर सकते हैं. इसलिए, क्लस्टरिंग का आउटपुट, डाउनस्ट्रीम एमएल सिस्टम के लिए सुविधा डेटा के तौर पर काम करता है.

Google पर, क्लस्टरिंग का इस्तेमाल YouTube वीडियो, Play ऐप्लिकेशन, और संगीत ट्रैक जैसे प्रॉडक्ट में सामान्य बनाने, डेटा इकट्ठा करने, और निजता की सुरक्षा करने के लिए किया जाता है.

सामान्य बनाना

जब किसी क्लस्टर में कुछ डेटा में सुविधा का डेटा नहीं होता है, तो आप क्लस्टर में दूसरे उदाहरणों से डेटा का अनुमान लगा सकते हैं.

उदाहरण
कम लोकप्रिय वीडियो को ज़्यादा लोकप्रिय वीडियो के साथ बांटा जा सकता है. इससे वीडियो के सुझावों को बेहतर बनाने में मदद मिलती है.

डेटा कंप्रेस करना

जैसा कि बताया गया है, क्लस्टर में सभी उदाहरणों के लिए सुविधा डेटा को काम के क्लस्टर आईडी से बदला जा सकता है. इस बदलाव की मदद से, सुविधा के डेटा को आसान बनाया जा सकता है और स्टोरेज सेव किया जा सकता है. बड़े डेटासेट में स्केल करने पर ये फ़ायदे काफ़ी हो जाते हैं. इसके अलावा, मशीन लर्निंग सिस्टम इनपुट सुविधा के तौर पर क्लस्टर आईडी का इस्तेमाल कर सकते हैं. इनपुट डेटा की जटिलता को कम करने से एमएल मॉडल आसानी से ट्रेनिंग के लिए आसान और तेज़ हो जाता है.

उदाहरण
किसी एक YouTube वीडियो के लिए, सुविधा से जुड़े डेटा में ये चीज़ें शामिल हो सकती हैं:
  • जगह, समय, और उम्र, लिंग, आय, शिक्षा वगैरह के बारे में दर्शकों का डेटा
  • टाइमस्टैंप, टेक्स्ट, और यूज़र आईडी के साथ टिप्पणी का डेटा
  • वीडियो टैग
YouTube वीडियो को एक साथ शामिल करने से, आप कई सुविधाओं का इस्तेमाल करके एक ही क्लस्टर का आईडी पा सकते हैं. इससे आपका डेटा कंप्रेस हो जाता है.

निजता की सुरक्षा

आप उपयोगकर्ताओं को क्लस्टर देकर और उपयोगकर्ता के डेटा को खास उपयोगकर्ताओं के बजाय क्लस्टर आईडी से जोड़कर निजता को सुरक्षित रख सकते हैं. यह पक्का करने के लिए कि आप किसी खास उपयोगकर्ता के साथ उपयोगकर्ता का डेटा नहीं जोड़ पाएं, क्लस्टर में बहुत सारे उपयोगकर्ताओं को इकट्ठा किया जाना चाहिए.

उदाहरण
मान लें कि आप अपने मॉडल में YouTube उपयोगकर्ताओं का वीडियो इतिहास जोड़ना चाहते हैं. User-ID पर भरोसा करने के बजाय, आप उपयोगकर्ताओं को इकट्ठा कर सकते हैं. इसके बजाय, आप क्लस्टर के आईडी पर भरोसा कर सकते हैं. अब, आपका मॉडल वीडियो इतिहास को किसी खास उपयोगकर्ता के साथ नहीं जोड़ पाएगा. हालांकि, यह सिर्फ़ क्लस्टर आईडी के साथ जुड़ पाएगा जो उपयोगकर्ताओं के एक बड़े ग्रुप को दिखाता है.