क्लस्टरिंग क्या है?

मान लें कि आप एक ऐसे डेटासेट पर काम कर रहे हैं जिसमें मरीज़ की जानकारी हेल्थकेयर सिस्टम. यह डेटासेट जटिल है और इसमें कैटगरीकल और अंकों वाली सुविधाएं. आपको डेटासेट में पैटर्न और समानताएं चाहिए. आपको यह काम किस तरह करना चाहिए?

क्लस्टरिंग एक ऐसी सुविधा है जिसकी निगरानी नहीं की जा सकती ग्रुप बनाने के लिए डिज़ाइन की गई मशीन लर्निंग तकनीक बिना लेबल वाले उदाहरण एक-दूसरे से उनकी समानता के आधार पर. (अगर उदाहरण लेबल किए गए हों, तो ग्रुप को किस तरह का ग्रुप कहा जाता है, क्लासिफ़िकेशन का दिखना.) किसी काल्पनिक मरीज़ पर ध्यान दें यह स्टडी, इलाज के नए प्रोटोकॉल का आकलन करने के लिए डिज़ाइन की गई है. स्टडी के दौरान, मरीज़ों को रिपोर्ट करें कि उनमें हफ़्ते में कितनी बार लक्षण दिख रहे हैं और समस्या की गंभीरता लक्षण. शोधकर्ता क्लस्टरिंग विश्लेषण का इस्तेमाल करके, मिलते-जुलते मरीज़ों का ग्रुप बना सकते हैं इलाज के तरीकों को क्लस्टर में बदल दिया जाता है. पहली इमेज में, एक संभावित ग्रुप दिखाया गया है डेटा को तीन क्लस्टर में बांटा गया है.

बाईं ओर, लक्षणों की गंभीरता और उनके लक्षणों की संख्या का ग्राफ़
   तीन क्लस्टर का सुझाव देने वाले डेटापॉइंट दिखा रहा है.
   दाईं ओर वही ग्राफ़ है, लेकिन तीन में से हर क्लस्टर रंगीन है.
इमेज 1: बिना लेबल वाले उदाहरण, जिन्हें तीन क्लस्टर में बांटा गया है (सिम्युलेटेड डेटा).

इमेज 1 के बाईं ओर, बिना लेबल वाले डेटा को देखकर यह अंदाज़ा लगाया जा सकता है कि इस तरह के डेटा को तीन क्लस्टर में बांटा जाता है. भले ही, समानता की कोई औपचारिक परिभाषा न हो डेटा पॉइंट के बीच में बदलना होगा. हालांकि, वास्तविक दुनिया के अनुप्रयोगों में, आपको समानता का माप या सैंपल की तुलना करने के लिए इस्तेमाल की जाने वाली मेट्रिक को डेटासेट की सुविधाओं की शर्तें. जब उदाहरणों में सिर्फ़ कुछ सुविधाएँ उपलब्ध हों, समानता को विज़ुअलाइज़ करना और उसका आकलन करना आसान है. हालांकि, जितने ज़्यादा होंगे सुविधाएं बढ़ती हैं, इसलिए सुविधाओं को जोड़ना और उनकी तुलना करना आसान हो जाता है और जटिल. समानता के अलग-अलग मापदंड ज़्यादा या कम सही हो सकते हैं के लिए ऑडियंस का इस्तेमाल किया जा सकता है. इस कोर्स में, आपके कारोबार के हिसाब से आगे के सेक्शन में, समानता का सही माप दें: मैन्युअल तरीके से समानता का पता लगाना और एम्बेड करने की सुविधा से समानता का पता चलता है.

क्लस्टरिंग के बाद, हर ग्रुप को एक यूनीक लेबल असाइन किया जाता है, जिसे क्लस्टर आईडी कहते हैं. क्लस्टरिंग सिस्टम बहुत कारगर है, क्योंकि यह बड़े और मुश्किल डेटासेट को प्रोसेस करना आसान बना देता है. एक क्लस्टर आईडी की कई सुविधाएं शामिल हैं.

क्लस्टरिंग के इस्तेमाल के उदाहरण

क्लस्टरिंग कई तरह के उद्योगों में फ़ायदेमंद है. कुछ सामान्य ऐप्लिकेशन क्लस्टरिंग के लिए:

  • मार्केट सेगमेंटेशन
  • सोशल नेटवर्क ऐनलिसिस
  • खोज के नतीजों को ग्रुप में बांटना
  • इलाज के लिए तस्वीर
  • इमेज सेगमेंटेशन
  • गड़बड़ी की पहचान करना

क्लस्टरिंग के कुछ खास उदाहरण:

  • हर्ट्ज़स्प्रंग-रसेल डायग्राम चमक और तापमान के आधार पर तारों के समूह दिखाता है.
  • जीन सीक्वेंसिंग, जिसमें पहले से अज्ञात जेनेटिक समानता देखी जा सकती हैं और प्रजातियों के बीच असमानता की वजह से, कैटगरी में बदलाव हुआ है जो बिलकुल सही नहीं थे.
  • बिग 5 व्यक्तित्व गुणों के बारे में बताने वाले मॉडल को बनाने के लिए, व्यक्तित्व के बारे में पांच ग्रुप में बताएं. कॉन्टेंट बनाने हेक्साको मॉडल, 5 के बजाय 6 क्लस्टर का इस्तेमाल करता है.

इंप्यूटेशन

जब क्लस्टर के कुछ उदाहरणों में सुविधा का डेटा मौजूद न हो, तो अनुमान लगाया जा सकता है कि क्लस्टर में अन्य उदाहरणों का डेटा मौजूद नहीं है. इसे कहा जाता है मालिकाना हक. उदाहरण के लिए, कम लोकप्रिय वीडियो को ज़्यादा लोकप्रिय वीडियो के साथ रखा जा सकता है वीडियो के सुझावों को बेहतर बनाने के लिए.

डेटा कंप्रेस करना

जैसा कि बताया गया है, सभी के लिए काम का क्लस्टर आईडी, दूसरी सुविधाओं की जगह ले सकता है उदाहरण देखें. इस बदलाव से सुविधाओं की संख्या कम हो जाती है और इसलिए, मॉडल को स्टोर, प्रोसेस, और ट्रेन करने में लगने वाले संसाधनों को भी कम करता है उस डेटा पर लागू होता है. बहुत बड़े डेटासेट के लिए, यह बचत काफ़ी हो जाती है.

उदाहरण के लिए, किसी एक YouTube वीडियो में इन सुविधाओं का डेटा हो सकता है:

  • दर्शक की जगह, समय, और डेमोग्राफ़िक (उम्र, लिंग, आय, शिक्षा वगैरह)
  • टिप्पणी के टाइमस्टैंप, टेक्स्ट, और यूज़र आईडी
  • वीडियो टैग

YouTube वीडियो को क्लस्टर में बांटने की सुविधा, सुविधाओं के इस सेट को सिंगल क्लस्टर आईडी का इस्तेमाल करते हैं. इस तरह डेटा कंप्रेस किया जाता है.

निजता संरक्षण

उपयोगकर्ताओं को क्लस्टर में बांटकर और उपयोगकर्ता के डेटा को जोड़कर, कुछ हद तक निजता को सुरक्षित रखा जा सकता है क्लस्टर आईडी का इस्तेमाल किया जा रहा है. एक संभावित उदाहरण देने के लिए, मान लें कि आपको मॉडल को ट्रेनिंग दें, ताकि देखने का इतिहास. उपयोगकर्ता आईडी पास करने के बजाय मॉडल के लिए, उपयोगकर्ताओं को क्लस्टर किया जा सकता है और सिर्फ़ क्लस्टर आईडी पास किया जा सकता है. यह वीडियो देखने का कोई भी इतिहास अलग-अलग लोगों के साथ नहीं जोड़ा जा सकता. नोट जोड़ें क्लस्टर में उपयोगकर्ताओं की संख्या ज़रूरत के मुताबिक होनी चाहिए, ताकि निजता की सुरक्षा करें.