डेटा तैयार करने से जुड़ी सेटिंग

इस सेक्शन में, क्लस्टरिंग के लिए डेटा तैयार करने के सबसे ज़रूरी चरणों के बारे में बताया गया है से संख्या वाले डेटा के साथ काम करना मॉड्यूल का इस्तेमाल करें.

क्लस्टरिंग में, दो उदाहरणों के बीच समानता की गणना करने के लिए, सभी सुविधा डेटा को अंकों वाली वैल्यू में शामिल करना चाहिए. इसके लिए ज़रूरी है सुविधाओं का एक समान स्केल है, जिसे नॉर्मलाइज़ करके पूरा किया जा सकता है. बदलने, या मात्रा बनाने के लिए किया जा सकता है. अगर आपको पूरी दुनिया में बदलाव लाना है, अपने डेटा के डिस्ट्रिब्यूशन की जांच किए बिना, उसकी वैल्यू को डिफ़ॉल्ट तौर पर गिना जा सकता है.

डेटा को सामान्य बनाना

आप नॉर्मलाइज़ करके, एक से ज़्यादा सुविधाओं के लिए एक ही स्केल में डेटा बदल सकते हैं के लिए इस्तेमाल किया जा सकता है.

ज़ेड-स्कोर

जब भी आप डेटासेट को मोटे तौर पर गॉसियन डिस्ट्रिब्यूशन, आपको z-स्कोर की गणना करनी चाहिए डेटा के लिए. Z-स्कोर से पता चलता है कि कोई मान, मध्यमान. z-स्कोर का इस्तेमाल तब भी किया जा सकता है, जब डेटासेट क्वांटाइल्स.

यहां जाएं: Z-स्कोर स्केलिंग क्लिक करें.

यहां डेटासेट की दो सुविधाओं से पहले और बाद की दो सुविधाओं को दिखाया गया है z-स्कोर स्केलिंग:

नॉर्मलाइज़ेशन से पहले और बाद में, फ़ीचर डेटा की तुलना करते हुए दो ग्राफ़
पहली इमेज: नॉर्मलाइज़ेशन के पहले और बाद में सुविधा के डेटा की तुलना.

बाईं ओर दिए गए असामान्य डेटासेट में, सुविधा 1 और सुविधा 2 में, x और y ऐक्सिस पर ग्राफ़ बनाए गए हों, दोनों का स्केल एक जैसा नहीं होता है. इस बाईं ओर, लाल रंग का उदाहरण पीले रंग के मुकाबले नीले रंग के करीब या उससे मिलता-जुलता दिखता है. दाईं ओर, इसके बाद z-स्कोर स्केलिंग, सुविधा 1 और सुविधा 2 का स्केल एक जैसा है, और लाल उदाहरण, पीले रंग के उदाहरण से मिलता-जुलता है. सामान्य डेटासेट की मदद से बिंदुओं के बीच समानता का ज़्यादा सटीक माप है.

लॉग ट्रांसफ़ॉर्म

जब डेटासेट पूरी तरह से पावर लॉ डिस्ट्रिब्यूशन, जिसमें डेटा बहुत कम वैल्यू पर क्लप किया गया है, तो लॉग ट्रांसफ़ॉर्म का इस्तेमाल करें. यहां जाएं: लॉग स्केलिंग क्लिक करें.

यहां लॉग में बदलाव से पहले और बाद में, पावर-लॉ डेटासेट की इमेज दी गई है:

ज़्यादातर डेटा वाला बारचार्ट
इमेज 2: पावर लॉ डिस्ट्रिब्यूशन.
सामान्य (गॉसियन) डिस्ट्रिब्यूशन दिखाने वाला ग्राफ़
इमेज 3: दूसरी इमेज का लॉग ट्रांसफ़ॉर्म.

लॉग स्केलिंग (इमेज 2) से पहले, लाल रंग का उदाहरण पीले रंग के ज़्यादा मिलता-जुलता दिखता है. लॉग स्केलिंग (इमेज 3) के बाद, लाल रंग, नीले रंग की तरह ज़्यादा दिखता है.

क्वांटाइल्स

डेटा को क्वांटिटल में बिन करना तब अच्छी तरह से काम करता है जब डेटासेट तय डिस्ट्रिब्यूशन तक पहुंच सकता है. इस डेटासेट को लें, उदाहरण के लिए:

प्री-प्रोसेसिंग से पहले का डेटा डिस्ट्रिब्यूशन दिखाने वाला ग्राफ़
इमेज 4: प्री-प्रोसेसिंग से पहले दिखने वाला डिस्ट्रिब्यूशन, जिसे कैटगरी में नहीं रखा जा सकता.

अगर कुछ ही उदाहरण दो या इससे ज़्यादा मिलते-जुलते हों, तो वे, उनके मानों के बावजूद, और ज़्यादा असमान होते हैं, अगर बहुत से उदाहरण उन्हें ट्रैक नहीं किया जा सकता. ऊपर दिए गए विज़ुअलाइज़ेशन की वजह से कुल वैल्यू को देखना मुश्किल हो गया है लाल और पीले या लाल और नीले रंग के बीच के होने वाले उदाहरणों की संख्या.

समानता को समझने के लिए, डेटासेट को क्वांटिटल या इंटरवल जिनमें हर एक में उदाहरणों की संख्या बराबर होती है, और हर उदाहरण के लिए क्वांटाइल इंडेक्स असाइन करते हैं. यहां जाएं: क्वांटाइल बकेटिंग क्लिक करें.

यहां दिया गया पिछला डिस्ट्रिब्यूशन, क्वांटाइल में बंटा हुआ है. इससे पता चलता है कि लाल रंग पीले रंग से एक क्वांटाइल और नीले रंग से तीन क्वांटाइल की दूरी:

कन्वर्ज़न के बाद का डेटा दिखाने वाला ग्राफ़
  संख्या में शामिल किया जाता है. यह लाइन 20 इंटरवल दिखाती है.]
इमेज 5: इमेज 4 में, 20 क्वांटल में बदलने के बाद डिस्ट्रिब्यूशन.

आप कोई भी संख्या \(n\) चुन सकते हैं. हालांकि, इन क्वॉलिटी में नीचे दिए गए डेटा को बेहतर ढंग से दिखा सकें, इसलिए आपके डेटासेट में कम से कम \(10n\) उदाहरण. अगर आपके पास ज़रूरत के मुताबिक डेटा नहीं है, तो इसके बजाय नॉर्मलाइज़ करें.

देखें कि आपको कितना समझ आया है

नीचे दिए गए सवालों के लिए, मान लें कि आपके पास क्वांटिटल बनाने के लिए ज़रूरी डेटा है.

पहला सवाल

डेटा के तीन डिस्ट्रिब्यूशन को दिखाने वाला प्लॉट
पिछले पेज में दिखाए गए डेटा डिस्ट्रिब्यूशन को कैसे प्रोसेस करना चाहिए ग्राफ़?
मात्राएं बनाएं.
सही. क्योंकि वितरण स्टैंडर्ड डेटा डिस्ट्रिब्यूशन के लिए, आपको डिफ़ॉल्ट रूप से संख्या बनाते हैं.
नॉर्मलाइज़ करें.
आम तौर पर, इन मामलों में डेटा को नॉर्मलाइज़ किया जाता है:
  • डेटा डिस्ट्रिब्यूशन, गॉसियन है.
  • आपके पास इस बारे में कुछ अहम जानकारी है कि डेटा असल में क्या दिखाता है जो यह सुझाव देती है कि डेटा को गैर-रेखीय रूप से बदला नहीं जाना चाहिए.
यहां कोई भी मामला लागू नहीं होता. डेटा डिस्ट्रिब्यूशन, गॉसियन नहीं है, क्योंकि यह सिमेट्रिक नहीं होता. आपको यह नहीं पता कि ये आंकड़े असल दुनिया में आपका प्रतिनिधित्व करता है.
लॉग ट्रांसफ़ॉर्म.
पावर-लॉ डिस्ट्रिब्यूशन के लिए यह सबसे सही तरीका नहीं है. इसलिए, लॉग का इस्तेमाल न करें पूरी तरह से बदलें.

दूसरा सवाल

डेटा के तीन डिस्ट्रिब्यूशन को दिखाने वाला प्लॉट
इस डेटा डिस्ट्रिब्यूशन को कैसे प्रोसेस किया जाएगा?
नॉर्मलाइज़ करें.
सही. यह एक गॉसियन डिस्ट्रिब्यूशन है.
मात्राएं बनाएं.
गलत. चूंकि यह एक गॉसियन वितरण है, इसलिए पसंदीदा ट्रांसफ़ॉर्म की प्रोसेस को नॉर्मलाइज़ेशन कहते हैं.
लॉग ट्रांसफ़ॉर्म.
गलत. घात-कानून वितरण में केवल लॉग ट्रांसफ़ॉर्म का ही इस्तेमाल करें.

रिपोर्ट में पूरा डेटा नहीं है

अगर आपके डेटासेट में किसी खास सुविधा की वैल्यू मौजूद नहीं हैं, तो वे उदाहरण बहुत कम होते हैं, तो आप इन उदाहरणों को हटा सकते हैं. अगर उदाहरण के तौर पर बार-बार होती है, तो या तो उस सुविधा को पूरी तरह से हटाया जा सकता है, या मशीन का इस्तेमाल करके दूसरे उदाहरणों से गायब वैल्यू का अनुमान लगाया जा सकता है लर्निंग मॉडल. उदाहरण के लिए, आपके पास संख्यात्मक डेटा के मौजूद न होने की संभावना का पता लगाना और पासवर्ड का इस्तेमाल करके रिग्रेशन मॉडल को मौजूदा सुविधा के डेटा के आधार पर ट्रेनिंग दी गई है.