इस सेक्शन में, क्लस्टरिंग के लिए डेटा तैयार करने के सबसे ज़रूरी चरणों के बारे में बताया गया है से संख्या वाले डेटा के साथ काम करना मॉड्यूल का इस्तेमाल करें.
क्लस्टरिंग में, दो उदाहरणों के बीच समानता की गणना करने के लिए, सभी सुविधा डेटा को अंकों वाली वैल्यू में शामिल करना चाहिए. इसके लिए ज़रूरी है सुविधाओं का एक समान स्केल है, जिसे नॉर्मलाइज़ करके पूरा किया जा सकता है. बदलने, या मात्रा बनाने के लिए किया जा सकता है. अगर आपको पूरी दुनिया में बदलाव लाना है, अपने डेटा के डिस्ट्रिब्यूशन की जांच किए बिना, उसकी वैल्यू को डिफ़ॉल्ट तौर पर गिना जा सकता है.
डेटा को सामान्य बनाना
आप नॉर्मलाइज़ करके, एक से ज़्यादा सुविधाओं के लिए एक ही स्केल में डेटा बदल सकते हैं के लिए इस्तेमाल किया जा सकता है.
ज़ेड-स्कोर
जब भी आप डेटासेट को मोटे तौर पर गॉसियन डिस्ट्रिब्यूशन, आपको z-स्कोर की गणना करनी चाहिए डेटा के लिए. Z-स्कोर से पता चलता है कि कोई मान, मध्यमान. z-स्कोर का इस्तेमाल तब भी किया जा सकता है, जब डेटासेट क्वांटाइल्स.
यहां जाएं: Z-स्कोर स्केलिंग क्लिक करें.
यहां डेटासेट की दो सुविधाओं से पहले और बाद की दो सुविधाओं को दिखाया गया है z-स्कोर स्केलिंग:
बाईं ओर दिए गए असामान्य डेटासेट में, सुविधा 1 और सुविधा 2 में, x और y ऐक्सिस पर ग्राफ़ बनाए गए हों, दोनों का स्केल एक जैसा नहीं होता है. इस बाईं ओर, लाल रंग का उदाहरण पीले रंग के मुकाबले नीले रंग के करीब या उससे मिलता-जुलता दिखता है. दाईं ओर, इसके बाद z-स्कोर स्केलिंग, सुविधा 1 और सुविधा 2 का स्केल एक जैसा है, और लाल उदाहरण, पीले रंग के उदाहरण से मिलता-जुलता है. सामान्य डेटासेट की मदद से बिंदुओं के बीच समानता का ज़्यादा सटीक माप है.
लॉग ट्रांसफ़ॉर्म
जब डेटासेट पूरी तरह से पावर लॉ डिस्ट्रिब्यूशन, जिसमें डेटा बहुत कम वैल्यू पर क्लप किया गया है, तो लॉग ट्रांसफ़ॉर्म का इस्तेमाल करें. यहां जाएं: लॉग स्केलिंग क्लिक करें.
यहां लॉग में बदलाव से पहले और बाद में, पावर-लॉ डेटासेट की इमेज दी गई है:
लॉग स्केलिंग (इमेज 2) से पहले, लाल रंग का उदाहरण पीले रंग के ज़्यादा मिलता-जुलता दिखता है. लॉग स्केलिंग (इमेज 3) के बाद, लाल रंग, नीले रंग की तरह ज़्यादा दिखता है.
क्वांटाइल्स
डेटा को क्वांटिटल में बिन करना तब अच्छी तरह से काम करता है जब डेटासेट तय डिस्ट्रिब्यूशन तक पहुंच सकता है. इस डेटासेट को लें, उदाहरण के लिए:
अगर कुछ ही उदाहरण दो या इससे ज़्यादा मिलते-जुलते हों, तो वे, उनके मानों के बावजूद, और ज़्यादा असमान होते हैं, अगर बहुत से उदाहरण उन्हें ट्रैक नहीं किया जा सकता. ऊपर दिए गए विज़ुअलाइज़ेशन की वजह से कुल वैल्यू को देखना मुश्किल हो गया है लाल और पीले या लाल और नीले रंग के बीच के होने वाले उदाहरणों की संख्या.
समानता को समझने के लिए, डेटासेट को क्वांटिटल या इंटरवल जिनमें हर एक में उदाहरणों की संख्या बराबर होती है, और हर उदाहरण के लिए क्वांटाइल इंडेक्स असाइन करते हैं. यहां जाएं: क्वांटाइल बकेटिंग क्लिक करें.
यहां दिया गया पिछला डिस्ट्रिब्यूशन, क्वांटाइल में बंटा हुआ है. इससे पता चलता है कि लाल रंग पीले रंग से एक क्वांटाइल और नीले रंग से तीन क्वांटाइल की दूरी:
आप कोई भी संख्या \(n\) चुन सकते हैं. हालांकि, इन क्वॉलिटी में नीचे दिए गए डेटा को बेहतर ढंग से दिखा सकें, इसलिए आपके डेटासेट में कम से कम \(10n\) उदाहरण. अगर आपके पास ज़रूरत के मुताबिक डेटा नहीं है, तो इसके बजाय नॉर्मलाइज़ करें.
देखें कि आपको कितना समझ आया है
नीचे दिए गए सवालों के लिए, मान लें कि आपके पास क्वांटिटल बनाने के लिए ज़रूरी डेटा है.
पहला सवाल
- डेटा डिस्ट्रिब्यूशन, गॉसियन है.
- आपके पास इस बारे में कुछ अहम जानकारी है कि डेटा असल में क्या दिखाता है जो यह सुझाव देती है कि डेटा को गैर-रेखीय रूप से बदला नहीं जाना चाहिए.
दूसरा सवाल
रिपोर्ट में पूरा डेटा नहीं है
अगर आपके डेटासेट में किसी खास सुविधा की वैल्यू मौजूद नहीं हैं, तो वे उदाहरण बहुत कम होते हैं, तो आप इन उदाहरणों को हटा सकते हैं. अगर उदाहरण के तौर पर बार-बार होती है, तो या तो उस सुविधा को पूरी तरह से हटाया जा सकता है, या मशीन का इस्तेमाल करके दूसरे उदाहरणों से गायब वैल्यू का अनुमान लगाया जा सकता है लर्निंग मॉडल. उदाहरण के लिए, आपके पास संख्यात्मक डेटा के मौजूद न होने की संभावना का पता लगाना और पासवर्ड का इस्तेमाल करके रिग्रेशन मॉडल को मौजूदा सुविधा के डेटा के आधार पर ट्रेनिंग दी गई है.