डेटा तैयार करने से जुड़ी सेटिंग

इस सेक्शन में, मशीन लर्निंग क्रैश कोर्स के न्यूमेरिकल डेटा के साथ काम करना मॉड्यूल से, क्लस्टरिंग के लिए डेटा तैयार करने के सबसे ज़रूरी चरणों की समीक्षा की गई है.

क्लस्टरिंग में, दो उदाहरणों के बीच समानता का हिसाब लगाने के लिए, उन उदाहरणों के सभी सुविधा डेटा को संख्या वाली वैल्यू में जोड़ा जाता है. इसके लिए, ज़रूरी है कि सभी फ़ीचर का स्केल एक जैसा हो. ऐसा करने के लिए, डेटा को सामान्य करना, बदलना या क्वार्टाइल बनाना होगा. अगर आपको डेटा के डिस्ट्रिब्यूशन की जांच किए बिना, डेटा में बदलाव करना है, तो डिफ़ॉल्ट रूप से क्वंटील का इस्तेमाल किया जा सकता है.

डेटा को सामान्य करना

डेटा को सामान्य करके, कई सुविधाओं के डेटा को एक ही स्केल में बदला जा सकता है.

Z-स्कोर

जब भी आपको कोई डेटासेट, गॉसियन डिस्ट्रिब्यूशन के आकार का दिखे, तो आपको डेटा के लिए z-स्कोर का हिसाब लगाना चाहिए. Z-स्कोर, किसी वैल्यू के मीन से होने वाले स्टैंडर्ड डिवीऐशन की संख्या होती है. जब डेटासेट, क्वार्टाइल के लिए ज़रूरत के मुताबिक बड़ा न हो, तो z-स्कोर का इस्तेमाल भी किया जा सकता है.

इस प्रोसेस के बारे में जानने के लिए, Z-स्कोर स्केलिंग देखें.

यहां z-स्कोर स्केलिंग से पहले और बाद में, डेटासेट की दो सुविधाओं का विज़ुअलाइज़ेशन दिया गया है:

सामान्य बनाने से पहले और बाद में, फ़ीचर डेटा की तुलना करने वाले दो ग्राफ़
पहली इमेज: सामान्य बनाने से पहले और बाद के फ़ीचर डेटा की तुलना.

बाईं ओर मौजूद नॉर्मलाइज़ नहीं किए गए डेटासेट में, x और y ऐक्सिस पर ग्राफ़ किए गए फ़ीचर 1 और फ़ीचर 2 का स्केल एक जैसा नहीं है. बाईं ओर, लाल रंग का उदाहरण, पीले रंग के मुकाबले नीले रंग से ज़्यादा मिलता-जुलता है. दाईं ओर, z-स्कोर स्केलिंग के बाद, सुविधा 1 और सुविधा 2 का स्केल एक जैसा है. साथ ही, लाल रंग का उदाहरण, पीले रंग के उदाहरण के करीब दिखता है. सामान्य डेटासेट, पॉइंट के बीच समानता का सटीक आकलन करता है.

लॉग ट्रांसफ़ॉर्म

जब कोई डेटासेट पूरी तरह से पावर लॉ डिस्ट्रिब्यूशन के मुताबिक हो, जहां डेटा सबसे कम वैल्यू पर ज़्यादा क्लस्टर हो, तो लॉग ट्रांसफ़ॉर्म का इस्तेमाल करें. लॉग स्केलिंग देखें और इस प्रोसेस के बारे में जानें.

यहां लॉग ट्रांसफ़ॉर्मेशन से पहले और बाद के पावर-लॉ डेटासेट का विज़ुअलाइज़ेशन दिया गया है:

ऐसा बार चार्ट जिसमें ज़्यादातर डेटा, सबसे नीचे मौजूद है
दूसरी इमेज: पावर लॉ डिस्ट्रिब्यूशन.
नॉर्मल (गॉसियन) डिस्ट्रिब्यूशन दिखाने वाला ग्राफ़
तीसरी इमेज: दूसरी इमेज का लॉग ट्रांसफ़ॉर्म.

लॉग स्केलिंग (दूसरी इमेज) से पहले, लाल रंग का उदाहरण पीले रंग से मिलता-जुलता दिखता है. लॉग स्केलिंग (तीसरा चित्र) के बाद, लाल रंग नीले रंग से मिलता-जुलता दिखता है.

क्वैनटाइल

डेटा को क्वार्टाइल में बांटने की सुविधा तब अच्छी तरह से काम करती है, जब डेटासेट किसी ज्ञात डिस्ट्रिब्यूशन के मुताबिक न हो. उदाहरण के लिए, यह डेटासेट देखें:

डेटा को प्रोसेस करने से पहले, डेटा का डिस्ट्रिब्यूशन दिखाने वाला ग्राफ़
चौथी इमेज: प्री-प्रोसेसिंग से पहले, कैटगरी में नहीं रखा जा सकने वाला डिस्ट्रिब्यूशन.

आम तौर पर, दो उदाहरण तब ज़्यादा मिलते-जुलते होते हैं, जब उनके बीच में सिर्फ़ कुछ उदाहरण आते हैं. भले ही, उनकी वैल्यू अलग-अलग हों. वहीं, अगर उनके बीच में कई उदाहरण आते हैं, तो वे ज़्यादा अलग-अलग होते हैं. ऊपर दिए गए विज़ुअलाइज़ेशन से, लाल और पीले या लाल और नीले रंग के बीच आने वाले उदाहरणों की कुल संख्या देखना मुश्किल है.

डेटासेट को क्वाइनटल या इंटरवल में बांटकर, मिलती-जुलती चीज़ों के बारे में पता लगाया जा सकता है. हर इंटरवल में, उदाहरणों की संख्या बराबर होती है. साथ ही, हर उदाहरण को क्वाइनटल इंडेक्स असाइन किया जाता है. क्वंटाइल बकेट देखकर, इस तरीके के बारे में जानें.

यहां पिछले डिस्ट्रिब्यूशन को क्वार्टाइल में बांटा गया है. इससे पता चलता है कि लाल रंग, पीले रंग से एक क्वार्टाइल और नीले रंग से तीन क्वार्टाइल दूर है:

क्वार्टाइल में बदलने के बाद का डेटा दिखाने वाला ग्राफ़. लाइन में 20 इंटरवल दिखाए गए हैं.]
पांचवीं इमेज: 20 क्वंटील में बदलने के बाद, चौथी इमेज में दिखाया गया डिस्ट्रिब्यूशन.

आपके पास n क्विंटाइल की संख्या चुनने का विकल्प होता है. हालांकि, डेटा को सही तरीके से दिखाने के लिए, आपके डेटासेट में कम से कम10n उदाहरण होने चाहिए. अगर आपके पास ज़रूरत के मुताबिक डेटा नहीं है, तो डेटा को सामान्य बनाएं.

देखें कि आपको क्या समझ आया

नीचे दिए गए सवालों के लिए, मान लें कि आपके पास क्वार्टाइल बनाने के लिए ज़रूरत के मुताबिक डेटा है.

पहला सवाल

डेटा के तीन डिस्ट्रिब्यूशन दिखाने वाला प्लॉट
आपको ऊपर दिए गए ग्राफ़ में दिखाए गए डेटा डिस्ट्रिब्यूशन को कैसे प्रोसेस करना चाहिए?
लॉग ट्रांसफ़ॉर्म.
नॉर्मलाइज़ करें.
क्वार्टाइल बनाना.

दूसरा सवाल

डेटा के तीन डिस्ट्रिब्यूशन दिखाने वाला प्लॉट
इस डेटा डिस्ट्रिब्यूशन को कैसे प्रोसेस किया जाएगा?
नॉर्मलाइज़ करें.
क्वार्टाइल बनाना.
लॉग ट्रांसफ़ॉर्म.

रिपोर्ट में पूरा डेटा नहीं है

अगर आपके डेटासेट में किसी सुविधा के लिए वैल्यू मौजूद नहीं हैं, लेकिन ये उदाहरण कम ही दिखते हैं, तो इन उदाहरणों को हटाया जा सकता है. अगर ऐसे उदाहरण अक्सर दिखते हैं, तो उस सुविधा को पूरी तरह हटाया जा सकता है. इसके अलावा, मशीन लर्निंग मॉडल का इस्तेमाल करके, दूसरे उदाहरणों से छूटी हुई वैल्यू का अनुमान लगाया जा सकता है. उदाहरण के लिए, वह संख्या जो मौजूद नहीं है उसे जोड़ने के लिए, पहले से मौजूद सुविधा के डेटा पर ट्रेन किए गए रिग्रेशन मॉडल का इस्तेमाल किया जा सकता है.