डेटासेट: डेटा में बदलाव करना

मशीन लर्निंग मॉडल, सिर्फ़ फ़्लोटिंग-पॉइंट वैल्यू पर ट्रेनिंग कर सकते हैं. हालांकि, डेटासेट की कई सुविधाएं, नैचुरल तरीके से फ़्लोटिंग-पॉइंट वैल्यू नहीं होती हैं. इसलिए, मशीन लर्निंग का एक अहम हिस्सा है, पूरी दुनिया में नॉन-फ़्लोटिंग-पॉइंट फ़ीचर से फ़्लोटिंग-पॉइंट रिप्रज़ेंटेशन के लिए.

उदाहरण के लिए, मान लें कि street names एक सुविधा है. ज़्यादातर सड़कों के नाम स्ट्रिंग हैं, जैसे "ब्रॉडवे" या "विलाकाज़ी" के तौर पर शामिल होना चाहिए. आपका मॉडल "ब्रॉडवे" पर ट्रेनिंग नहीं कर सकता, इसलिए आपको "ब्रॉडवे" बदलना होगा संख्या को फ़्लोटिंग-पॉइंट नंबर में बदल दिया जाता है. कैटगरिकल डेटा मॉड्यूल में बताया गया है कि इसे कैसे किया जा सकता है.

इसके अलावा, आपको ज़्यादातर फ़्लोटिंग-पॉइंट सुविधाओं में भी बदलाव करना चाहिए. बदलाव की इस प्रोसेस को नॉर्मलाइज़ेशन, कन्वर्ज़न फ़्लोटिंग-पॉइंट नंबर को किसी सीमित रेंज पर सेट करना, ताकि मॉडल ट्रेनिंग को बेहतर बनाया जा सके. संख्यात्मक डेटा मॉड्यूल में बताया गया है कि इसे कैसे किया जा सकता है.

सैंपल डेटा, जब आपके पास बहुत ज़्यादा हो

कुछ संगठनों के पास प्रचुर मात्रा में डेटा होता है. डेटासेट में कई उदाहरण शामिल होने पर, आपको कोई सबसेट चुनना होगा जिसमें ट्रेनिंग के लिए उदाहरण शामिल हैं. जब भी हो सके, उस सबसेट को चुनें जो सबसे ज़्यादा हो आपके मॉडल के अनुमान के हिसाब से सही होता है.

व्यक्तिगत पहचान से जुड़ी जानकारी वाले उदाहरण फ़िल्टर करें

अच्छे डेटासेट में व्यक्तिगत पहचान से जुड़ी जानकारी वाले उदाहरण शामिल नहीं किए गए हैं (पीआईआई). यह नीति निजता की सुरक्षा करने में मदद करती है. हालांकि, इससे मॉडल में बदलाव हो सकता है.

इन विषयों के बारे में ज़्यादा जानकारी के लिए, कोर्स में बाद में सुरक्षा और निजता मॉड्यूल देखें.