मशीन लर्निंग मॉडल, सिर्फ़ फ़्लोटिंग-पॉइंट वैल्यू पर ट्रेनिंग कर सकते हैं. हालांकि, डेटासेट की कई सुविधाएं, नैचुरल तरीके से फ़्लोटिंग-पॉइंट वैल्यू नहीं होती हैं. इसलिए, मशीन लर्निंग का एक अहम हिस्सा है, पूरी दुनिया में नॉन-फ़्लोटिंग-पॉइंट फ़ीचर से फ़्लोटिंग-पॉइंट रिप्रज़ेंटेशन के लिए.
उदाहरण के लिए, मान लें कि street names
एक सुविधा है. ज़्यादातर सड़कों के नाम
स्ट्रिंग हैं, जैसे "ब्रॉडवे" या "विलाकाज़ी" के तौर पर शामिल होना चाहिए.
आपका मॉडल "ब्रॉडवे" पर ट्रेनिंग नहीं कर सकता, इसलिए आपको "ब्रॉडवे" बदलना होगा
संख्या को फ़्लोटिंग-पॉइंट नंबर में बदल दिया जाता है. कैटगरिकल डेटा
मॉड्यूल
में बताया गया है कि इसे कैसे किया जा सकता है.
इसके अलावा, आपको ज़्यादातर फ़्लोटिंग-पॉइंट सुविधाओं में भी बदलाव करना चाहिए. बदलाव की इस प्रोसेस को नॉर्मलाइज़ेशन, कन्वर्ज़न फ़्लोटिंग-पॉइंट नंबर को किसी सीमित रेंज पर सेट करना, ताकि मॉडल ट्रेनिंग को बेहतर बनाया जा सके. संख्यात्मक डेटा मॉड्यूल में बताया गया है कि इसे कैसे किया जा सकता है.
सैंपल डेटा, जब आपके पास बहुत ज़्यादा हो
कुछ संगठनों के पास प्रचुर मात्रा में डेटा होता है. डेटासेट में कई उदाहरण शामिल होने पर, आपको कोई सबसेट चुनना होगा जिसमें ट्रेनिंग के लिए उदाहरण शामिल हैं. जब भी हो सके, उस सबसेट को चुनें जो सबसे ज़्यादा हो आपके मॉडल के अनुमान के हिसाब से सही होता है.
व्यक्तिगत पहचान से जुड़ी जानकारी वाले उदाहरण फ़िल्टर करें
अच्छे डेटासेट में व्यक्तिगत पहचान से जुड़ी जानकारी वाले उदाहरण शामिल नहीं किए गए हैं (पीआईआई). यह नीति निजता की सुरक्षा करने में मदद करती है. हालांकि, इससे मॉडल में बदलाव हो सकता है.
इन विषयों के बारे में ज़्यादा जानकारी के लिए, कोर्स में बाद में सुरक्षा और निजता मॉड्यूल देखें.