डेटासेट: डेटा में बदलाव करना

मशीन लर्निंग मॉडल, सिर्फ़ फ़्लोटिंग-पॉइंट वैल्यू पर ट्रेनिंग कर सकते हैं. हालांकि, डेटासेट की कई सुविधाएं, फ़्लोटिंग-पॉइंट वैल्यू के तौर पर नहीं होती हैं. इसलिए, मशीन लर्निंग का एक अहम हिस्सा, नॉन-फ़्लोटिंग-पॉइंट फ़ीचर को फ़्लोटिंग-पॉइंट रेप्रज़ेंटेशन में बदलना है.

उदाहरण के लिए, मान लें कि street names कोई सुविधा है. ज़्यादातर सड़कों के नाम स्ट्रिंग होते हैं, जैसे कि "Broadway" या "Vilakazi". आपका मॉडल "Broadway" पर ट्रेन नहीं कर सकता. इसलिए, आपको "Broadway" को फ़्लोटिंग-पॉइंट नंबर में बदलना होगा. कैटगरी वाले डेटा के लिए मॉड्यूल में, ऐसा करने का तरीका बताया गया है.

इसके अलावा, आपको ज़्यादातर फ़्लोटिंग-पॉइंट सुविधाओं को भी बदलना चाहिए. डेटा को बदलने की इस प्रोसेस को नॉर्मलाइज़ेशन कहा जाता है. यह प्रोसेस, फ़्लोटिंग-पॉइंट नंबर को तय सीमा वाली रेंज में बदल देती है. इससे मॉडल ट्रेनिंग बेहतर होती है. न्यूमेरिकल डेटा मॉड्यूल में, ऐसा करने का तरीका बताया गया है.

ज़्यादा डेटा होने पर उसका सैंपल लेना

कुछ संगठनों के पास काफ़ी डेटा होता है. जब डेटासेट में बहुत ज़्यादा उदाहरण होते हैं, तो आपको ट्रेनिंग के लिए उदाहरणों का सबसेट चुनना होगा. जब भी हो सके, अपने मॉडल के अनुमान के लिए सबसे काम का सबसेट चुनें.

व्यक्तिगत पहचान से जुड़ी जानकारी वाले फ़िल्टर के उदाहरण

अच्छे डेटासेट में, व्यक्तिगत पहचान से जुड़ी जानकारी (पीआईआई) वाले उदाहरण शामिल नहीं होते. इस नीति से निजता को सुरक्षित रखने में मदद मिलती है, लेकिन इससे मॉडल पर असर पड़ सकता है.

इन विषयों के बारे में ज़्यादा जानने के लिए, कोर्स में आगे मौजूद सुरक्षा और निजता मॉड्यूल देखें.