इस यूनिट में रॉ डेटा को, ज़रूरत के हिसाब से रॉ डेटा को मैप करने के तरीके बताए गए हैं फ़ीचर वेक्टर. संख्या वाली अच्छी सुविधाएं इस सेक्शन में बताई गई क्वालिटी.
साफ़ तौर पर नाम दिया गया
हर सुविधा का मतलब साफ़, समझ में आना, और लोगों के लिए साफ़ तौर पर दिखना चाहिए को भी शामिल किया है. उदाहरण के लिए, इस सुविधा की वैल्यू का मतलब यह है भ्रम की स्थिति:
इसका इस्तेमाल करने का सुझाव नहीं दिया जाता
घर_का_उम्र: 851472000
इसके उलट, नीचे दी गई सुविधा का नाम और वैल्यू ज़्यादा साफ़ है:
सुझाया गया
House_age_years: 27
ट्रेनिंग से पहले जांच या टेस्ट किया गया
हालांकि इस मॉड्यूल ने बहुत सारा समय लगाया है,
आउटलायर, यानी कि विषय
एक अंतिम उल्लेख करने के लिए पर्याप्त होना चाहिए. कुछ मामलों में, खराब डेटा
(इंजीनियरिंग के खराब विकल्पों के बजाय) अस्पष्ट वैल्यू पैदा करती हैं. उदाहरण के लिए,
यह user_age_in_years
ऐसे सोर्स से आया है जिसने इसकी जांच नहीं की
सही मान:
इसका इस्तेमाल करने का सुझाव नहीं दिया जाता
user_age_in_years: 224
हालांकि, लोगों की उम्र 24 साल हो सकती है:
सुझाया गया
user_age_in_years: 24
अपना डेटा जांचें!
समझ में आता है
"मैजिक वैल्यू" किसी अन्य क्रम में
सुविधा. उदाहरण के लिए, मान लें कि watch_time_in_seconds
नाम की एक कंटिन्यूअस सुविधा
इसमें 0 और 30 के बीच का कोई भी फ़्लोटिंग-पॉइंट वैल्यू हो सकती है. हालांकि, यह अनुपस्थिति को दिखाता है
-1:
इसका इस्तेमाल करने का सुझाव नहीं दिया जाता
Watch_time_in_seconds: -1
-1 का watch_time_in_seconds
होने पर, मॉडल यह पता लगाने की कोशिश करेगा
जानें कि किसी फ़िल्म को पुराने समय में देखने का क्या मतलब है. इससे बनने वाला मॉडल
वह अच्छे अनुमान नहीं लगा सकता.
एक अलग बूलियन सुविधा बनाना एक बेहतर तकनीक है, जो
चाहे watch_time_in_seconds
हो या नहीं
मान दिया गया है. उदाहरण के लिए:
सुझाया गया
Watch_time_in_seconds: 4.82
is_watch_time_in_seconds_defined=TrueWatch_time_in_seconds: 0
is_watch_time_in_seconds_defined=False
अब अलग-अलग संख्यात्मक सुविधा जिसकी वैल्यू, वैल्यू के सीमित सेट से जुड़ी होनी चाहिए. इसमें केस, जब कोई मान मौजूद न हो, तो परिमित सेट. डिस्क्रीट सुविधा की मदद से, मॉडल अलग-अलग वज़न (महत्व) को सीखेगा हर वैल्यू के लिए, इसमें उन सुविधाओं का मूल वेट शामिल है जो मौजूद नहीं हैं.