संख्या वाला डेटा: अंकों वाली अच्छी सुविधाओं की क्वालिटी

इस यूनिट ने रॉ डेटा को सही फ़ीचर वेक्टर में मैप करने के तरीकों का पता लगाया है. अच्छी संख्या वाली सुविधाओं में, इस सेक्शन में बताई गई खूबियां होती हैं.

साफ़ तौर पर नाम लिखा हो

प्रोजेक्ट में शामिल हर व्यक्ति को हर सुविधा का मतलब साफ़ तौर पर समझ आना चाहिए. उदाहरण के लिए, सुविधा की इस वैल्यू का मतलब समझना मुश्किल है:

इसका इस्तेमाल करने का सुझाव नहीं दिया जाता

house_age: 851472000

इसके उलट, यहां दी गई सुविधा का नाम और वैल्यू काफ़ी साफ़ है:

सुझाया गया

house_age_years: 27

ट्रेनिंग से पहले जांच की गई हो या टेस्ट किया गया हो

इस मॉड्यूल में, आउटलायर पर काफ़ी समय दिया गया है. हालांकि, यह विषय इतना अहम है कि इस पर एक बार फिर से चर्चा करना ज़रूरी है. कुछ मामलों में, गलत डेटा की वजह से वैल्यू साफ़ तौर पर नहीं दिखतीं. ऐसा, इंजीनियरिंग के गलत विकल्पों की वजह से नहीं होता. उदाहरण के लिए, यहां दिया गया user_age_in_years, ऐसे सोर्स से मिला है जिसने सही वैल्यू की जांच नहीं की:

इसका इस्तेमाल करने का सुझाव नहीं दिया जाता

user_age_in_years: 224

हालांकि, लोगों की उम्र 24 साल हो सकती है:

सुझाया गया

user_age_in_years: 24

अपना डेटा देखें!

समझदार

"मैजिक वैल्यू", किसी ऐसी सुविधा में जान-बूझकर की गई रुकावट होती है जो आम तौर पर लगातार काम करती है. उदाहरण के लिए, मान लें कि watch_time_in_seconds नाम की एक लगातार सुविधा, 0 से 30 के बीच की कोई भी फ़्लोटिंग-पॉइंट वैल्यू हो सकती है. हालांकि, यह मैजिक वैल्यू -1 के साथ मेज़रमेंट की अनुपलब्धता को दिखाती है:

इसका इस्तेमाल करने का सुझाव नहीं दिया जाता

watch_time_in_seconds: -1

watch_time_in_seconds के -1 होने पर, मॉडल यह समझने की कोशिश करेगा कि फ़िल्म को पीछे की ओर देखने का क्या मतलब है. ऐसा होने पर, शायद मॉडल से अच्छे अनुमान न मिलें.

एक बेहतर तरीका यह है कि आप एक अलग बूलियन सुविधा बनाएं, जो यह बताती हो कि watch_time_in_seconds वैल्यू दी गई है या नहीं. उदाहरण के लिए:

सुझाया गया

watch_time_in_seconds: 4.82
is_watch_time_in_seconds_defined=True

watch_time_in_seconds: 0
is_watch_time_in_seconds_defined=False

यह, छूटी हुई वैल्यू वाले लगातार डेटासेट को मैनेज करने का एक तरीका है. अब product_category जैसी अलग-अलग संख्या वाली किसी एट्रिब्यूट पर विचार करें. इसकी वैल्यू, वैल्यू के सीमित सेट से जुड़ी होनी चाहिए. इस मामले में, जब कोई वैल्यू मौजूद न हो, तो सीमित सेट में मौजूद किसी नई वैल्यू का इस्तेमाल करके, उस वैल्यू की जानकारी दें. डिस्क्रीट एट्रिब्यूट की मदद से, मॉडल हर वैल्यू के लिए अलग-अलग वैल्यू का पता लगाएगा. इसमें, मौजूद न होने वाली वैल्यू के लिए ओरिजनल वैल्यू भी शामिल है.

उदाहरण के लिए, हम सेट में फ़िट होने वाली संभावित वैल्यू की कल्पना कर सकते हैं:

{0: 'electronics', 1: 'books', 2: 'clothing', 3: 'missing_category'}.