डेटासेट: डेटा की विशेषताएं

डेटासेट उदाहरण.

कई डेटासेट, डेटा को टेबल (ग्रिड) में सेव करते हैं. उदाहरण के लिए, कॉमा लगाकर अलग की गई वैल्यू (CSV) या सीधे स्प्रेडशीट से या डेटाबेस टेबल. टेबल, मशीन के लिए इनपुट के तौर पर इस्तेमाल होने वाला एक बेहतरीन फ़ॉर्मैट है लर्निंग मॉडल. टेबल की हर लाइन को उदाहरण के तौर पर देखा जा सकता है और हर कॉलम को संभावित सुविधा या लेबल के तौर पर चुनें. हालांकि, डेटासेट को अन्य फ़ॉर्मैट से भी लिया जा सकता है, जिनमें ये शामिल हैं लॉग फ़ाइलें और प्रोटोकॉल बफ़र.

फ़ॉर्मैट चाहे जो भी हो, आपका एमएल मॉडल उतना ही अच्छा होता है जितना जिस डेटा का इस्तेमाल करके उसे ट्रेन किया जाता है. इस सेक्शन में, डेटा से जुड़ी अहम विशेषताओं के बारे में बताया गया है.

डेटा के टाइप

डेटासेट में कई तरह के डेटा टाइप हो सकते हैं. इनमें, हालांकि, डेटा टाइप ज़रूर शामिल है इन तक सीमित नहीं है:

  • संख्यात्मक डेटा, जिसे अलग यूनिट
  • कैटगरी वाला डेटा होता है. इस डेटा को अलग यूनिट
  • मानवीय भाषा, जिसमें व्यक्ति के अलग-अलग शब्द और वाक्य शामिल हैं, पूरे टेक्स्ट दस्तावेज़
  • मल्टीमीडिया (जैसे कि इमेज, वीडियो, और ऑडियो फ़ाइलें)
  • अन्य एमएल सिस्टम के आउटपुट
  • वेक्टर एम्बेड करना, जो बाद की इकाई में शामिल किया गया

पिछले डेटा टाइप को ज़्यादा सबग्रुप में बांटा जा सकता है. इस कोर्स के बाद के मॉड्यूल—उदाहरण के लिए, कैटगरिकल डेटा मॉड्यूल—जानकारी और इन डेटा टाइप को सब-कैटगरी में बांटा जा सकता है.

डेटा की मात्रा

बुनियादी नियम के मुताबिक, आपके मॉडल को कम से कम एक ऑर्डर के हिसाब से ट्रेनिंग देनी चाहिए की मात्रा (या दो) ज़्यादा उदाहरण हो. हालांकि, अच्छा मॉडल, आम तौर पर इसके मुकाबले काफ़ी हद तक ज़्यादा उदाहरणों के आधार पर ट्रेनिंग देते हैं.

कुछ मॉडल को बड़े डेटासेट पर ट्रेनिंग दी गई सुविधाएं का इस्तेमाल करें ये मॉडल, छोटे डेटासेट पर ट्रेनिंग देने वाले मॉडल से बेहतर परफ़ॉर्म करते हैं. साथ ही, सुविधा है. Google ने ऐतिहासिक तौर पर, सफल मॉडल को ट्रेनिंग दी है. का इस्तेमाल किया जा सकता है.

अलग-अलग मशीन लर्निंग प्रोग्राम के लिए, अलग-अलग डेटासेट को इकट्ठा करने की ज़रूरत बहुत ज़्यादा पड़ सकती है में उदाहरण के तौर पर दी गई जानकारी शामिल करें. दूसरे देशों के मुकाबले, तो कुछ दर्जन उदाहरण काफ़ी हो सकते हैं. अन्य समस्याओं के लिए, खरबों उदाहरण काफ़ी नहीं हैं.

अगर कन्वर्ज़न ट्रैकिंग को ऑप्टिमाइज़ किया जा रहा है, तो छोटे डेटासेट से अच्छे नतीजे मिल सकते हैं. इस मॉडल को पहले से ही, एक जैसा स्कीमा है.

डेटा की क्वालिटी और विश्वसनीयता

हर कोई अच्छी क्वालिटी के बजाय हल्की क्वालिटी का कॉन्टेंट पसंद करता है, लेकिन क्वालिटी को लेकर साफ़ तौर पर जानकारी नहीं होती इसे कई तरीकों से परिभाषित किया जा सकता है. इस कोर्स में इसके बारे में बताया गया है व्यावहारिक तौर पर क्वालिटी के लिए:

अच्छी क्वालिटी का डेटासेट हो, तो आपके मॉडल को लक्ष्य पूरा करने में मदद मिलती है. कम क्वालिटी वाला डेटासेट, आपके मॉडल को लक्ष्य पूरा करने से रोकता है.

अच्छी क्वालिटी का डेटासेट आम तौर पर भरोसेमंद भी होता है. भरोसेमंद का मतलब है कि आपके डेटा पर किस हद तक भरोसा किया जा सकता है. भरोसेमंद डेटासेट पर तैयार किए गए मॉडल से, काम आने की संभावना बढ़ जाती है जो भरोसेमंद डेटा के आधार पर तैयार किए गए मॉडल की तुलना में ज़्यादा सटीक हों.

मेज़र की जा रही विश्वसनीयता में, आपको इन चीज़ों के बारे में पता करना होगा:

  • लेबल से जुड़ी गड़बड़ियां कितनी आम हैं? उदाहरण के लिए, अगर आपका डेटा रेटिंग देने वाले लोगों ने कितनी बार गलतियां की हैं?
  • क्या आपकी सुविधाओं में कोई आवाज़ है? इसका मतलब है कि अपने कॉन्टेंट में ज़रूरी वैल्यू होनी चाहिए क्या उसमें गड़बड़ियां नहीं हैं? कॉन्टेंट को असली जैसा बनाएं. डेटासेट को पूरी तरह मिटाया नहीं जा सकता का ध्यान रखें. कुछ शोर सामान्य है; उदाहरण के लिए, किसी भी जगह में हमेशा हफ़्ते-दर-हफ़्ते, थोड़ा-बहुत उतार-चढ़ाव होता रहता है.
  • क्या डेटा आपकी समस्या के लिए सही तरीके से फ़िल्टर किया गया है? उदाहरण के लिए, क्या आपके डेटासेट में बॉट की खोज क्वेरी शामिल होनी चाहिए? अगर आप: तो अक्सर जवाब हां होता है. हालांकि, अगर आप इंसानों के लिए खोज नतीजों को बेहतर बनाना चाहते हैं, तो नहीं.

डेटासेट में भरोसेमंद डेटा न दिखने की आम वजहें ये हैं:

  • हटाई गई वैल्यू. उदाहरण के लिए, कोई व्यक्ति किसी 10 साल से कम उम्र का है.
  • डुप्लीकेट उदाहरण. उदाहरण के लिए, सर्वर ने गलती से लॉग एंट्री को दो बार रिकॉर्ड करें.
  • गलत सुविधा मान. उदाहरण के लिए, किसी व्यक्ति ने एक अतिरिक्त अंक टाइप किया, या थर्मामीटर धूप में डूब गया था.
  • खराब लेबल. उदाहरण के लिए, किसी व्यक्ति ने गलती से ओक का पेड़, जो मेपल के पेड़ जैसा दिखता है.
  • डेटा के गलत सेक्शन. उदाहरण के लिए, कोई सुविधा बहुत भरोसेमंद है, लेकिन उस एक दिन को छोड़कर जब नेटवर्क क्रैश होता रहा.

गैर-भरोसेमंद डेटा को फ़्लैग करने के लिए, हमारा सुझाव है कि ऑटोमेशन का इस्तेमाल करें. उदाहरण के लिए, बाहरी औपचारिक डेटा स्कीमा को तय करने या उस पर निर्भर यूनिट टेस्ट से फ़्लैग करने के लिए वे वैल्यू डालें जो तय की गई सीमा से बाहर हैं.

पूरे हो चुके उदाहरण बनाम अधूरे उदाहरण

एक बेहतर दुनिया में, हर उदाहरण पूरा होता है; यानी, हर उदाहरण में हर सुविधा के लिए एक वैल्यू होती है.

चित्र 1.  एक उदाहरण जिसमें इसके सभी पांच नामों के लिए मान शामिल हों
       सुविधाएँ.
पहला डायग्राम. एक पूरा उदाहरण.

 

दुर्भाग्य से, असल दुनिया के उदाहरण अक्सर अधूरे होते हैं, जिसका मतलब है कि कम से कम एक सुविधा का मान मौजूद नहीं है.

चित्र 2.  पांच में से चार के मानों वाला उदाहरण
            सुविधाएँ. एक सुविधा को 'मौजूद नहीं है' के तौर पर मार्क किया गया है.
दूसरा डायग्राम. अधूरा उदाहरण.

 

अधूरे उदाहरणों के लिए किसी मॉडल को ट्रेनिंग न दें. इसके बजाय, उन्हें ठीक करें या हटाएं अधूरे उदाहरण दिए गए हैं. इसके लिए, इनमें से कोई एक काम करें:

  • अधूरे उदाहरणों को मिटाएं.
  • वैल्यू मौजूद न होने का Impute; इसका मतलब है कि अधूरे उदाहरण को एक पूरा उदाहरण में बदला जा सकता है. इसके लिए जो वैल्यू मौजूद नहीं हैं उनके लिए सही अनुमान.
चित्र 3.  एक डेटासेट जिसमें तीन उदाहरण हैं, जिनमें से दो
            अधूरे उदाहरण. किसी ने इन दोनों अधूरी बीमारी को ठीक कर दिया है
            डेटासेट से उदाहरण देखें.
तीसरी इमेज. डेटासेट से अधूरे उदाहरण मिटाए जा रहे हैं.

 

चित्र 4.  इस डेटासेट में तीन उदाहरण दिए गए हैं, जिनमें से दो
            अधूरे उदाहरण जिनमें मौजूद डेटा मौजूद नहीं है. कोई इकाई (एक इंसान
            या इंप्युटेशन सॉफ़्टवेयर) ने ऐसे मान लगाए हैं जिन्होंने
            मौजूद नहीं है.
चौथी इमेज. अधूरे उदाहरणों के लिए, छूटे हुए मान का इस्तेमाल करना.

 

अगर डेटासेट में काम के मॉडल को ट्रेनिंग देने के लिए, ज़रूरत के हिसाब से पूरे उदाहरण मौजूद हैं, तो फिर अधूरे उदाहरणों को हटाएं. इसी तरह, अगर किसी एक सुविधा में बहुत ज़्यादा डेटा मौजूद न हो और ऐसा हो सकता है कि एक सुविधा से मॉडल को ज़्यादा मदद न मिले. ऐसे में, इसे इस्तेमाल किया जा सकता है. साथ ही, यह देखा जा सकता है कि इसकी वजह से क्वालिटी कितनी खराब हो गई है हटाना. अगर मॉडल इसके बिना भी या ठीक से काम करता है, तो बहुत बढ़िया है. इसके उलट, अगर आपके पास किसी मॉडल को ट्रेनिंग देने के लिए, पूरे उदाहरण नहीं हैं, तो तो आप अनुपलब्ध मानों को लागू करने पर विचार कर सकते हैं.

बेकार या बेकार उदाहरणों को मिटाया जा सकता है, लेकिन मिटाना बुरा है अहम उदाहरण. दुर्भाग्य से, दोनों के बीच का अंतर बताना मुश्किल हो सकता है के बीच फ़र्क़ करना चाहिए. अगर आपको यह तय करने में परेशानी हो रही है कि तो दो डेटासेट बनाने पर विचार करें: एक डेटासेट को अधूरे उदाहरणों के बारे में बात करते हैं और दूसरे के मामले में. इसके बाद, यह देखें कि कौनसा डेटासेट बेहतर मॉडल को ट्रेनिंग देता है.


एक सामान्य एल्गोरिदम, प्रतिरूपित मान के रूप में माध्य या माध्यिका का उपयोग करना है. इस तरह, जब आप किसी सुविधा को Z-स्कोर, फिर लागू की गई वैल्यू आम तौर पर 0 होती है, क्योंकि आम तौर पर 0 का मतलब Z-स्कोर होता है.

व्यायाम: अपनी समझ की जांच करें

यहां Timestamp के हिसाब से, डेटासेट के दो कॉलम दिए गए हैं.

टाइमस्टैंप तापमान
8 जून, 2023 को 09:00 बजे 12
8 जून, 2023 10:00 18
8 जून, 2023 11:00 मौजूद नहीं
8 जून, 2023 12:00 24
8 जून, 2023 13:00 38

इनमें से कौनसा विकल्प लागू करने के लिए सही होगा तापमान की गैर-मौजूद वैल्यू के लिए?

23
शायद। 23 आस-पास की वैल्यू का मीन होता है (12, 18, 24, और 38). हालांकि, हमें बाकी डेटासेट नहीं दिख रहे हैं. इसलिए, ऐसा हो सकता है कि 23 अन्य दिनों पर 11:00 के लिए आउटलायर होगा.
31
नहीं. डेटासेट के इस सीमित हिस्से को देखने से जुड़े सुझाव मिलते हैं कि 11:00 तापमान के लिए 31 बहुत ज़्यादा है. हालांकि, हम बड़ी संख्या में लोगों का भरोसा जीतने के लिए, उदाहरण.
51
कोई संभावना नहीं है. 51, दिखाई गई किसी भी वैल्यू से काफ़ी ज़्यादा है (इसलिए, औसत से बहुत ज़्यादा).
अभी तक किसी भी व्यक्ति ने चेक इन नहीं किया है