कैटगरीकल डेटा: सामान्य समस्याएं

संख्यात्मक डेटा को अक्सर वैज्ञानिक उपकरणों से रिकॉर्ड किया जाता है या के लिए इस्तेमाल किया जाता है. दूसरी ओर, कैटगरीकल डेटा अक्सर उन्हें इंसानों या मशीन लर्निंग (एमएल) मॉडल की मदद से कैटगरी में बांटा जाता है. कौन तय करता है और उनके फ़ैसले कैसे लेते हैं, इसका असर और उस डेटा की विश्वसनीयता और उपयोगिता को बढ़ा सकते हैं.

रेटिंग देने वाले लोग

जिस डेटा को कोई व्यक्ति मैन्युअल तरीके से लेबल करता है उसे अक्सर गोल्ड लेबल कहा जाता है, साथ ही, इसका इस्तेमाल ट्रेनिंग मॉडल के लिए मशीन से लेबल किए गए डेटा की तुलना में ज़्यादा बेहतर माना जाता है. डेटा क्वालिटी की वजह से ऐसा होता है.

इसका मतलब यह नहीं है कि मैन्युअल तरीके से लेबल किए गए डेटा का कोई भी सेट ज़्यादा है क्वालिटी. ऐसे मामलों में, मानवीय भूल, पक्षपात, और नुकसान पहुंचाने वाले कॉन्टेंट का ज़िक्र इस तरह किया जा सकता है या डेटा हटाने और उसे प्रोसेस करने के दौरान हो सकता है. उनके लिए जांच करें कोई समस्या नहीं है.

कोई भी दो व्यक्ति एक ही उदाहरण को अलग तरह से लेबल कर सकते हैं. अंतर रेटिंग देने वाले लोगों के बीच फ़ैसलों को इंटर-रेटर कानूनी समझौते में बताया गया है. इससे यह पता लगाया जा सकता है कि रेटिंग देने वालों के बीच क्या अंतर है सुझाव, राय या शिकायत एक से ज़्यादा रेटिंग देने वाले और इंटर-रेटर के समझौते को मेज़र करने के लिए किया जाता है.

मशीन को रेटिंग देने वाले लोग

मशीन से लेबल किया गया डेटा, जहां कैटगरी एक या उससे ज़्यादा ज़्यादा क्लासिफ़िकेशन मॉडल, इन्हें अक्सर सिल्वर लेबल कहा जाता है. मशीन से लेबल किए गए डेटा की क्वालिटी में काफ़ी अंतर हो सकता है. इसकी जांच न सिर्फ़ सटीक जानकारी के लिए करें और पक्षपात दिखाने के साथ-साथ सामान्य भावना, हकीकत, और इरादे के उल्लंघन की वजह से भी ऐसा किया जाता है. इसके लिए उदाहरण के लिए, अगर कंप्यूटर-विज़न मॉडल किसी मफ़िन के तौर पर चिवावा, या चिवावा नस्ल के मफ़िन की फ़ोटो. कम क्वालिटी का होना चाहिए.

इसी तरह, एक भावनाओं का आकलन करने वाला जो न्यूट्रल शब्दों का स्कोर -0.25 करता है, जबकि 0.0 होता है न्यूट्रल वैल्यू, हो सकता है कि अतिरिक्त नेगेटिव बायस वाले सभी शब्दों को स्कोर करना हो जो डेटा में असल में मौजूद नहीं है. ओवरसेंसिटिव टॉक्सिकिटी डिटेक्टर कई न्यूट्रल स्टेटमेंट को बुरे बर्ताव के तौर पर फ़्लैग कर सकता है. यह समझने की कोशिश करें कि पहले आपके डेटा में मशीन लेबल और एनोटेशन की क्वालिटी और पक्षपात उसकी ट्रेनिंग कर रहे हैं.

ज़्यादा डाइमेंशन

कैटगरीकल डेटा से, हाई-डाइमेंशन वाले फ़ीचर वेक्टर बनते हैं; इसका मतलब है कि कई एलिमेंट वाले फ़ीचर वेक्टर. ज़्यादा डाइमेंशन की वजह से, ट्रेनिंग की लागत बढ़ जाती है और ट्रेनिंग बढ़ जाती है मुश्किल. इन वजहों से, मशीन लर्निंग के विशेषज्ञ अक्सर इस संख्या को कम करने के तरीके ढूंढते हैं डाइमेंशन को ट्रेनिंग दी गई है.

प्राकृतिक भाषा के डेटा के लिए, डाइमेंशनलिटी कम करने का मुख्य तरीका यह है का इस्तेमाल करें. इसकी चर्चा इसमें की गई है एम्बेडिंग मॉड्यूल को बाद में यह कोर्स.