कैटगरीकल डेटा: सामान्य समस्याएं

संख्या वाला डेटा अक्सर वैज्ञानिक उपकरणों या ऑटोमेटेड मेज़रमेंट से रिकॉर्ड किया जाता है. दूसरी ओर, कैटगरी वाले डेटा को अक्सर मनुष्य या मशीन लर्निंग (एमएल) मॉडल के हिसाब से बांटा जाता है. कैटगरी और लेबल तय करने वाले व्यक्ति या इकाई और कैसे वे ये फ़ैसले लेते हैं, इससे उस डेटा की भरोसेमंदता और काम के होने पर असर पड़ता है.

रेटिंग देने वाले लोग

जिस डेटा को कोई व्यक्ति मैन्युअल तरीके से लेबल करता है उसे अक्सर गोल्ड लेबल कहा जाता है. ट्रेनिंग मॉडल के लिए, मशीन से लेबल किए गए डेटा की तुलना में डेटा की क्वालिटी बेहतर होने की वजह से इस डेटा की ज़रूरत होती है.

इसका मतलब यह नहीं है कि मैन्युअल तरीके से लेबल किए गए डेटा का कोई भी सेट अच्छी क्वालिटी का है. डेटा इकट्ठा करने के दौरान, डेटा हटाने और प्रोसेस करने के दौरान, मानवीय गड़बड़ियां, पक्षपात, और नुकसान पहुंचाने की भावना शामिल हो सकती है. ट्रेनिंग से पहले, इनकी जांच कर लें.

कोई भी दो व्यक्ति एक ही उदाहरण को अलग तरह से लेबल कर सकते हैं. रेटिंग देने वाले लोगों के फ़ैसलों के बीच के अंतर को इंटर-रेटर के लिए कानूनी समझौता कहा जाता है. हर उदाहरण के लिए, कई रेटर का इस्तेमाल करके और रेटिंग देने वाले लोगों के बीच सहमति को मेज़र करके, रेटिंग देने वालों की राय में अंतर का पता लगाया जा सकता है.

मशीन से रेटिंग देने वाले

मशीन से लेबल किए गए डेटा में, कैटगरी एक या एक से ज़्यादा क्लासिफ़िकेशन मॉडल के हिसाब से अपने-आप तय होती हैं. इसे अक्सर सिल्वर लेबल कहा जाता है. मशीन से लेबल किए गए डेटा की क्वालिटी में काफ़ी अंतर हो सकता है. न सिर्फ़ सटीक होने और किसी पक्ष के नज़रिए से लिखे जाने के बारे में, बल्कि सामान्य समझ, असल स्थिति, और मकसद के उल्लंघन के बारे में भी देखें. उदाहरण के लिए, अगर कंप्यूटर विज़न मॉडल, चिहुआहुआ की फ़ोटो को मफ़िन के तौर पर या मफ़िन की फ़ोटो को चिहुआहुआ के तौर पर गलत लेबल करता है, तो उस लेबल किए गए डेटा पर ट्रेन किए गए मॉडल की क्वालिटी खराब होगी.

इसी तरह, जब 0.0 न्यूट्रल वैल्यू होती है, तो हो सकता है कि न्यूट्रल शब्दों को -0.25 के तौर पर स्कोर करने वाला कोई भावनाओं का विश्लेषण करने वाला टूल किसी अतिरिक्त नेगेटिव बायस वाले सभी शब्दों को स्कोर कर रहा हो जो असल में डेटा में मौजूद नहीं है. बुरे बर्ताव का पता लगाने वाला कोई व्यक्ति, कई न्यूट्रल स्टेटमेंट को बुरे बर्ताव के तौर पर फ़्लैग कर सकता है. अपने डेटा पर ट्रेनिंग करने से पहले, मशीन लेबल और एनोटेशन की क्वालिटी और पक्षपात को समझने की कोशिश करें.

ज़्यादा डाइमेंशन

कैटगरी वाले डेटा से, ज़्यादा डाइमेंशन वाले फ़ीचर वैक्टर बनते हैं. इसका मतलब है कि ऐसे फ़ीचर वैक्टर जिनमें बहुत ज़्यादा एलिमेंट होते हैं. ज़्यादा डाइमेंशन होने पर, ट्रेनिंग की लागत बढ़ जाती है और ट्रेनिंग करना मुश्किल हो जाता है. इन वजहों से, एमएल विशेषज्ञ अक्सर ट्रेनिंग से पहले डाइमेंशन की संख्या कम करने के तरीके खोजते हैं.

सामान्य भाषा के डेटा के लिए, डाइमेंशन को कम करने का मुख्य तरीका, फ़ीचर वैक्टर को एम्बेडिंग वैक्टर में बदलना है. इस बारे में, इस कोर्स के आखिर में एम्बेडिंग मॉड्यूल में बताया गया है.