Machine Learning | Google for Developers

इस पेज का अनुवाद Cloud Translation API से किया गया है.

बायस का पता लगाना

जब Jigsaw की टीम ने शुरुआत में Perspective API के टॉक्सीसिटी मॉडल का आकलन किया, तो पाया कि टेस्ट डेटा सेट पर उसने अच्छा परफ़ॉर्म किया. हालांकि, उन लोगों को यह चिंता अब भी थी कि ट्रेनिंग डेटा में सिस्टम से जुड़ी कोई गड़बड़ी होने पर, ऐसा किया जा सकता था. ट्रेनिंग डेटा की क्वालिटी को पक्का करने के लिए, उन्होंने रेटिंग देने वाले लोगों से मिले लेबल को ऑडिट करने का अतिरिक्त कदम उठाया, ताकि यह पक्का हो सके कि वे सटीक हैं.

इसके बावजूद, मॉडल में मौजूद भेदभाव को खत्म करने के लिए, उपयोगकर्ताओं ने ट्रेनिंग से जुड़े डेटा का इस्तेमाल किया. इसके बावजूद, उपयोगकर्ताओं को पहचान से जुड़ी शर्तों वाली टिप्पणियों के बारे में गलत जानकारी मिली. ऐसा क्यों हुआ?

ट्रेनिंग सेट के दूसरे ऑडिट से पता चला कि नस्ल, धर्म, और लिंग की पहचान से जुड़ी शब्दों वाली ज़्यादातर टिप्पणियों को ज़हरीला लेबल दिया गया था. ये लेबल सही थे. पहचान बताने वाले इन शब्दों वाली ज़्यादातर ऑनलाइन टिप्पणियां वाकई ज़हरीली थीं. हालांकि, इसी वजह से मॉडल ने पहचान के लिए इस्तेमाल किए गए इन शब्दों और ज़हरीली चीज़ों के बीच के संबंध के बारे में जाने हैं. इन शब्दों से, उन शब्दों के बीच के अंतर का पता नहीं चल पाता.

टीम ने मॉडल के ट्रेनिंग डेटा में एक गंभीर गड़बड़ी का पता लगाया: एक ऐसा क्षेत्र जहां ट्रेनिंग के लिए ज़रूरी डेटा नहीं था. ट्रेनिंग सेट में मॉडल के लिए ग़ैर-ज़रूरी पहचान से जुड़ी टिप्पणियों के ज़रूरी उदाहरण नहीं थे, ताकि वे समझ सकें कि ये शब्द न्यूट्रल हैं. साथ ही, इनमें यह भी बताया गया था कि इनमें किस संदर्भ का इस्तेमाल किया गया है.

पीछे जाएं

व्यायाम #1: मॉडल एक्सप्लोर करें

आगे बढ़ें

व्यायाम #2: बायस को ठीक करें