बायस का पता लगाना

जब Jigsaw की टीम ने शुरुआत में Perspective API के टॉक्सीसिटी मॉडल का आकलन किया, तो पाया कि टेस्ट डेटा सेट पर उसने अच्छा परफ़ॉर्म किया. हालांकि, उन लोगों को यह चिंता अब भी थी कि ट्रेनिंग डेटा में सिस्टम से जुड़ी कोई गड़बड़ी होने पर, ऐसा किया जा सकता था. ट्रेनिंग डेटा की क्वालिटी को पक्का करने के लिए, उन्होंने रेटिंग देने वाले लोगों से मिले लेबल को ऑडिट करने का अतिरिक्त कदम उठाया, ताकि यह पक्का हो सके कि वे सटीक हैं.

इसके बावजूद, मॉडल में मौजूद भेदभाव को खत्म करने के लिए, उपयोगकर्ताओं ने ट्रेनिंग से जुड़े डेटा का इस्तेमाल किया. इसके बावजूद, उपयोगकर्ताओं को पहचान से जुड़ी शर्तों वाली टिप्पणियों के बारे में गलत जानकारी मिली. ऐसा क्यों हुआ?

ट्रेनिंग सेट के दूसरे ऑडिट से पता चला कि नस्ल, धर्म, और लिंग की पहचान से जुड़ी शब्दों वाली ज़्यादातर टिप्पणियों को ज़हरीला लेबल दिया गया था. ये लेबल सही थे. पहचान बताने वाले इन शब्दों वाली ज़्यादातर ऑनलाइन टिप्पणियां वाकई ज़हरीली थीं. हालांकि, इसी वजह से मॉडल ने पहचान के लिए इस्तेमाल किए गए इन शब्दों और ज़हरीली चीज़ों के बीच के संबंध के बारे में जाने हैं. इन शब्दों से, उन शब्दों के बीच के अंतर का पता नहीं चल पाता.

टीम ने मॉडल के ट्रेनिंग डेटा में एक गंभीर गड़बड़ी का पता लगाया: एक ऐसा क्षेत्र जहां ट्रेनिंग के लिए ज़रूरी डेटा नहीं था. ट्रेनिंग सेट में मॉडल के लिए ग़ैर-ज़रूरी पहचान से जुड़ी टिप्पणियों के ज़रूरी उदाहरण नहीं थे, ताकि वे समझ सकें कि ये शब्द न्यूट्रल हैं. साथ ही, इनमें यह भी बताया गया था कि इनमें किस संदर्भ का इस्तेमाल किया गया है.