পক্ষপাত নির্ণয়

যখন জিগস টিম প্রাথমিকভাবে পরিপ্রেক্ষিত API বিষাক্ততার মডেলটি মূল্যায়ন করেছিল, তখন তারা দেখেছিল যে এটি পরীক্ষার ডেটা সেটে ভাল পারফর্ম করেছে। কিন্তু তারা উদ্বিগ্ন ছিল যে প্রশিক্ষণের ডেটাতে কোনো পদ্ধতিগত ত্রুটি থাকলে মডেলের ভবিষ্যদ্বাণীতে পক্ষপাতিত্ব প্রকাশ পেতে পারে এমন একটি সম্ভাবনা এখনও ছিল। প্রশিক্ষণ-ডেটা গুণমান নিশ্চিত করার জন্য, তারা সঠিক ছিল তা নিশ্চিত করার জন্য মানব রেটারদের দ্বারা প্রদত্ত লেবেলগুলি অডিট করার অতিরিক্ত পদক্ষেপ নিয়েছে।

তবুও, মডেলের প্রশিক্ষণ ডেটাতে পক্ষপাত দূর করার জন্য এই সক্রিয় পদক্ষেপ নেওয়া সত্ত্বেও, ব্যবহারকারীরা এখনও পরিচয় শর্তাবলী সম্বলিত মন্তব্যের জন্য একটি মিথ্যা-ইতিবাচক সমস্যা উন্মোচন করেছে। এটা কিভাবে হল?

প্রশিক্ষণ সেটের একটি দ্বিতীয় অডিট প্রকাশ করেছে যে জাতি, ধর্ম এবং লিঙ্গের জন্য পরিচয় শর্তাবলী সম্বলিত বেশিরভাগ মন্তব্যকে বিষাক্ত লেবেল করা হয়েছিল। এই লেবেল সঠিক ছিল; এই পরিচয় শর্তাবলী ধারণকারী অধিকাংশ অনলাইন মন্তব্য সত্যিই বিষাক্ত ছিল. কিন্তু এই তির্যকের ফলস্বরূপ, মডেলটি এই পরিচয় পদগুলির উপস্থিতি এবং বিষাক্ততার মধ্যে একটি সম্পর্ক শিখেছিল, যা সঠিকভাবে শর্তগুলির নিরপেক্ষ অর্থকে প্রতিফলিত করে না।

দলটি মডেলের প্রশিক্ষণের ডেটাতে একটি গুরুত্বপূর্ণ ফাঁক উন্মোচন করেছিল: এমন একটি ক্ষেত্র যেখানে বাস্তবতার মূল দিকটি উপস্থাপন করার জন্য পর্যাপ্ত প্রশিক্ষণের ডেটা ছিল না। প্রশিক্ষণ সেটে ননটক্সিক আইডেন্টিটি কমেন্টের পর্যাপ্ত উদাহরণ ছিল না মডেলের জন্য এটি শিখতে যে পদগুলি নিজেরাই নিরপেক্ষ ছিল এবং যে প্রেক্ষাপটে সেগুলি ব্যবহার করা হয়েছিল তা গুরুত্বপূর্ণ।