ন্যায্যতা: পক্ষপাত কমানো

প্রশিক্ষণের তথ্যে পক্ষপাতের উৎস চিহ্নিত হয়ে গেলে, আমরা এর প্রভাব কমাতে সক্রিয় পদক্ষেপ নিতে পারি। দুটি প্রধান কৌশল রয়েছে যা মেশিন লার্নিং (ML) ইঞ্জিনিয়াররা সাধারণত পক্ষপাত দূর করার জন্য নিয়োগ করে:

  • প্রশিক্ষণ তথ্য বৃদ্ধি.
  • মডেলের ক্ষতি ফাংশন সামঞ্জস্য করা।

প্রশিক্ষণ তথ্য বৃদ্ধি

যদি প্রশিক্ষণ ডেটার একটি অডিট অনুপস্থিত, ভুল, বা তির্যক ডেটার সমস্যাগুলি উন্মোচন করে থাকে, তবে সমস্যাটি সমাধান করার সবচেয়ে সহজ উপায় হল অতিরিক্ত ডেটা সংগ্রহ করা।

যাইহোক, প্রশিক্ষণের ডেটা বৃদ্ধি করা আদর্শ হতে পারে, এই পদ্ধতির নেতিবাচক দিকটি হল যে এটি উপলভ্য ডেটার অভাব বা তথ্য সংগ্রহে বাধা সৃষ্টিকারী সংস্থান সীমাবদ্ধতার কারণেও এটি অসম্ভাব্য হতে পারে। উদাহরণস্বরূপ, আরও ডেটা সংগ্রহ করা খুব ব্যয়বহুল বা সময়সাপেক্ষ হতে পারে বা আইনি/গোপনীয়তা বিধিনিষেধের কারণে কার্যকর নাও হতে পারে।

মডেলের অপ্টিমাইজেশান ফাংশন সামঞ্জস্য করা

যে ক্ষেত্রে অতিরিক্ত প্রশিক্ষণের তথ্য সংগ্রহ করা সম্ভব নয়, পক্ষপাত কমানোর জন্য আরেকটি পদ্ধতি হল মডেল প্রশিক্ষণের সময় কীভাবে ক্ষতি গণনা করা হয় তা সামঞ্জস্য করা। আমরা সাধারণত ভুল মডেল ভবিষ্যদ্বাণীকে শাস্তি দিতে লগ ক্ষতির মতো একটি অপ্টিমাইজেশান ফাংশন ব্যবহার করি। যাইহোক, লগ ক্ষতি সাবগ্রুপ সদস্যপদ বিবেচনায় নেয় না। তাই লগ লস ব্যবহার করার পরিবর্তে, আমরা একটি ন্যায্যতা-সচেতন ফ্যাশনে ত্রুটিগুলিকে শাস্তি দেওয়ার জন্য ডিজাইন করা একটি অপ্টিমাইজেশান ফাংশন বেছে নিতে পারি যা আমাদের প্রশিক্ষণের ডেটাতে আমরা চিহ্নিত ভারসাম্যহীনতাগুলির প্রতিকার করে।

টেনসরফ্লো মডেল রিমিডিয়েশন লাইব্রেরি মডেল প্রশিক্ষণের সময় দুটি ভিন্ন পক্ষপাত-প্রশমন কৌশল প্রয়োগ করার জন্য ইউটিলিটি প্রদান করে:

  • MinDiff : MinDiff-এর লক্ষ্য দুটি ভিন্ন স্লাইস ডেটার (পুরুষ/মহিলা ছাত্র বনাম ননবাইনারী ছাত্রদের) ত্রুটির ভারসাম্য বজায় রাখা দুটি গ্রুপের জন্য ভবিষ্যদ্বাণী বিতরণে পার্থক্যের জন্য একটি শাস্তি যোগ করে।

  • কাউন্টারফ্যাকচুয়াল লগিট পেয়ারিং : কাউন্টারফ্যাকচুয়াল লগিট পেয়ারিং (সিএলপি) এর লক্ষ্য হল যে একটি প্রদত্ত উদাহরণের একটি সংবেদনশীল বৈশিষ্ট্য পরিবর্তন করা সেই উদাহরণের জন্য মডেলের ভবিষ্যদ্বাণীকে পরিবর্তন করে না। উদাহরণস্বরূপ, যদি একটি প্রশিক্ষণ ডেটাসেটে দুটি উদাহরণ থাকে যার বৈশিষ্ট্যের মানগুলি অভিন্ন, একটির male gender মান এবং অন্যটির nonbinary gender মান ব্যতীত, এই দুটি উদাহরণের পূর্বাভাস ভিন্ন হলে CLP একটি জরিমানা যোগ করবে৷

অপ্টিমাইজেশান ফাংশন সামঞ্জস্য করার জন্য আপনি যে কৌশলগুলি চয়ন করেন তা মডেলের ব্যবহারের ক্ষেত্রে নির্ভর করে৷ পরবর্তী বিভাগে, আমরা এই ব্যবহারের ক্ষেত্রে বিবেচনা করে ন্যায্যতার জন্য একটি মডেলের মূল্যায়নের কাজটি কীভাবে করতে পারি তা ঘনিষ্ঠভাবে দেখব।

অনুশীলন: আপনার বোঝার পরীক্ষা করুন

পক্ষপাত-প্রশমন কৌশল সম্পর্কিত নিম্নলিখিত বিবৃতিগুলির মধ্যে কোনটি সত্য?
MinDiff এবং CLP উভয়ই সংবেদনশীল বৈশিষ্ট্যের সাথে আবদ্ধ মডেল পারফরম্যান্সের অসঙ্গতিকে শাস্তি দেয়
উভয় কৌশলই প্রশিক্ষণের ডেটাতে কীভাবে সংবেদনশীল বৈশিষ্ট্যগুলিকে উপস্থাপন করা হয় তাতে ভারসাম্যহীনতার ফলে ভবিষ্যদ্বাণী ত্রুটিগুলিকে শাস্তির মাধ্যমে পক্ষপাত হ্রাস করা লক্ষ্য করে।
MinDiff ডেটার বিভিন্ন স্লাইসের জন্য ভবিষ্যদ্বাণীর সামগ্রিক বিতরণে পার্থক্যকে শাস্তি দেয়, যেখানে CLP পৃথক জোড়া উদাহরণের জন্য ভবিষ্যদ্বাণীতে অসঙ্গতিকে শাস্তি দেয়।
MinDiff দুটি সাবগ্রুপের জন্য স্কোর ডিস্ট্রিবিউশন সারিবদ্ধ করে পক্ষপাতের সমাধান করে। সিএলপি এটা নিশ্চিত করে পক্ষপাতিত্ব মোকাবেলা করে যে শুধুমাত্র তাদের সাবগ্রুপ মেম্বারশিপের কারণে পৃথক উদাহরণের সাথে ভিন্নভাবে আচরণ করা হয় না।
প্রশিক্ষণ ডেটাসেটে আরও উদাহরণ যোগ করা সবসময় একটি মডেলের ভবিষ্যদ্বাণীতে পক্ষপাতিত্ব প্রতিরোধে সাহায্য করবে।
আরও প্রশিক্ষণের উদাহরণ যোগ করা পক্ষপাত কমানোর জন্য একটি কার্যকর কৌশল, তবে নতুন প্রশিক্ষণের ডেটার গঠন গুরুত্বপূর্ণ। যদি অতিরিক্ত প্রশিক্ষণের উদাহরণগুলি মূল ডেটার অনুরূপ ভারসাম্যহীনতা প্রদর্শন করে, তবে তারা সম্ভবত বিদ্যমান পক্ষপাত কমাতে সাহায্য করবে না।
আপনি যদি আরও প্রশিক্ষণের ডেটা যোগ করে পক্ষপাতিত্ব প্রশমিত করেন তবে প্রশিক্ষণের সময় আপনার MinDiff বা CLP প্রয়োগ করা উচিত নয়।
প্রশিক্ষণের ডেটা বৃদ্ধি করা এবং MinDiff বা CLP এর মতো কৌশল প্রয়োগ করা পরিপূরক হতে পারে। উদাহরণ স্বরূপ, একজন ML ইঞ্জিনিয়ার পারফরম্যান্সে 30% অসঙ্গতি কমাতে পর্যাপ্ত অতিরিক্ত প্রশিক্ষণ ডেটা সংগ্রহ করতে সক্ষম হতে পারেন, এবং তারপরে আরও 50% অসঙ্গতি কমাতে MinDiff ব্যবহার করতে পারেন।