ন্যায্যতা: পক্ষপাত সনাক্ত করা

আপনি মডেল প্রশিক্ষণ এবং মূল্যায়নের জন্য আপনার ডেটা প্রস্তুত করার সময়, ন্যায্যতার বিষয়গুলি মাথায় রাখা এবং পক্ষপাতের সম্ভাব্য উত্সগুলির জন্য নিরীক্ষা করা গুরুত্বপূর্ণ, যাতে আপনি আপনার মডেলকে উত্পাদনে প্রকাশ করার আগে সক্রিয়ভাবে এর প্রভাবগুলি হ্রাস করতে পারেন৷

পক্ষপাত কোথায় লুকিয়ে থাকতে পারে? আপনার ডেটাসেটে খোঁজার জন্য এখানে কিছু লাল পতাকা রয়েছে।

বৈশিষ্ট্য মান অনুপস্থিত

যদি আপনার ডেটাসেটে এক বা একাধিক বৈশিষ্ট্য থাকে যেগুলিতে প্রচুর সংখ্যক উদাহরণের জন্য মান অনুপস্থিত থাকে, তাহলে এটি একটি সূচক হতে পারে যে আপনার ডেটাসেটের কিছু মূল বৈশিষ্ট্য কম-প্রস্তুত করা হয়েছে।

অনুশীলন: আপনার বোঝার পরীক্ষা করুন

আপনি জাত, বয়স, ওজন, মেজাজ, এবং প্রতিদিন পশম সেডের পরিমাণ সহ বিভিন্ন বৈশিষ্ট্যের উপর ভিত্তি করে রেসকিউ কুকুরের গ্রহণযোগ্যতা ভবিষ্যদ্বাণী করার জন্য একটি মডেলকে প্রশিক্ষণ দিচ্ছেন। আপনার লক্ষ্য হল মডেলটি সব ধরনের কুকুরের শারীরিক বা আচরণগত বৈশিষ্ট্য নির্বিশেষে সমানভাবে ভাল পারফর্ম করে তা নিশ্চিত করা

আপনি আবিষ্কার করেছেন যে প্রশিক্ষণ সেটের 5,000 উদাহরণের মধ্যে 1,500টি মেজাজের মান অনুপস্থিত। নিম্নলিখিতগুলির মধ্যে কোনটি পক্ষপাতের সম্ভাব্য উত্সগুলি আপনার তদন্ত করা উচিত?

কিছু নির্দিষ্ট জাতের কুকুরের জন্য মেজাজের ডেটা অনুপস্থিত হওয়ার সম্ভাবনা বেশি।
যদি মেজাজের তথ্যের প্রাপ্যতা কুকুরের জাতের সাথে সম্পর্কযুক্ত হয়, তাহলে এর ফলে কিছু কুকুরের প্রজাতির জন্য কম সঠিক গ্রহণযোগ্যতা ভবিষ্যদ্বাণী হতে পারে।
12 মাসের কম বয়সী কুকুরের জন্য মেজাজের ডেটা অনুপস্থিত হওয়ার সম্ভাবনা বেশি
যদি মেজাজের তথ্যের প্রাপ্যতা বয়সের সাথে সম্পর্কযুক্ত হয়, তাহলে এর ফলে কুকুরছানা বনাম প্রাপ্তবয়স্ক কুকুরের জন্য কম সঠিক গ্রহণযোগ্যতা ভবিষ্যদ্বাণী হতে পারে।
বড় শহর থেকে উদ্ধার করা সমস্ত কুকুরের জন্য মেজাজের ডেটা অনুপস্থিত।
প্রথম নজরে, এটা মনে হতে পারে না যে এটি পক্ষপাতিত্বের একটি সম্ভাব্য উৎস, যেহেতু অনুপস্থিত ডেটা বড় শহরের সমস্ত কুকুরকে সমানভাবে প্রভাবিত করবে, তাদের জাত, বয়স, ওজন ইত্যাদি নির্বিশেষে। যাইহোক, আমাদের এখনও বিবেচনা করতে হবে যে একটি কুকুর যে অবস্থান থেকে কার্যকরভাবে এই শারীরিক বৈশিষ্ট্যগুলির জন্য একটি প্রক্সি হিসাবে কাজ করতে পারে। উদাহরণস্বরূপ, যদি বড় শহরগুলির কুকুরগুলি আরও গ্রামীণ এলাকার কুকুরগুলির তুলনায় উল্লেখযোগ্যভাবে ছোট হওয়ার সম্ভাবনা বেশি থাকে, তবে এর ফলে কম ওজনের কুকুর বা নির্দিষ্ট ছোট কুকুরের জাতগুলির জন্য কম সঠিক গ্রহণযোগ্যতা ভবিষ্যদ্বাণী হতে পারে।
টেম্পারমেন্ট ডেটা এলোমেলোভাবে ডেটাসেট থেকে অনুপস্থিত।
যদি মেজাজ ডেটা সত্যিই এলোমেলোভাবে অনুপস্থিত হয়, তাহলে এটি পক্ষপাতের একটি সম্ভাব্য উৎস হবে না। যাইহোক, এটি সম্ভাব্য মেজাজের ডেটা এলোমেলোভাবে অনুপস্থিত বলে মনে হতে পারে, তবে আরও তদন্তে অমিলের জন্য একটি ব্যাখ্যা প্রকাশ হতে পারে। সুতরাং ডেটা ফাঁকগুলি এলোমেলো বলে ধরে নেওয়ার পরিবর্তে অন্যান্য সম্ভাবনাগুলিকে বাতিল করার জন্য একটি পুঙ্খানুপুঙ্খ পর্যালোচনা করা গুরুত্বপূর্ণ।

অপ্রত্যাশিত বৈশিষ্ট্য মান

ডেটা অন্বেষণ করার সময়, আপনার এমন উদাহরণগুলিও সন্ধান করা উচিত যাতে বৈশিষ্ট্যের মানগুলি রয়েছে যা বিশেষত চরিত্রহীন বা অস্বাভাবিক হিসাবে আলাদা। এই অপ্রত্যাশিত বৈশিষ্ট্যের মানগুলি ডেটা সংগ্রহের সময় ঘটে যাওয়া সমস্যাগুলি বা পক্ষপাতের পরিচয় দিতে পারে এমন অন্যান্য ত্রুটিগুলি নির্দেশ করতে পারে৷

অনুশীলন: আপনার বোঝার পরীক্ষা করুন

একটি রেসকিউ-ডগ গ্রহণযোগ্যতা মডেলের প্রশিক্ষণের জন্য নিম্নলিখিত অনুমানমূলক উদাহরণগুলি পর্যালোচনা করুন।

বংশবৃদ্ধি বয়স (বছর) ওজন (পাউন্ড) স্বভাব shedding_level
খেলনা পুডল 2 12 উত্তেজনাপূর্ণ কম
গোল্ডেন রিট্রিভার 7 65 শান্ত উচ্চ
ল্যাব্রাডর উদ্ধারকারী 35 73 শান্ত উচ্চ
ফরাসি বুলডগ 0.5 11 শান্ত মাঝারি
অজানা মিশ্র জাত 4 45 উত্তেজনাপূর্ণ উচ্চ
basset হাউন্ড 9 48 শান্ত মাঝারি
আপনি বৈশিষ্ট্য তথ্য সঙ্গে কোনো সমস্যা চিহ্নিত করতে পারেন?
উত্তর দেখতে এখানে ক্লিক করুন

ডেটা তির্যক

আপনার ডেটাতে যেকোন ধরণের তির্যক, যেখানে নির্দিষ্ট গোষ্ঠী বা বৈশিষ্ট্যগুলি তাদের বাস্তব-বিশ্বের প্রসারের তুলনায় কম বা বেশি-প্রতিনিধিত্বিত হতে পারে, আপনার মডেলে পক্ষপাতের পরিচয় দিতে পারে।

মডেলের পারফরম্যান্সের অডিট করার সময়, শুধুমাত্র সামগ্রিকভাবে ফলাফল দেখাই নয়, সাবগ্রুপের মাধ্যমে ফলাফল বের করাও গুরুত্বপূর্ণ। উদাহরণস্বরূপ, আমাদের রেসকিউ-ডগ গ্রহণযোগ্যতার মডেলের ক্ষেত্রে, ন্যায্যতা নিশ্চিত করার জন্য, সামগ্রিক নির্ভুলতার দিকে তাকানোই যথেষ্ট নয়। প্রতিটি কুকুরের জাত, বয়স গোষ্ঠী এবং আকার গোষ্ঠীর জন্য মডেলটি সমানভাবে ভাল পারফর্ম করে তা নিশ্চিত করার জন্য আমাদের সাবগ্রুপ দ্বারা কর্মক্ষমতা নিরীক্ষা করা উচিত।

পরে এই মডিউলে, বায়াসের জন্য মূল্যায়নে , আমরা সাবগ্রুপের মাধ্যমে মডেলের মূল্যায়ন করার জন্য বিভিন্ন পদ্ধতির উপর ঘনিষ্ঠভাবে নজর দেব।