ন্যায্যতা: পক্ষপাত সনাক্ত করা

আপনি মডেল প্রশিক্ষণ এবং মূল্যায়নের জন্য আপনার ডেটা প্রস্তুত করার সময়, ন্যায্যতার বিষয়গুলি মাথায় রাখা এবং পক্ষপাতের সম্ভাব্য উত্সগুলির জন্য নিরীক্ষা করা গুরুত্বপূর্ণ, যাতে আপনি আপনার মডেলকে উত্পাদনে প্রকাশ করার আগে সক্রিয়ভাবে এর প্রভাবগুলি হ্রাস করতে পারেন৷

পক্ষপাত কোথায় লুকিয়ে থাকতে পারে? আপনার ডেটাসেটে খোঁজার জন্য এখানে কিছু লাল পতাকা রয়েছে।

বৈশিষ্ট্য মান অনুপস্থিত

যদি আপনার ডেটাসেটে এক বা একাধিক বৈশিষ্ট্য থাকে যেগুলিতে প্রচুর সংখ্যক উদাহরণের জন্য মান অনুপস্থিত থাকে, তাহলে এটি একটি সূচক হতে পারে যে আপনার ডেটাসেটের কিছু মূল বৈশিষ্ট্য কম-প্রস্তুত করা হয়েছে।

অনুশীলন: আপনার বোঝার পরীক্ষা করুন

আপনি জাত, বয়স, ওজন, মেজাজ, এবং প্রতিদিন পশম সেডের পরিমাণ সহ বিভিন্ন বৈশিষ্ট্যের উপর ভিত্তি করে রেসকিউ কুকুরের গ্রহণযোগ্যতা ভবিষ্যদ্বাণী করার জন্য একটি মডেলকে প্রশিক্ষণ দিচ্ছেন। আপনার লক্ষ্য হল মডেলটি সব ধরনের কুকুরের শারীরিক বা আচরণগত বৈশিষ্ট্য নির্বিশেষে সমানভাবে ভাল পারফর্ম করে তা নিশ্চিত করা

আপনি আবিষ্কার করেছেন যে প্রশিক্ষণ সেটের 5,000 উদাহরণের মধ্যে 1,500টি মেজাজের মান অনুপস্থিত। নিম্নলিখিতগুলির মধ্যে কোনটি পক্ষপাতের সম্ভাব্য উত্সগুলি আপনার তদন্ত করা উচিত?

12 মাসের কম বয়সী কুকুরের জন্য মেজাজের ডেটা অনুপস্থিত হওয়ার সম্ভাবনা বেশি
কিছু নির্দিষ্ট জাতের কুকুরের জন্য মেজাজের ডেটা অনুপস্থিত হওয়ার সম্ভাবনা বেশি।
টেম্পারমেন্ট ডেটা এলোমেলোভাবে ডেটাসেট থেকে অনুপস্থিত।
বড় শহর থেকে উদ্ধার করা সমস্ত কুকুরের জন্য মেজাজের ডেটা অনুপস্থিত।

অপ্রত্যাশিত বৈশিষ্ট্য মান

ডেটা অন্বেষণ করার সময়, আপনার এমন উদাহরণগুলিও সন্ধান করা উচিত যাতে বৈশিষ্ট্যের মানগুলি রয়েছে যা বিশেষত চরিত্রহীন বা অস্বাভাবিক হিসাবে আলাদা। এই অপ্রত্যাশিত বৈশিষ্ট্যের মানগুলি ডেটা সংগ্রহের সময় ঘটে যাওয়া সমস্যাগুলি বা পক্ষপাতের পরিচয় দিতে পারে এমন অন্যান্য ত্রুটিগুলি নির্দেশ করতে পারে৷

অনুশীলন: আপনার বোঝার পরীক্ষা করুন

একটি রেসকিউ-ডগ গ্রহণযোগ্যতা মডেলের প্রশিক্ষণের জন্য নিম্নলিখিত অনুমানমূলক উদাহরণগুলি পর্যালোচনা করুন।

বংশবৃদ্ধি বয়স (বছর) ওজন (পাউন্ড) স্বভাব shedding_level
খেলনা পুডল 2 12 উত্তেজনাপূর্ণ কম
গোল্ডেন রিট্রিভার 7 65 শান্ত উচ্চ
ল্যাব্রাডর উদ্ধারকারী 35 73 শান্ত উচ্চ
ফরাসি বুলডগ 0.5 11 শান্ত মাঝারি
অজানা মিশ্র জাত 4 45 উত্তেজনাপূর্ণ উচ্চ
basset হাউন্ড 9 48 শান্ত মাঝারি
আপনি বৈশিষ্ট্য তথ্য সঙ্গে কোনো সমস্যা চিহ্নিত করতে পারেন?
উত্তর দেখতে এখানে ক্লিক করুন

ডেটা তির্যক

আপনার ডেটাতে যেকোন ধরণের তির্যক, যেখানে নির্দিষ্ট গোষ্ঠী বা বৈশিষ্ট্যগুলি তাদের বাস্তব-বিশ্বের প্রসারের তুলনায় কম বা বেশি-প্রতিনিধিত্বিত হতে পারে, আপনার মডেলে পক্ষপাতের পরিচয় দিতে পারে।

মডেলের পারফরম্যান্সের অডিট করার সময়, শুধুমাত্র সামগ্রিকভাবে ফলাফল দেখাই নয়, সাবগ্রুপের মাধ্যমে ফলাফল বের করাও গুরুত্বপূর্ণ। উদাহরণস্বরূপ, আমাদের রেসকিউ-ডগ গ্রহণযোগ্যতার মডেলের ক্ষেত্রে, ন্যায্যতা নিশ্চিত করার জন্য, সামগ্রিক নির্ভুলতার দিকে তাকানোই যথেষ্ট নয়। প্রতিটি কুকুরের জাত, বয়স গোষ্ঠী এবং আকার গোষ্ঠীর জন্য মডেলটি সমানভাবে ভাল পারফর্ম করে তা নিশ্চিত করার জন্য আমাদের সাবগ্রুপ দ্বারা কর্মক্ষমতা নিরীক্ষা করা উচিত।

পরে এই মডিউলে, বায়াসের জন্য মূল্যায়নে , আমরা সাবগ্রুপের মাধ্যমে মডেলের মূল্যায়ন করার জন্য বিভিন্ন পদ্ধতির উপর ঘনিষ্ঠভাবে নজর দেব।