আপনি মডেল প্রশিক্ষণ এবং মূল্যায়নের জন্য আপনার ডেটা প্রস্তুত করার সময়, ন্যায্যতার বিষয়গুলি মাথায় রাখা এবং পক্ষপাতের সম্ভাব্য উত্সগুলির জন্য নিরীক্ষা করা গুরুত্বপূর্ণ, যাতে আপনি আপনার মডেলকে উত্পাদনে প্রকাশ করার আগে সক্রিয়ভাবে এর প্রভাবগুলি হ্রাস করতে পারেন৷
পক্ষপাত কোথায় লুকিয়ে থাকতে পারে? আপনার ডেটাসেটে খোঁজার জন্য এখানে কিছু লাল পতাকা রয়েছে।
বৈশিষ্ট্য মান অনুপস্থিত
যদি আপনার ডেটাসেটে এক বা একাধিক বৈশিষ্ট্য থাকে যেগুলিতে প্রচুর সংখ্যক উদাহরণের জন্য মান অনুপস্থিত থাকে, তাহলে এটি একটি সূচক হতে পারে যে আপনার ডেটাসেটের কিছু মূল বৈশিষ্ট্য কম-প্রস্তুত করা হয়েছে।
অনুশীলন: আপনার বোঝার পরীক্ষা করুন
আপনি আবিষ্কার করেছেন যে প্রশিক্ষণ সেটের 5,000 উদাহরণের মধ্যে 1,500টি মেজাজের মান অনুপস্থিত। নিম্নলিখিতগুলির মধ্যে কোনটি পক্ষপাতের সম্ভাব্য উত্সগুলি আপনার তদন্ত করা উচিত?
অপ্রত্যাশিত বৈশিষ্ট্য মান
ডেটা অন্বেষণ করার সময়, আপনার এমন উদাহরণগুলিও সন্ধান করা উচিত যাতে বৈশিষ্ট্যের মানগুলি রয়েছে যা বিশেষত চরিত্রহীন বা অস্বাভাবিক হিসাবে আলাদা। এই অপ্রত্যাশিত বৈশিষ্ট্যের মানগুলি ডেটা সংগ্রহের সময় ঘটে যাওয়া সমস্যাগুলি বা পক্ষপাতের পরিচয় দিতে পারে এমন অন্যান্য ত্রুটিগুলি নির্দেশ করতে পারে৷
অনুশীলন: আপনার বোঝার পরীক্ষা করুন
একটি রেসকিউ-ডগ গ্রহণযোগ্যতা মডেলের প্রশিক্ষণের জন্য নিম্নলিখিত অনুমানমূলক উদাহরণগুলি পর্যালোচনা করুন।
বংশবৃদ্ধি | বয়স (বছর) | ওজন (পাউন্ড) | স্বভাব | shedding_level |
---|---|---|---|---|
খেলনা পুডল | 2 | 12 | উত্তেজনাপূর্ণ | কম |
গোল্ডেন রিট্রিভার | 7 | 65 | শান্ত | উচ্চ |
ল্যাব্রাডর উদ্ধারকারী | 35 | 73 | শান্ত | উচ্চ |
ফরাসি বুলডগ | 0.5 | 11 | শান্ত | মাঝারি |
অজানা মিশ্র জাত | 4 | 45 | উত্তেজনাপূর্ণ | উচ্চ |
basset হাউন্ড | 9 | 48 | শান্ত | মাঝারি |
বংশবৃদ্ধি | বয়স (বছর) | ওজন (পাউন্ড) | স্বভাব | shedding_level |
---|---|---|---|---|
খেলনা পুডল | 2 | 12 | উত্তেজনাপূর্ণ | কম |
গোল্ডেন রিট্রিভার | 7 | 65 | শান্ত | উচ্চ |
ল্যাব্রাডর উদ্ধারকারী | 35 | 73 | শান্ত | উচ্চ |
ফরাসি বুলডগ | 0.5 | 11 | শান্ত | মাঝারি |
অজানা মিশ্র জাত | 4 | 45 | উত্তেজনাপূর্ণ | উচ্চ |
basset হাউন্ড | 9 | 48 | শান্ত | মাঝারি |
গিনেস ওয়ার্ল্ড রেকর্ডস দ্বারা তাদের বয়স যাচাই করা সবচেয়ে বয়স্ক কুকুরটি ছিল ব্লুই , একটি অস্ট্রেলিয়ান ক্যাটল ডগ যিনি 29 বছর 5 মাস বেঁচে ছিলেন। এটি প্রদত্ত, এটি বেশ অবিশ্বাস্য বলে মনে হচ্ছে যে ল্যাব্রাডর পুনরুদ্ধারের বয়স আসলে 35 বছর, এবং সম্ভবত কুকুরের বয়স হয় গণনা করা হয়েছিল বা ভুলভাবে রেকর্ড করা হয়েছিল (হয়তো কুকুরটি আসলে 3.5 বছর বয়সী)। এই ত্রুটিটি ডেটাসেটে বয়সের ডেটার সাথে আরও বিস্তৃত নির্ভুলতার সমস্যাগুলির ইঙ্গিতও হতে পারে যা আরও তদন্তের যোগ্যতা রাখে।
ডেটা তির্যক
আপনার ডেটাতে যেকোন ধরণের তির্যক, যেখানে নির্দিষ্ট গোষ্ঠী বা বৈশিষ্ট্যগুলি তাদের বাস্তব-বিশ্বের প্রসারের তুলনায় কম বা বেশি-প্রতিনিধিত্বিত হতে পারে, আপনার মডেলে পক্ষপাতের পরিচয় দিতে পারে।
মডেলের পারফরম্যান্সের অডিট করার সময়, শুধুমাত্র সামগ্রিকভাবে ফলাফল দেখাই নয়, সাবগ্রুপের মাধ্যমে ফলাফল বের করাও গুরুত্বপূর্ণ। উদাহরণস্বরূপ, আমাদের রেসকিউ-ডগ গ্রহণযোগ্যতার মডেলের ক্ষেত্রে, ন্যায্যতা নিশ্চিত করার জন্য, সামগ্রিক নির্ভুলতার দিকে তাকানোই যথেষ্ট নয়। প্রতিটি কুকুরের জাত, বয়স গোষ্ঠী এবং আকার গোষ্ঠীর জন্য মডেলটি সমানভাবে ভাল পারফর্ম করে তা নিশ্চিত করার জন্য আমাদের সাবগ্রুপ দ্বারা কর্মক্ষমতা নিরীক্ষা করা উচিত।
পরে এই মডিউলে, বায়াসের জন্য মূল্যায়নে , আমরা সাবগ্রুপের মাধ্যমে মডেলের মূল্যায়ন করার জন্য বিভিন্ন পদ্ধতির উপর ঘনিষ্ঠভাবে নজর দেব।