ন্যায্যতা: পক্ষপাত সনাক্ত করা

আপনার মডেলে এটিকে কীভাবে উপস্থাপন করা যায় তা নির্ধারণ করতে আপনি যখন আপনার ডেটা অন্বেষণ করেন, তখন ন্যায্যতার বিষয়গুলিকে মাথায় রাখা এবং পক্ষপাতের সম্ভাব্য উত্সগুলির জন্য সক্রিয়ভাবে অডিট করা গুরুত্বপূর্ণ৷

পক্ষপাত কোথায় লুকিয়ে থাকতে পারে? আপনার ডেটা সেটের জন্য এখানে তিনটি লাল পতাকা রয়েছে।

অনুপস্থিত বৈশিষ্ট্য মান

যদি আপনার ডেটা সেটে এক বা একাধিক বৈশিষ্ট্য থাকে যেগুলিতে প্রচুর সংখ্যক উদাহরণের জন্য মান অনুপস্থিত থাকে, তবে এটি একটি সূচক হতে পারে যে আপনার ডেটা সেটের কিছু মূল বৈশিষ্ট্য কম-উপস্থাপিত।

উদাহরণস্বরূপ, নীচের সারণীটি ক্যালিফোর্নিয়া হাউজিং ডেটাসেটের বৈশিষ্ট্যগুলির একটি উপসেটের জন্য মূল পরিসংখ্যানগুলির একটি সারাংশ দেখায়, একটি পান্ডাস DataFrame সংরক্ষিত এবং DataFrame.describe মাধ্যমে তৈরি। মনে রাখবেন যে সমস্ত বৈশিষ্ট্যের count 17000, ইঙ্গিত করে যে কোনও অনুপস্থিত মান নেই:

দ্রাঘিমাংশ অক্ষাংশ মোট_রুম জনসংখ্যা পরিবারগুলি মাঝারি_আয় মধ্যমা_গৃহ_মূল্য
গণনা 17000.0 17000.0 17000.0 17000.0 17000.0 17000.0 17000.0
মানে -119.6 35.6 2643.7 1429.6 501.2 3.9 207.3
std 2.0 2.1 2179.9 1147.9 384.5 1.9 116.0
মিনিট -124.3 32.5 2.0 3.0 1.0 0.5 15.0
২৫% -121.8 ৩৩.৯ 1462.0 790.0 282.0 2.6 119.4
৫০% -118.5 34.2 2127.0 1167.0 409.0 3.5 180.4
75% -118.0 37.7 3151.2 1721.0 ৬০৫.২ 4.8 265.0
সর্বোচ্চ -114.3 42.0 37937.0 35682.0 ৬০৮২.০ 15.0 500.0

এর পরিবর্তে ধরুন যে তিনটি বৈশিষ্ট্যের ( population , households এবং median_income ) শুধুমাত্র 3000 এর গণনা ছিল — অন্য কথায়, প্রতিটি বৈশিষ্ট্যের জন্য 14,000টি অনুপস্থিত মান ছিল:

দ্রাঘিমাংশ অক্ষাংশ মোট_রুম জনসংখ্যা পরিবারগুলি মাঝারি_আয় মধ্যমা_গৃহ_মূল্য
গণনা 17000.0 17000.0 17000.0 3000.0 3000.0 3000.0 17000.0
মানে -119.6 35.6 2643.7 1429.6 501.2 3.9 207.3
std 2.0 2.1 2179.9 1147.9 384.5 1.9 116.0
মিনিট -124.3 32.5 2.0 3.0 1.0 0.5 15.0
২৫% -121.8 ৩৩.৯ 1462.0 790.0 282.0 2.6 119.4
৫০% -118.5 34.2 2127.0 1167.0 409.0 3.5 180.4
75% -118.0 37.7 3151.2 1721.0 ৬০৫.২ 4.8 265.0
সর্বোচ্চ -114.3 42.0 37937.0 35682.0 ৬০৮২.০ 15.0 500.0

এই 14,000টি অনুপস্থিত মানগুলি মধ্যমা বাড়ির দামের সাথে পরিবারের মধ্যম আয়কে সঠিকভাবে সম্পর্কযুক্ত করা আরও কঠিন করে তুলবে। এই ডেটাতে একটি মডেলকে প্রশিক্ষণ দেওয়ার আগে, এই অনুপস্থিত মানগুলির কারণ অনুসন্ধান করা বুদ্ধিমানের কাজ হবে যাতে নিশ্চিত করা যায় যে আয় এবং জনসংখ্যার ডেটা হারিয়ে যাওয়ার জন্য কোনও সুপ্ত পক্ষপাত নেই।

অপ্রত্যাশিত বৈশিষ্ট্য মান

ডেটা অন্বেষণ করার সময়, আপনার এমন উদাহরণগুলিও সন্ধান করা উচিত যাতে বৈশিষ্ট্যের মানগুলি রয়েছে যা বিশেষত চরিত্রহীন বা অস্বাভাবিক হিসাবে আলাদা। এই অপ্রত্যাশিত বৈশিষ্ট্যের মানগুলি ডেটা সংগ্রহের সময় ঘটে যাওয়া সমস্যাগুলি বা পক্ষপাতের পরিচয় দিতে পারে এমন অন্যান্য ত্রুটিগুলি নির্দেশ করতে পারে৷

উদাহরণস্বরূপ, ক্যালিফোর্নিয়া হাউজিং ডেটা সেট থেকে নিম্নলিখিত উদ্ধৃত উদাহরণগুলি দেখুন:

দ্রাঘিমাংশ অক্ষাংশ মোট_রুম জনসংখ্যা পরিবারগুলি মাঝারি_আয় মধ্যমা_গৃহ_মূল্য
1 -121.7 38.0 7105.0 3523.0 1088.0 5.0 0.2
2 -122.4 37.8 2479.0 1816.0 496.0 3.1 0.3
3 -122.0 37.0 2813.0 1337.0 477.0 3.7 0.3
4 -103.5 43.8 2212.0 803.0 144.0 5.3 0.2
5 -117.1 32.8 2963.0 1162.0 556.0 3.6 0.2
6 -118.0 ৩৩.৭ ৩৩৯৬.০ 1542.0 472.0 7.4 0.4

আপনি কোন অপ্রত্যাশিত বৈশিষ্ট্য মান চিহ্নিত করতে পারেন?

ডেটা স্কু

আপনার ডেটাতে যেকোন ধরণের তির্যক, যেখানে নির্দিষ্ট গোষ্ঠী বা বৈশিষ্ট্যগুলি তাদের বাস্তব-বিশ্বের প্রসারের তুলনায় কম বা বেশি-প্রতিনিধিত্বিত হতে পারে, আপনার মডেলে পক্ষপাতের পরিচয় দিতে পারে।

আপনি যদি ভ্যালিডেশন প্রোগ্রামিং ব্যায়াম সম্পন্ন করেন, তাহলে আপনি মনে করতে পারেন কিভাবে ক্যালিফোর্নিয়ার হাউজিং ডেটা সেটকে ট্রেনিং এবং ভ্যালিডেশন সেটে বিভক্ত করার আগে র্যান্ডমাইজ করতে ব্যর্থতার ফলে একটি উচ্চারিত ডেটা তির্যক হয়েছে। চিত্র 1 সম্পূর্ণ ডেটা সেট থেকে আঁকা ডেটার একটি উপসেট কল্পনা করে যা একচেটিয়াভাবে ক্যালিফোর্নিয়ার উত্তর-পশ্চিম অঞ্চলকে প্রতিনিধিত্ব করে।

একটি ক্যালিফোর্নিয়া রাজ্যের মানচিত্র ক্যালিফোর্নিয়া হাউজিং ডেটা সেটের ডেটা দিয়ে আচ্ছাদিত। প্রতিটি বিন্দু একটি হাউজিং ব্লক প্রতিনিধিত্ব করে। বিন্দুগুলি উত্তর-পশ্চিম ক্যালিফোর্নিয়ায় গুচ্ছবদ্ধ, দক্ষিণ ক্যালিফোর্নিয়ায় কোনও বিন্দু নেই, তথ্যের ভৌগলিক তির্যক চিত্রিত করে

চিত্র 1. ক্যালিফোর্নিয়া রাজ্যের মানচিত্র ক্যালিফোর্নিয়া হাউজিং ডেটা সেটের ডেটা দিয়ে আচ্ছাদিত। প্রতিটি বিন্দু একটি হাউজিং ব্লককে প্রতিনিধিত্ব করে, যেখানে নীল থেকে লাল রঙের রং যথাক্রমে নিম্ন থেকে উচ্চ পর্যন্ত মধ্যবর্তী বাড়ির দামের সাথে সম্পর্কিত।

যদি এই অপ্রতিনিধিত্বহীন নমুনাটি রাজ্যব্যাপী ক্যালিফোর্নিয়ার আবাসন মূল্যের পূর্বাভাস দেওয়ার জন্য একটি মডেলকে প্রশিক্ষণের জন্য ব্যবহার করা হয়, তবে ক্যালিফোর্নিয়ার দক্ষিণ অংশ থেকে আবাসন ডেটার অভাব সমস্যাযুক্ত হবে। মডেলটিতে এনকোড করা ভৌগলিক পক্ষপাত অপ্রস্তুত সম্প্রদায়ের বাড়ির ক্রেতাদের উপর বিরূপ প্রভাব ফেলতে পারে।