আপনার মডেলে এটিকে কীভাবে উপস্থাপন করা যায় তা নির্ধারণ করতে আপনি যখন আপনার ডেটা অন্বেষণ করেন, তখন ন্যায্যতার বিষয়গুলিকে মাথায় রাখা এবং পক্ষপাতের সম্ভাব্য উত্সগুলির জন্য সক্রিয়ভাবে অডিট করা গুরুত্বপূর্ণ৷
পক্ষপাত কোথায় লুকিয়ে থাকতে পারে? আপনার ডেটা সেটের জন্য এখানে তিনটি লাল পতাকা রয়েছে।
অনুপস্থিত বৈশিষ্ট্য মান
যদি আপনার ডেটা সেটে এক বা একাধিক বৈশিষ্ট্য থাকে যেগুলিতে প্রচুর সংখ্যক উদাহরণের জন্য মান অনুপস্থিত থাকে, তবে এটি একটি সূচক হতে পারে যে আপনার ডেটা সেটের কিছু মূল বৈশিষ্ট্য কম-উপস্থাপিত।
উদাহরণস্বরূপ, নীচের সারণীটি ক্যালিফোর্নিয়া হাউজিং ডেটাসেটের বৈশিষ্ট্যগুলির একটি উপসেটের জন্য মূল পরিসংখ্যানগুলির একটি সারাংশ দেখায়, একটি পান্ডাস DataFrame
সংরক্ষিত এবং DataFrame.describe
মাধ্যমে তৈরি। মনে রাখবেন যে সমস্ত বৈশিষ্ট্যের count
17000, ইঙ্গিত করে যে কোনও অনুপস্থিত মান নেই:
দ্রাঘিমাংশ | অক্ষাংশ | মোট_রুম | জনসংখ্যা | পরিবারগুলি | মাঝারি_আয় | মধ্যমা_গৃহ_মূল্য | |
---|---|---|---|---|---|---|---|
গণনা | 17000.0 | 17000.0 | 17000.0 | 17000.0 | 17000.0 | 17000.0 | 17000.0 |
মানে | -119.6 | 35.6 | 2643.7 | 1429.6 | 501.2 | 3.9 | 207.3 |
std | 2.0 | 2.1 | 2179.9 | 1147.9 | 384.5 | 1.9 | 116.0 |
মিনিট | -124.3 | 32.5 | 2.0 | 3.0 | 1.0 | 0.5 | 15.0 |
২৫% | -121.8 | ৩৩.৯ | 1462.0 | 790.0 | 282.0 | 2.6 | 119.4 |
৫০% | -118.5 | 34.2 | 2127.0 | 1167.0 | 409.0 | 3.5 | 180.4 |
75% | -118.0 | 37.7 | 3151.2 | 1721.0 | ৬০৫.২ | 4.8 | 265.0 |
সর্বোচ্চ | -114.3 | 42.0 | 37937.0 | 35682.0 | ৬০৮২.০ | 15.0 | 500.0 |
এর পরিবর্তে ধরুন যে তিনটি বৈশিষ্ট্যের ( population
, households
এবং median_income
) শুধুমাত্র 3000
এর গণনা ছিল — অন্য কথায়, প্রতিটি বৈশিষ্ট্যের জন্য 14,000টি অনুপস্থিত মান ছিল:
দ্রাঘিমাংশ | অক্ষাংশ | মোট_রুম | জনসংখ্যা | পরিবারগুলি | মাঝারি_আয় | মধ্যমা_গৃহ_মূল্য | |
---|---|---|---|---|---|---|---|
গণনা | 17000.0 | 17000.0 | 17000.0 | 3000.0 | 3000.0 | 3000.0 | 17000.0 |
মানে | -119.6 | 35.6 | 2643.7 | 1429.6 | 501.2 | 3.9 | 207.3 |
std | 2.0 | 2.1 | 2179.9 | 1147.9 | 384.5 | 1.9 | 116.0 |
মিনিট | -124.3 | 32.5 | 2.0 | 3.0 | 1.0 | 0.5 | 15.0 |
২৫% | -121.8 | ৩৩.৯ | 1462.0 | 790.0 | 282.0 | 2.6 | 119.4 |
৫০% | -118.5 | 34.2 | 2127.0 | 1167.0 | 409.0 | 3.5 | 180.4 |
75% | -118.0 | 37.7 | 3151.2 | 1721.0 | ৬০৫.২ | 4.8 | 265.0 |
সর্বোচ্চ | -114.3 | 42.0 | 37937.0 | 35682.0 | ৬০৮২.০ | 15.0 | 500.0 |
এই 14,000টি অনুপস্থিত মানগুলি মধ্যমা বাড়ির দামের সাথে পরিবারের মধ্যম আয়কে সঠিকভাবে সম্পর্কযুক্ত করা আরও কঠিন করে তুলবে। এই ডেটাতে একটি মডেলকে প্রশিক্ষণ দেওয়ার আগে, এই অনুপস্থিত মানগুলির কারণ অনুসন্ধান করা বুদ্ধিমানের কাজ হবে যাতে নিশ্চিত করা যায় যে আয় এবং জনসংখ্যার ডেটা হারিয়ে যাওয়ার জন্য কোনও সুপ্ত পক্ষপাত নেই।
অপ্রত্যাশিত বৈশিষ্ট্য মান
ডেটা অন্বেষণ করার সময়, আপনার এমন উদাহরণগুলিও সন্ধান করা উচিত যাতে বৈশিষ্ট্যের মানগুলি রয়েছে যা বিশেষত চরিত্রহীন বা অস্বাভাবিক হিসাবে আলাদা। এই অপ্রত্যাশিত বৈশিষ্ট্যের মানগুলি ডেটা সংগ্রহের সময় ঘটে যাওয়া সমস্যাগুলি বা পক্ষপাতের পরিচয় দিতে পারে এমন অন্যান্য ত্রুটিগুলি নির্দেশ করতে পারে৷
উদাহরণস্বরূপ, ক্যালিফোর্নিয়া হাউজিং ডেটা সেট থেকে নিম্নলিখিত উদ্ধৃত উদাহরণগুলি দেখুন:
দ্রাঘিমাংশ | অক্ষাংশ | মোট_রুম | জনসংখ্যা | পরিবারগুলি | মাঝারি_আয় | মধ্যমা_গৃহ_মূল্য | |
---|---|---|---|---|---|---|---|
1 | -121.7 | 38.0 | 7105.0 | 3523.0 | 1088.0 | 5.0 | 0.2 |
2 | -122.4 | 37.8 | 2479.0 | 1816.0 | 496.0 | 3.1 | 0.3 |
3 | -122.0 | 37.0 | 2813.0 | 1337.0 | 477.0 | 3.7 | 0.3 |
4 | -103.5 | 43.8 | 2212.0 | 803.0 | 144.0 | 5.3 | 0.2 |
5 | -117.1 | 32.8 | 2963.0 | 1162.0 | 556.0 | 3.6 | 0.2 |
6 | -118.0 | ৩৩.৭ | ৩৩৯৬.০ | 1542.0 | 472.0 | 7.4 | 0.4 |
আপনি কোন অপ্রত্যাশিত বৈশিষ্ট্য মান চিহ্নিত করতে পারেন?
ডেটা স্কু
আপনার ডেটাতে যেকোন ধরণের তির্যক, যেখানে নির্দিষ্ট গোষ্ঠী বা বৈশিষ্ট্যগুলি তাদের বাস্তব-বিশ্বের প্রসারের তুলনায় কম বা বেশি-প্রতিনিধিত্বিত হতে পারে, আপনার মডেলে পক্ষপাতের পরিচয় দিতে পারে।
আপনি যদি ভ্যালিডেশন প্রোগ্রামিং ব্যায়াম সম্পন্ন করেন, তাহলে আপনি মনে করতে পারেন কিভাবে ক্যালিফোর্নিয়ার হাউজিং ডেটা সেটকে ট্রেনিং এবং ভ্যালিডেশন সেটে বিভক্ত করার আগে র্যান্ডমাইজ করতে ব্যর্থতার ফলে একটি উচ্চারিত ডেটা তির্যক হয়েছে। চিত্র 1 সম্পূর্ণ ডেটা সেট থেকে আঁকা ডেটার একটি উপসেট কল্পনা করে যা একচেটিয়াভাবে ক্যালিফোর্নিয়ার উত্তর-পশ্চিম অঞ্চলকে প্রতিনিধিত্ব করে।
চিত্র 1. ক্যালিফোর্নিয়া রাজ্যের মানচিত্র ক্যালিফোর্নিয়া হাউজিং ডেটা সেটের ডেটা দিয়ে আচ্ছাদিত। প্রতিটি বিন্দু একটি হাউজিং ব্লককে প্রতিনিধিত্ব করে, যেখানে নীল থেকে লাল রঙের রং যথাক্রমে নিম্ন থেকে উচ্চ পর্যন্ত মধ্যবর্তী বাড়ির দামের সাথে সম্পর্কিত।
যদি এই অপ্রতিনিধিত্বহীন নমুনাটি রাজ্যব্যাপী ক্যালিফোর্নিয়ার আবাসন মূল্যের পূর্বাভাস দেওয়ার জন্য একটি মডেলকে প্রশিক্ষণের জন্য ব্যবহার করা হয়, তবে ক্যালিফোর্নিয়ার দক্ষিণ অংশ থেকে আবাসন ডেটার অভাব সমস্যাযুক্ত হবে। মডেলটিতে এনকোড করা ভৌগলিক পক্ষপাত অপ্রস্তুত সম্প্রদায়ের বাড়ির ক্রেতাদের উপর বিরূপ প্রভাব ফেলতে পারে।