লিনিয়ার রিগ্রেশন মডিউলে উল্লিখিত হিসাবে, পূর্বাভাস বায়াস গণনা করা একটি দ্রুত পরীক্ষা যা মডেল বা প্রশিক্ষণ ডেটার সাথে সমস্যাগুলিকে প্রথম দিকে ফ্ল্যাগ করতে পারে।
ভবিষ্যদ্বাণী পক্ষপাত হল একটি মডেলের ভবিষ্যদ্বাণীর গড় এবং ডেটাতে গ্রাউন্ড-ট্রুথ লেবেলের গড় মধ্যে পার্থক্য। একটি ডেটাসেটে প্রশিক্ষিত একটি মডেল যেখানে 5% ইমেল স্প্যাম হয়, গড়ে ভবিষ্যদ্বাণী করা উচিত যে এটি শ্রেণীবদ্ধ করা ইমেলের 5% স্প্যাম। অন্য কথায়, গ্রাউন্ড-ট্রুথ ডেটাসেটে লেবেলের গড় 0.05, এবং মডেলের ভবিষ্যদ্বাণীগুলির গড়ও 0.05 হওয়া উচিত। যদি এটি হয়, মডেলের শূন্য পূর্বাভাস পক্ষপাত আছে। অবশ্যই, মডেলটিতে এখনও অন্যান্য সমস্যা থাকতে পারে।
যদি মডেলটি এর পরিবর্তে 50% সময় ভবিষ্যদ্বাণী করে যে একটি ইমেল স্প্যাম, তাহলে ট্রেনিং ডেটাসেটে, মডেলটি যে নতুন ডেটাসেটে প্রয়োগ করা হয়েছে বা মডেলটিতেই কিছু ভুল আছে৷ দুটি উপায়ের মধ্যে কোনো উল্লেখযোগ্য পার্থক্য নির্দেশ করে যে মডেলটির কিছু ভবিষ্যদ্বাণী পক্ষপাত রয়েছে।
ভবিষ্যদ্বাণী পক্ষপাতের কারণ হতে পারে:
- প্রশিক্ষণ সেটের জন্য পক্ষপাতমূলক নমুনা সহ ডেটাতে পক্ষপাত বা গোলমাল
- খুব শক্তিশালী নিয়মিতকরণ, যার অর্থ মডেলটি অতি সরলীকৃত ছিল এবং কিছু প্রয়োজনীয় জটিলতা হারিয়েছে
- মডেল প্রশিক্ষণ পাইপলাইনে বাগ
- মডেলকে দেওয়া বৈশিষ্ট্যের সেট টাস্কের জন্য অপর্যাপ্ত