ধরা যাক আপনার কাছে স্প্যাম-ইমেল সনাক্তকরণের জন্য একটি লজিস্টিক রিগ্রেশন মডেল রয়েছে যা 0 এবং 1 এর মধ্যে একটি মান ভবিষ্যদ্বাণী করে, একটি প্রদত্ত ইমেল স্প্যাম হওয়ার সম্ভাবনাকে প্রতিনিধিত্ব করে৷ 0.50 এর ভবিষ্যদ্বাণী ইমেলটি স্প্যাম হওয়ার 50% সম্ভাবনাকে নির্দেশ করে, 0.75 এর পূর্বাভাস 75% সম্ভাবনাকে নির্দেশ করে যে ইমেলটি স্প্যাম, ইত্যাদি।
আপনি একটি পৃথক মেল ফোল্ডারে স্প্যাম ফিল্টার করতে একটি ইমেল অ্যাপ্লিকেশনে এই মডেলটি স্থাপন করতে চান৷ কিন্তু এটি করার জন্য, আপনাকে মডেলের কাঁচা সংখ্যাসূচক আউটপুট (যেমন, 0.75
) দুটি বিভাগের একটিতে রূপান্তর করতে হবে: "স্প্যাম" বা "স্প্যাম নয়।"
এই রূপান্তরটি করতে, আপনি একটি থ্রেশহোল্ড সম্ভাব্যতা বেছে নিন, যাকে শ্রেণীবিভাগ থ্রেশহোল্ড বলা হয়। থ্রেশহোল্ড মানের উপরে সম্ভাব্যতার উদাহরণগুলি তারপরে পজিটিভ ক্লাসে বরাদ্দ করা হয়, যে ক্লাসের জন্য আপনি পরীক্ষা করছেন (এখানে, spam
)। কম সম্ভাবনা সহ উদাহরণগুলি নেতিবাচক শ্রেণিতে বরাদ্দ করা হয়, বিকল্প শ্রেণি (এখানে, not spam
)।
শ্রেণীবিন্যাস থ্রেশহোল্ড সম্পর্কে আরো বিস্তারিত জানার জন্য এখানে ক্লিক করুন
আপনি হয়তো ভাবছেন: যদি ভবিষ্যদ্বাণী করা স্কোরটি শ্রেণীবিন্যাস থ্রেশহোল্ডের সমান হয় (উদাহরণস্বরূপ, 0.5 এর একটি স্কোর যেখানে শ্রেণীবিভাগের প্রান্তিকটিও 0.5)? এই ক্ষেত্রে হ্যান্ডলিং শ্রেণীবিভাগ মডেলের জন্য নির্বাচিত বিশেষ বাস্তবায়নের উপর নির্ভর করে। স্কোর এবং থ্রেশহোল্ড সমান হলে কেরাস লাইব্রেরি নেতিবাচক শ্রেণির পূর্বাভাস দেয়, তবে অন্যান্য সরঞ্জাম/ফ্রেমওয়ার্ক এই ক্ষেত্রে ভিন্নভাবে পরিচালনা করতে পারে।
ধরুন মডেলটি একটি ইমেল 0.99 হিসাবে স্কোর করেছে, ভবিষ্যদ্বাণী করে যে ইমেলের স্প্যাম হওয়ার সম্ভাবনা 99% এবং অন্য একটি ইমেল 0.51 হিসাবে ভবিষ্যদ্বাণী করে যে এটির স্প্যাম হওয়ার সম্ভাবনা 51% রয়েছে৷ আপনি যদি শ্রেণীবিন্যাস থ্রেশহোল্ড 0.5 সেট করেন, মডেলটি উভয় ইমেলকে স্প্যাম হিসাবে শ্রেণীবদ্ধ করবে। আপনি যদি থ্রেশহোল্ড 0.95 এ সেট করেন, শুধুমাত্র ইমেল স্কোরিং 0.99 স্প্যাম হিসাবে শ্রেণীবদ্ধ করা হবে।
যদিও 0.5 একটি স্বজ্ঞাত থ্রেশহোল্ডের মতো মনে হতে পারে, এটি একটি ভাল ধারণা নয় যদি এক ধরনের ভুল শ্রেণিবিন্যাসের খরচ অন্যটির চেয়ে বেশি হয়, বা যদি ক্লাসগুলি ভারসাম্যহীন হয়। যদি শুধুমাত্র 0.01% ইমেল স্প্যাম হয়, অথবা যদি বৈধ ইমেলগুলিকে ভুল ফাইল করা স্প্যামকে ইনবক্সে পাঠানোর চেয়ে খারাপ হয়, মডেলটি অন্তত 50% স্প্যাম বলে মনে করে এমন কিছুকে লেবেল করা কারণ স্প্যাম অবাঞ্ছিত ফলাফল তৈরি করে৷
বিভ্রান্তি ম্যাট্রিক্স
সম্ভাব্যতা স্কোর বাস্তবতা বা স্থল সত্য নয়। একটি বাইনারি ক্লাসিফায়ার থেকে প্রতিটি আউটপুটের জন্য চারটি সম্ভাব্য ফলাফল রয়েছে। স্প্যাম ক্লাসিফায়ার উদাহরণের জন্য, আপনি যদি গ্রাউন্ড ট্রুথকে কলাম এবং মডেলের ভবিষ্যদ্বাণীটিকে সারি হিসাবে রাখেন, তাহলে নিম্নলিখিত টেবিলটি, যাকে কনফিউশন ম্যাট্রিক্স বলা হয়, ফলাফলটি হল:
প্রকৃত ইতিবাচক | প্রকৃত নেতিবাচক | |
---|---|---|
ইতিবাচক ভবিষ্যদ্বাণী | সত্য পজিটিভ (TP) : একটি স্প্যাম ইমেল সঠিকভাবে স্প্যাম ইমেল হিসাবে শ্রেণীবদ্ধ। এই স্প্যাম বার্তা স্বয়ংক্রিয়ভাবে স্প্যাম ফোল্ডারে পাঠানো হয়. | ফলস পজিটিভ (FP) : একটি স্প্যাম নয় এমন ইমেল স্প্যাম হিসাবে ভুল শ্রেণিবদ্ধ করা হয়েছে। এগুলি বৈধ ইমেল যা স্প্যাম ফোল্ডারে চলে যায়৷ |
পূর্বাভাস নেতিবাচক | মিথ্যা নেতিবাচক (FN) : একটি স্প্যাম ইমেল স্প্যাম নয় বলে ভুল শ্রেণিবদ্ধ করা হয়েছে। এগুলি হল স্প্যাম ইমেল যা স্প্যাম ফিল্টার দ্বারা ধরা পড়ে না এবং ইনবক্সে প্রবেশ করে৷ | সত্য নেতিবাচক (TN) : একটি নট-স্প্যাম ইমেল সঠিকভাবে নট-স্প্যাম হিসাবে শ্রেণীবদ্ধ। এগুলি হল বৈধ ইমেল যা সরাসরি ইনবক্সে পাঠানো হয়৷ |
লক্ষ্য করুন যে প্রতিটি সারিতে মোট সমস্ত ভবিষ্যদ্বাণীকৃত ইতিবাচক (TP + FP) এবং সমস্ত পূর্বাভাসিত নেতিবাচক (FN + TN) দেয়, বৈধতা নির্বিশেষে। প্রতিটি কলামের মোট, ইতিমধ্যে, মডেলের শ্রেণীবিভাগ নির্বিশেষে সমস্ত বাস্তব ইতিবাচক (TP + FN) এবং সমস্ত বাস্তব ঋণাত্মক (FP + TN) দেয়।
যখন প্রকৃত ইতিবাচকের মোট প্রকৃত নেতিবাচকের মোটের কাছাকাছি না হয়, তখন ডেটাসেটটি ভারসাম্যহীন হয়। একটি ভারসাম্যহীন ডেটাসেটের একটি উদাহরণ হতে পারে মেঘের হাজার হাজার ফটোর একটি সেট, যেখানে আপনি যে বিরল ক্লাউড টাইপের বিষয়ে আগ্রহী, বলুন, ভলুটাস ক্লাউড, শুধুমাত্র কয়েকবার দেখা যায়।
সত্য এবং মিথ্যা ইতিবাচক এবং নেতিবাচকের উপর থ্রেশহোল্ডের প্রভাব
বিভিন্ন থ্রেশহোল্ড সাধারণত সত্য এবং মিথ্যা ইতিবাচক এবং সত্য এবং মিথ্যা নেতিবাচক বিভিন্ন সংখ্যার ফলাফল। নিম্নলিখিত ভিডিওটি ব্যাখ্যা করে যে কেন এমন হয়৷
থ্রেশহোল্ড নিজেই পরিবর্তন করার চেষ্টা করুন.
এই উইজেটে তিনটি খেলনা ডেটাসেট রয়েছে:
- বিচ্ছিন্ন , যেখানে ইতিবাচক উদাহরণ এবং নেতিবাচক উদাহরণগুলি সাধারণত ভালভাবে আলাদা করা হয়, বেশিরভাগ ইতিবাচক উদাহরণের সাথে নেতিবাচক উদাহরণের চেয়ে বেশি স্কোর রয়েছে।
- আলাদা করা হয়নি , যেখানে অনেক ইতিবাচক উদাহরণের নেতিবাচক উদাহরণের চেয়ে কম স্কোর রয়েছে এবং অনেক নেতিবাচক উদাহরণের ইতিবাচক উদাহরণের চেয়ে বেশি স্কোর রয়েছে।
- ভারসাম্যহীন , ইতিবাচক শ্রেণীর মাত্র কয়েকটি উদাহরণ রয়েছে।