থ্রেশহোল্ড এবং বিভ্রান্তি ম্যাট্রিক্স

ধরা যাক আপনার কাছে স্প্যাম-ইমেল সনাক্তকরণের জন্য একটি লজিস্টিক রিগ্রেশন মডেল রয়েছে যা 0 এবং 1 এর মধ্যে একটি মান ভবিষ্যদ্বাণী করে, একটি প্রদত্ত ইমেল স্প্যাম হওয়ার সম্ভাবনাকে প্রতিনিধিত্ব করে৷ 0.50 এর ভবিষ্যদ্বাণী ইমেলটি স্প্যাম হওয়ার 50% সম্ভাবনাকে নির্দেশ করে, 0.75 এর পূর্বাভাস 75% সম্ভাবনাকে নির্দেশ করে যে ইমেলটি স্প্যাম, ইত্যাদি।

আপনি একটি পৃথক মেল ফোল্ডারে স্প্যাম ফিল্টার করতে একটি ইমেল অ্যাপ্লিকেশনে এই মডেলটি স্থাপন করতে চান৷ কিন্তু এটি করার জন্য, আপনাকে মডেলের কাঁচা সংখ্যাসূচক আউটপুট (যেমন, 0.75 ) দুটি বিভাগের একটিতে রূপান্তর করতে হবে: "স্প্যাম" বা "স্প্যাম নয়।"

এই রূপান্তরটি করতে, আপনি একটি থ্রেশহোল্ড সম্ভাব্যতা বেছে নিন, যাকে শ্রেণীবিভাগ থ্রেশহোল্ড বলা হয়। থ্রেশহোল্ড মানের উপরে সম্ভাব্যতার উদাহরণগুলি তারপরে পজিটিভ ক্লাসে বরাদ্দ করা হয়, যে ক্লাসের জন্য আপনি পরীক্ষা করছেন (এখানে, spam )। কম সম্ভাবনা সহ উদাহরণগুলি নেতিবাচক শ্রেণিতে বরাদ্দ করা হয়, বিকল্প শ্রেণি (এখানে, not spam )।

শ্রেণীবিন্যাস থ্রেশহোল্ড সম্পর্কে আরো বিস্তারিত জানার জন্য এখানে ক্লিক করুন

আপনি হয়তো ভাবছেন: যদি ভবিষ্যদ্বাণী করা স্কোরটি শ্রেণীবিন্যাস থ্রেশহোল্ডের সমান হয় (উদাহরণস্বরূপ, 0.5 এর একটি স্কোর যেখানে শ্রেণীবিভাগের প্রান্তিকটিও 0.5)? এই ক্ষেত্রে হ্যান্ডলিং শ্রেণীবিভাগ মডেলের জন্য নির্বাচিত বিশেষ বাস্তবায়নের উপর নির্ভর করে। স্কোর এবং থ্রেশহোল্ড সমান হলে কেরাস লাইব্রেরি নেতিবাচক শ্রেণির পূর্বাভাস দেয়, তবে অন্যান্য সরঞ্জাম/ফ্রেমওয়ার্ক এই ক্ষেত্রে ভিন্নভাবে পরিচালনা করতে পারে।

ধরুন মডেলটি একটি ইমেলকে 0.99 হিসাবে স্কোর করেছে, ভবিষ্যদ্বাণী করে যে ইমেলের স্প্যাম হওয়ার সম্ভাবনা 99% এবং অন্য একটি ইমেল 0.51 হিসাবে অনুমান করে যে এটির স্প্যাম হওয়ার সম্ভাবনা 51% আছে৷ আপনি যদি শ্রেণীবিন্যাস থ্রেশহোল্ড 0.5 সেট করেন, মডেলটি উভয় ইমেলকে স্প্যাম হিসাবে শ্রেণীবদ্ধ করবে। আপনি যদি থ্রেশহোল্ড 0.95 এ সেট করেন, শুধুমাত্র ইমেল স্কোরিং 0.99 স্প্যাম হিসাবে শ্রেণীবদ্ধ করা হবে।

যদিও 0.5 একটি স্বজ্ঞাত থ্রেশহোল্ডের মতো মনে হতে পারে, এটি একটি ভাল ধারণা নয় যদি এক ধরনের ভুল শ্রেণিবিন্যাসের খরচ অন্যটির চেয়ে বেশি হয়, বা যদি ক্লাসগুলি ভারসাম্যহীন হয়। যদি শুধুমাত্র 0.01% ইমেল স্প্যাম হয়, অথবা যদি বৈধ ইমেলগুলিকে ভুল ফাইল করা স্প্যামকে ইনবক্সে পাঠানোর চেয়ে খারাপ হয়, মডেলটি অন্তত 50% স্প্যাম বলে মনে করে এমন কিছুকে লেবেল করা কারণ স্প্যাম অবাঞ্ছিত ফলাফল তৈরি করে৷

বিভ্রান্তি ম্যাট্রিক্স

সম্ভাব্যতা স্কোর বাস্তবতা বা স্থল সত্য নয়। একটি বাইনারি ক্লাসিফায়ার থেকে প্রতিটি আউটপুটের জন্য চারটি সম্ভাব্য ফলাফল রয়েছে। স্প্যাম ক্লাসিফায়ার উদাহরণের জন্য, আপনি যদি গ্রাউন্ড ট্রুথকে কলাম এবং মডেলের ভবিষ্যদ্বাণীটিকে সারি হিসাবে রাখেন, তাহলে নিম্নলিখিত টেবিলটি, যাকে কনফিউশন ম্যাট্রিক্স বলা হয়, ফলাফলটি হল:

প্রকৃত ইতিবাচক প্রকৃত নেতিবাচক
ইতিবাচক ভবিষ্যদ্বাণী সত্য পজিটিভ (TP) : একটি স্প্যাম ইমেল সঠিকভাবে স্প্যাম ইমেল হিসাবে শ্রেণীবদ্ধ। এই স্প্যাম বার্তা স্বয়ংক্রিয়ভাবে স্প্যাম ফোল্ডারে পাঠানো হয়. ফলস পজিটিভ (FP) : একটি স্প্যাম নয় এমন ইমেল স্প্যাম হিসাবে ভুল শ্রেণিবদ্ধ করা হয়েছে। এগুলি বৈধ ইমেল যা স্প্যাম ফোল্ডারে চলে যায়৷
পূর্বাভাস নেতিবাচক মিথ্যা নেতিবাচক (FN) : একটি স্প্যাম ইমেল স্প্যাম নয় বলে ভুল শ্রেণিবদ্ধ করা হয়েছে। এগুলি হল স্প্যাম ইমেল যা স্প্যাম ফিল্টার দ্বারা ধরা পড়ে না এবং ইনবক্সে প্রবেশ করে৷ সত্য নেতিবাচক (TN) : একটি নট-স্প্যাম ইমেল সঠিকভাবে নট-স্প্যাম হিসাবে শ্রেণীবদ্ধ। এগুলি হল বৈধ ইমেল যা সরাসরি ইনবক্সে পাঠানো হয়৷

লক্ষ্য করুন যে প্রতিটি সারিতে মোট সমস্ত ভবিষ্যদ্বাণীকৃত ইতিবাচক (TP + FP) এবং সমস্ত পূর্বাভাসিত নেতিবাচক (FN + TN) দেয়, বৈধতা নির্বিশেষে। প্রতিটি কলামের মোট, ইতিমধ্যে, মডেলের শ্রেণীবিভাগ নির্বিশেষে সমস্ত বাস্তব ইতিবাচক (TP + FN) এবং সমস্ত বাস্তব ঋণাত্মক (FP + TN) দেয়।

যখন প্রকৃত ইতিবাচকের মোট প্রকৃত নেতিবাচকের মোটের কাছাকাছি না হয়, তখন ডেটাসেটটি ভারসাম্যহীন হয়। একটি ভারসাম্যহীন ডেটাসেটের একটি উদাহরণ হতে পারে মেঘের হাজার হাজার ফটোর একটি সেট, যেখানে আপনি যে বিরল ক্লাউড টাইপের বিষয়ে আগ্রহী, বলুন, ভলুটাস ক্লাউড, শুধুমাত্র কয়েকবার দেখা যায়।

সত্য এবং মিথ্যা ইতিবাচক এবং নেতিবাচকের উপর থ্রেশহোল্ডের প্রভাব

বিভিন্ন থ্রেশহোল্ড সাধারণত সত্য এবং মিথ্যা ইতিবাচক এবং সত্য এবং মিথ্যা নেতিবাচক বিভিন্ন সংখ্যার ফলাফল। নিম্নলিখিত ভিডিওটি ব্যাখ্যা করে যে কেন এমন হয়৷

থ্রেশহোল্ড নিজেই পরিবর্তন করার চেষ্টা করুন.

এই উইজেটে তিনটি খেলনা ডেটাসেট রয়েছে:

  • বিচ্ছিন্ন , যেখানে ইতিবাচক উদাহরণ এবং নেতিবাচক উদাহরণগুলি সাধারণত ভালভাবে আলাদা করা হয়, বেশিরভাগ ইতিবাচক উদাহরণের সাথে নেতিবাচক উদাহরণের চেয়ে বেশি স্কোর রয়েছে।
  • আলাদা করা হয়নি , যেখানে অনেক ইতিবাচক উদাহরণের নেতিবাচক উদাহরণের চেয়ে কম স্কোর রয়েছে এবং অনেক নেতিবাচক উদাহরণের ইতিবাচক উদাহরণের চেয়ে বেশি স্কোর রয়েছে।
  • ভারসাম্যহীন , ইতিবাচক শ্রেণীর মাত্র কয়েকটি উদাহরণ রয়েছে।

আপনার উপলব্ধি পরীক্ষা করুন

1. একটি ফিশিং বা ম্যালওয়্যার শ্রেণীবিভাগের মডেল কল্পনা করুন যেখানে ফিশিং এবং ম্যালওয়্যার ওয়েবসাইটগুলি 1 (সত্য) লেবেলযুক্ত শ্রেণিতে এবং ক্ষতিহীন ওয়েবসাইটগুলি 0 (মিথ্যা) লেবেলযুক্ত শ্রেণিতে রয়েছে৷ এই মডেলটি ভুলভাবে একটি বৈধ ওয়েবসাইটকে ম্যালওয়্যার হিসাবে শ্রেণীবদ্ধ করে। এটা কি বলা হয়?
একটি মিথ্যা ইতিবাচক
একটি নেতিবাচক উদাহরণ (বৈধ সাইট) ভুলভাবে একটি ইতিবাচক উদাহরণ (ম্যালওয়্যার সাইট) হিসাবে শ্রেণীবদ্ধ করা হয়েছে৷
একটি সত্য ইতিবাচক
একটি সত্য ইতিবাচক একটি ম্যালওয়্যার সাইট সঠিকভাবে ম্যালওয়্যার হিসাবে শ্রেণীবদ্ধ করা হবে.
একটি মিথ্যা নেতিবাচক
একটি মিথ্যা নেতিবাচক একটি ম্যালওয়্যার সাইট ভুলভাবে একটি বৈধ সাইট হিসাবে শ্রেণীবদ্ধ করা হবে৷
একটি সত্য নেতিবাচক
একটি সত্য নেতিবাচক একটি বৈধ সাইট হবে সঠিকভাবে একটি বৈধ সাইট হিসাবে শ্রেণীবদ্ধ.
2. সাধারণভাবে, শ্রেণীবিভাগের থ্রেশহোল্ড বাড়লে মিথ্যা ধনাত্মক সংখ্যার কী হবে? সত্য ইতিবাচক সম্পর্কে কি? উপরের স্লাইডার দিয়ে পরীক্ষা করুন।
সত্য এবং মিথ্যা উভয় ইতিবাচক হ্রাস.
থ্রেশহোল্ড বাড়ার সাথে সাথে, মডেলটি সম্ভবত সত্য এবং মিথ্যা উভয় সামগ্রিকভাবে কম ইতিবাচক ভবিষ্যদ্বাণী করবে। .9999-এর থ্রেশহোল্ড সহ একটি স্প্যাম শ্রেণীবদ্ধকারী শুধুমাত্র একটি ইমেলকে স্প্যাম হিসাবে লেবেল করবে যদি এটি শ্রেণীবিভাগকে কমপক্ষে 99.99% সম্ভাবনা বলে মনে করে, যার মানে এটি একটি বৈধ ইমেলকে ভুল লেবেল করার সম্ভাবনা খুবই কম, কিন্তু প্রকৃত স্প্যাম ইমেল মিস করারও সম্ভাবনা রয়েছে৷
সত্য এবং মিথ্যা উভয় ইতিবাচক বৃদ্ধি.
উপরের স্লাইডারটি ব্যবহার করে, থ্রেশহোল্ডটি 0.1 এ সেট করার চেষ্টা করুন, তারপরে এটিকে 0.9 এ টেনে আনুন। মিথ্যা ইতিবাচক এবং সত্য ধনাত্মক সংখ্যার কি হবে?
সত্য ইতিবাচক বৃদ্ধি. মিথ্যা ইতিবাচক হ্রাস.
উপরের স্লাইডারটি ব্যবহার করে, থ্রেশহোল্ডটি 0.1 এ সেট করার চেষ্টা করুন, তারপরে এটিকে 0.9 এ টেনে আনুন। মিথ্যা ইতিবাচক এবং সত্য ধনাত্মক সংখ্যার কি হবে?
3. সাধারণভাবে, শ্রেণীবিন্যাস থ্রেশহোল্ড বাড়লে মিথ্যা নেতিবাচক সংখ্যার কী ঘটে? সত্য নেতিবাচক সম্পর্কে কি? উপরের স্লাইডার দিয়ে পরীক্ষা করুন।
সত্য এবং মিথ্যা উভয় নেতিবাচক বৃদ্ধি।
থ্রেশহোল্ড বাড়ার সাথে সাথে, মডেলটি সম্ভবত সত্য এবং মিথ্যা উভয় সামগ্রিকভাবে আরও নেতিবাচক ভবিষ্যদ্বাণী করবে। একটি খুব উচ্চ থ্রেশহোল্ডে, প্রায় সমস্ত ইমেল, স্প্যাম এবং নট-স্প্যাম উভয়ই নট-স্প্যাম হিসাবে শ্রেণীবদ্ধ করা হবে৷
সত্য এবং মিথ্যা উভয় নেতিবাচক হ্রাস.
উপরের স্লাইডারটি ব্যবহার করে, থ্রেশহোল্ডটি 0.1 এ সেট করার চেষ্টা করুন, তারপরে এটিকে 0.9 এ টেনে আনুন। মিথ্যা নেতিবাচক এবং সত্য নেতিবাচক সংখ্যার কি হবে?
সত্য নেতিবাচক বৃদ্ধি. মিথ্যা নেতিবাচক হ্রাস.
উপরের স্লাইডারটি ব্যবহার করে, থ্রেশহোল্ডটি 0.1 এ সেট করার চেষ্টা করুন, তারপরে এটিকে 0.9 এ টেনে আনুন। মিথ্যা নেতিবাচক এবং সত্য নেতিবাচক সংখ্যার কি হবে?