সত্য এবং মিথ্যা ইতিবাচক এবং নেতিবাচক মডেলগুলি মূল্যায়নের জন্য বেশ কয়েকটি দরকারী মেট্রিক্স গণনা করতে ব্যবহৃত হয়। কোন মূল্যায়ন মেট্রিকগুলি সবচেয়ে অর্থপূর্ণ তা নির্ভর করে নির্দিষ্ট মডেল এবং নির্দিষ্ট কাজ, বিভিন্ন ভুল শ্রেণীবিভাগের খরচ এবং ডেটাসেটটি ভারসাম্যপূর্ণ বা ভারসাম্যহীন কিনা।
এই বিভাগের সমস্ত মেট্রিক্স একটি নির্দিষ্ট থ্রেশহোল্ডে গণনা করা হয় এবং থ্রেশহোল্ড পরিবর্তন হলে পরিবর্তন হয়। খুব প্রায়ই, ব্যবহারকারী এই মেট্রিকগুলির মধ্যে একটিকে অপ্টিমাইজ করার জন্য থ্রেশহোল্ড টিউন করে।
নির্ভুলতা
নির্ভুলতা হল সমস্ত শ্রেণীবিভাগের অনুপাত যা সঠিক ছিল, তা ইতিবাচক বা নেতিবাচক। এটি গাণিতিকভাবে সংজ্ঞায়িত করা হয়:
\[\text{Accuracy} = \frac{\text{correct classifications}}{\text{total classifications}} = \frac{TP+TN}{TP+TN+FP+FN}\]
স্প্যাম শ্রেণীবিভাগের উদাহরণে, নির্ভুলতা সঠিকভাবে শ্রেণীবদ্ধ করা সমস্ত ইমেলের ভগ্নাংশ পরিমাপ করে।
একটি নিখুঁত মডেলের শূন্য মিথ্যা ইতিবাচক এবং শূন্য মিথ্যা নেতিবাচক এবং তাই 1.0 বা 100% এর নির্ভুলতা থাকবে।
কারণ এটি কনফিউশন ম্যাট্রিক্স (TP, FP, TN, FN) থেকে চারটি ফলাফলকে অন্তর্ভুক্ত করে, একটি ভারসাম্যপূর্ণ ডেটাসেট দেওয়া হয়, উভয় শ্রেণিতে একই সংখ্যক উদাহরণ সহ, নির্ভুলতা মডেল মানের একটি মোটা দানাদার পরিমাপ হিসাবে কাজ করতে পারে। এই কারণে, এটি প্রায়শই জেনেরিক বা অনির্দিষ্ট মডেলগুলির জন্য জেনেরিক বা অনির্দিষ্ট কার্য সম্পাদনের জন্য ব্যবহৃত ডিফল্ট মূল্যায়ন মেট্রিক।
যাইহোক, যখন ডেটাসেটটি ভারসাম্যহীন হয়, বা যেখানে এক ধরণের ভুল (FN বা FP) অন্যটির চেয়ে বেশি ব্যয়বহুল, যা বেশিরভাগ বাস্তব-বিশ্বের অ্যাপ্লিকেশনের ক্ষেত্রে হয়, এর পরিবর্তে অন্য মেট্রিকগুলির একটির জন্য অপ্টিমাইজ করা ভাল।
ভারী ভারসাম্যহীন ডেটাসেটগুলির জন্য, যেখানে একটি শ্রেণী খুব কমই দেখা যায়, বলুন 1% সময়ের, একটি মডেল যেটি সময়ের 100% নেতিবাচক ভবিষ্যদ্বাণী করে তা অকেজো হওয়া সত্ত্বেও নির্ভুলতার উপর 99% স্কোর করবে।
প্রত্যাহার, বা সত্য ইতিবাচক হার
সত্যিকারের পজিটিভ রেট (টিপিআর) , বা সমস্ত প্রকৃত ইতিবাচকের অনুপাত যা সঠিকভাবে ধনাত্মক হিসাবে শ্রেণীবদ্ধ করা হয়েছিল, এটি প্রত্যাহার হিসাবেও পরিচিত।
রিকলকে গাণিতিকভাবে সংজ্ঞায়িত করা হয়:
\[\text{Recall (or TPR)} = \frac{\text{correctly classified actual positives}}{\text{all actual positives}} = \frac{TP}{TP+FN}\]
মিথ্যা নেতিবাচক হল প্রকৃত ইতিবাচক যা নেতিবাচক হিসাবে ভুল শ্রেণীবদ্ধ করা হয়েছিল, এই কারণেই তারা হরগুলিতে উপস্থিত হয়। স্প্যাম শ্রেণীবিভাগের উদাহরণে, রিকল স্প্যাম ইমেলের ভগ্নাংশ পরিমাপ করে যা সঠিকভাবে স্প্যাম হিসাবে শ্রেণীবদ্ধ করা হয়েছিল। এই কারণেই প্রত্যাহার করার আরেকটি নাম হল সনাক্তকরণের সম্ভাবনা : এটি "এই মডেলের দ্বারা স্প্যাম ইমেলের কোন ভগ্নাংশ সনাক্ত করা হয়েছে?" প্রশ্নের উত্তর দেয়।
একটি কাল্পনিক নিখুঁত মডেলের শূন্য মিথ্যা নেতিবাচক থাকবে এবং তাই 1.0 এর একটি প্রত্যাহার (টিপিআর), যা বলা যায়, 100% সনাক্তকরণ হার।
একটি ভারসাম্যহীন ডেটাসেটে যেখানে প্রকৃত ইতিবাচকের সংখ্যা খুবই, খুব কম, মোট 1-2টি উদাহরণ বলুন, মেট্রিক হিসাবে রিকল কম অর্থবহ এবং কম দরকারী।
মিথ্যা ইতিবাচক হার
মিথ্যা ইতিবাচক হার (FPR) হল সমস্ত প্রকৃত নেতিবাচকের অনুপাত যা ভুলভাবে ইতিবাচক হিসাবে শ্রেণীবদ্ধ করা হয়েছিল, যা মিথ্যা অ্যালার্মের সম্ভাবনা হিসাবেও পরিচিত। এটি গাণিতিকভাবে সংজ্ঞায়িত করা হয়:
\[\text{FPR} = \frac{\text{incorrectly classified actual negatives}} {\text{all actual negatives}} = \frac{FP}{FP+TN}\]
মিথ্যা ধনাত্মক হল প্রকৃত নেতিবাচক যেগুলিকে ভুল শ্রেণীবদ্ধ করা হয়েছিল, এই কারণেই তারা হরগুলিতে উপস্থিত হয়। স্প্যাম শ্রেণীবিভাগের উদাহরণে, FPR বৈধ ইমেলের ভগ্নাংশ পরিমাপ করে যেগুলিকে ভুলভাবে স্প্যাম হিসাবে শ্রেণীবদ্ধ করা হয়েছে, বা মডেলের মিথ্যা অ্যালার্মের হার।
একটি নিখুঁত মডেলের শূন্য মিথ্যা পজিটিভ থাকবে এবং সেইজন্য 0.0 এর FPR হবে, যা বলতে হবে, একটি 0% মিথ্যা অ্যালার্ম রেট।
একটি ভারসাম্যহীন ডেটাসেটে যেখানে প্রকৃত নেতিবাচকের সংখ্যা খুব, খুব কম, মোট 1-2টি উদাহরণ বলুন, FPR একটি মেট্রিক হিসাবে কম অর্থবহ এবং কম দরকারী।
যথার্থতা
যথার্থতা হল সমস্ত মডেলের ইতিবাচক শ্রেণীবিভাগের অনুপাত যা প্রকৃতপক্ষে ইতিবাচক। এটি গাণিতিকভাবে সংজ্ঞায়িত করা হয়:
\[\text{Precision} = \frac{\text{correctly classified actual positives}} {\text{everything classified as positive}} = \frac{TP}{TP+FP}\]
স্প্যাম শ্রেণীবিভাগের উদাহরণে, নির্ভুলতা স্প্যাম হিসাবে শ্রেণীবদ্ধ ইমেলের ভগ্নাংশ পরিমাপ করে যেগুলি আসলে স্প্যাম ছিল।
একটি অনুমানমূলক নিখুঁত মডেলের শূন্য মিথ্যা ইতিবাচক এবং তাই 1.0 এর নির্ভুলতা থাকবে।
একটি ভারসাম্যহীন ডেটাসেটে যেখানে প্রকৃত ধনাত্মক সংখ্যা খুবই কম, মোট 1-2টি উদাহরণ বলুন, নির্ভুলতা একটি মেট্রিক হিসাবে কম অর্থবহ এবং কম দরকারী।
মিথ্যা ইতিবাচক হ্রাসের সাথে যথার্থতা উন্নত হয়, যখন মিথ্যা নেতিবাচক হ্রাস পায় তখন প্রত্যাহার উন্নত হয়। কিন্তু পূর্ববর্তী বিভাগে দেখা গেছে, শ্রেণীবিন্যাস থ্রেশহোল্ড বাড়ানোর ফলে মিথ্যা ইতিবাচক সংখ্যা হ্রাস এবং মিথ্যা নেতিবাচক সংখ্যা বৃদ্ধির প্রবণতা রয়েছে, যখন প্রান্তিকতা হ্রাস করার বিপরীত প্রভাব রয়েছে। ফলস্বরূপ, নির্ভুলতা এবং প্রত্যাহার প্রায়শই একটি বিপরীত সম্পর্ক দেখায়, যেখানে তাদের একটির উন্নতি অন্যটিকে খারাপ করে।
এটি নিজে চেষ্টা করুন:
মেট্রিক্সে NaN বলতে কী বোঝায়?
0 দ্বারা ভাগ করার সময় NaN বা "কোনও সংখ্যা নয়" প্রদর্শিত হয়, যা এই মেট্রিকের যে কোনো একটির সাথে ঘটতে পারে। যখন TP এবং FP উভয়ই 0 হয়, উদাহরণস্বরূপ, নির্ভুলতার সূত্রটির হর-এ 0 থাকে, যার ফলে NaN হয়। যদিও কিছু ক্ষেত্রে NaN নিখুঁত কর্মক্ষমতা নির্দেশ করতে পারে এবং 1.0 এর স্কোর দ্বারা প্রতিস্থাপিত হতে পারে, এটি এমন একটি মডেল থেকেও আসতে পারে যা কার্যত অকেজো। একটি মডেল যা কখনই ইতিবাচক ভবিষ্যদ্বাণী করে না, উদাহরণস্বরূপ, 0 টিপি এবং 0 এফপি থাকবে এবং এইভাবে এর নির্ভুলতার একটি গণনার ফলে NaN হবে।
মেট্রিক এবং ট্রেডঅফের পছন্দ
মডেলটি মূল্যায়ন করার সময় এবং একটি থ্রেশহোল্ড বেছে নেওয়ার সময় আপনি যে মেট্রিকগুলিকে অগ্রাধিকার দিতে চান তা নির্দিষ্ট সমস্যার খরচ, সুবিধা এবং ঝুঁকির উপর নির্ভর করে। স্প্যাম শ্রেণীবিভাগের উদাহরণে, এটি প্রায়শই স্প্যাম-লেবেলযুক্ত ইমেলগুলি প্রকৃতপক্ষে স্প্যাম কিনা তা নিশ্চিত করার চেষ্টা করে, কিছু ন্যূনতম নির্ভুলতার স্তরের উপরে, প্রত্যাহারকে অগ্রাধিকার দেওয়া, সমস্ত স্প্যাম ইমেলগুলিকে ধরা বা স্পষ্টতা প্রদান করা অর্থপূর্ণ।
মেট্রিক | নির্দেশনা |
---|---|
নির্ভুলতা | সুষম ডেটাসেটের জন্য মডেল প্রশিক্ষণের অগ্রগতি/কভারজেন্সের মোটামুটি সূচক হিসাবে ব্যবহার করুন। মডেল পারফরম্যান্সের জন্য, শুধুমাত্র অন্যান্য মেট্রিক্সের সাথে একত্রে ব্যবহার করুন। ভারসাম্যহীন ডেটাসেটের জন্য এড়িয়ে চলুন। অন্য মেট্রিক ব্যবহার বিবেচনা করুন. |
স্মরণ করুন (সত্য ইতিবাচক হার) | মিথ্যা নেতিবাচক মিথ্যা ইতিবাচক তুলনায় আরো ব্যয়বহুল যখন ব্যবহার করুন. |
মিথ্যা ইতিবাচক হার | মিথ্যা ইতিবাচক মিথ্যা নেতিবাচক তুলনায় আরো ব্যয়বহুল যখন ব্যবহার করুন. |
যথার্থতা | ইতিবাচক ভবিষ্যদ্বাণী সঠিক হওয়ার জন্য যখন এটি খুবই গুরুত্বপূর্ণ তখন ব্যবহার করুন। |
(ঐচ্ছিক, উন্নত) F1 স্কোর
F1 স্কোর হল সুরেলা গড় (এক ধরনের গড়) নির্ভুলতা এবং স্মরণ।
গাণিতিকভাবে, এটি দ্বারা দেওয়া হয়:
এই মেট্রিক নির্ভুলতা এবং স্মরণের গুরুত্বের ভারসাম্য বজায় রাখে এবং শ্রেণী-ভারসাম্যহীন ডেটাসেটের জন্য নির্ভুলতার চেয়ে পছন্দনীয়। যখন নির্ভুলতা এবং প্রত্যাহার উভয়ের নিখুঁত স্কোর 1.0 থাকে, তখন F1 এরও 1.0 এর নিখুঁত স্কোর থাকবে। আরও বিস্তৃতভাবে, যখন নির্ভুলতা এবং প্রত্যাহার মান কাছাকাছি হয়, তখন F1 তাদের মানের কাছাকাছি হবে। যখন নির্ভুলতা এবং প্রত্যাহার অনেক দূরে থাকে, তখন F1 যেটি খারাপ মেট্রিকের সাথে একই রকম হবে।