सटीक डेटा, कैटगरी तय करने वाले मॉडल का आकलन करने के लिए एक मेट्रिक है. अनौपचारिक तौर पर, सटीक जानकारी हमारे अनुमानों के सटीक होने का हिस्सा है. औपचारिक रूप से, सटीक जानकारी नीचे दी गई है:
बाइनरी क्लासिफ़िकेशन के लिए, पॉज़िटिव और नेगेटिव, दोनों के आकलन को इस तरह निकाला जा सकता है:
जहां TP = True पॉजिटिव, TN = ट्रू नेगेटिव, FP = फ़ॉल पॉज़िटिव, और FN = फ़ॉल्स नेगेटिव.
चलिए, नीचे दिए गए मॉडल के लिए, सटीक जानकारी का हिसाब लगाने की कोशिश करते हैं. ये मॉडल, 100 ट्यूमर को नुकसान पहुंचाने वाले (पॉज़िटिव क्लास) या बेनिन (नेगेटिव क्लास) की कैटगरी में रखते हैं:
ट्रू पॉज़िटिव (टीपी):
|
गलत पॉज़िटिव (एफ़पी):
|
गलत नेगेटिव (FN):
|
ट्रू नेगेटिव (TN):
|
सटीक होने का आंकड़ा 0.91 या 91% (कुल 100 उदाहरणों में से 91 सही अनुमान) होता है. इसका मतलब है कि ट्यूमर का हमारा टियरियर नुकसान पहुंचाने वालों की पहचान करने का शानदार काम कर रहा है, है न?
दरअसल, हमारे मॉडल की परफ़ॉर्मेंस के बारे में ज़्यादा अच्छे से जानने के लिए, हम सकारात्मक और नकारात्मक चीज़ों का बारीकी से विश्लेषण करते हैं.
ट्यूमर के 100 उदाहरणों में से, 91 (90 TN और 1 FP) और 9 नुकसान पहुंचाने वाले (1 TP और 8 FN) हैं.
91 मामूली ट्यूमर में, मॉडल में 90 रोगियों को सही तरीके से पहचाना गया है. यह अच्छा है. हालांकि, 9 नुकसान पहुंचाने वाली ट्यूमर से, मॉडल को सिर्फ़ एक की पहचान, नुकसान पहुंचाने वाले के तौर पर हुई है—यह एक बहुत खराब नतीजा है, क्योंकि नौ नुकसानों में से आठ का पता नहीं लगाया जा सका!
हो सकता है कि पहली नज़र में 91% सही रेटिंग अच्छी लग जाए, लेकिन ट्यूमर-क्लासिफ़ायर का एक और मॉडल हमेशा अच्छा होता है जो हमारे उदाहरणों में सही (91/100 सही अनुमान) सटीक होगा. दूसरे शब्दों में, हमारा मॉडल उससे बेहतर नहीं है जिसमें घातक ट्यूमर को ट्यूमर से होने वाले मामूली बदलावों में अंतर करने की अनुमानित क्षमता नहीं है.
जब आप सही तरीके से काम नहीं करते, तो सटीक और सटीक जानकारी देने वाला कोई एक टैग काम नहीं करता. ऐसे में, इस तरह के क्लास-असंतुलित डेटा सेट का इस्तेमाल किया जा सकता है. इस तरह के नतीजों में, पॉज़िटिव और नेगेटिव लेबल की संख्या में काफ़ी अंतर होता है.
अगले सेक्शन में, हम असमानता से जुड़ी समस्याओं का मूल्यांकन करने के लिए दो बेहतर मेट्रिक देखें: सटीक और याद रखना.