क्लासिफ़िकेशन: सटीक

सटीक डेटा, कैटगरी तय करने वाले मॉडल का आकलन करने के लिए एक मेट्रिक है. अनौपचारिक तौर पर, सटीक जानकारी हमारे अनुमानों के सटीक होने का हिस्सा है. औपचारिक रूप से, सटीक जानकारी नीचे दी गई है:

$$\text{Accuracy} = \frac{\text{Number of correct predictions}}{\text{Total number of predictions}}$$

बाइनरी क्लासिफ़िकेशन के लिए, पॉज़िटिव और नेगेटिव, दोनों के आकलन को इस तरह निकाला जा सकता है:

$$\text{Accuracy} = \frac{TP+TN}{TP+TN+FP+FN}$$

जहां TP = True पॉजिटिव, TN = ट्रू नेगेटिव, FP = फ़ॉल पॉज़िटिव, और FN = फ़ॉल्स नेगेटिव.

चलिए, नीचे दिए गए मॉडल के लिए, सटीक जानकारी का हिसाब लगाने की कोशिश करते हैं. ये मॉडल, 100 ट्यूमर को नुकसान पहुंचाने वाले (पॉज़िटिव क्लास) या बेनिन (नेगेटिव क्लास) की कैटगरी में रखते हैं:

ट्रू पॉज़िटिव (टीपी):
  • रिएलिटी: नुकसान पहुंचाने वाली
  • ML मॉडल का अनुमान: नुकसान पहुंचाने वाला
  • टीपी के नतीजों की संख्या: 1
गलत पॉज़िटिव (एफ़पी):
  • रिएलिटी: बेनिन
  • ML मॉडल का अनुमान: नुकसान पहुंचाने वाला
  • FP नतीजों की संख्या: 1
गलत नेगेटिव (FN):
  • रिएलिटी: नुकसान पहुंचाने वाली
  • ML मॉडल का अनुमान: बेनेम
  • एफ़एन नतीजों की संख्या: 8
ट्रू नेगेटिव (TN):
  • रिएलिटी: बेनिन
  • ML मॉडल का अनुमान: बेनेम
  • TN नतीजों की संख्या: 90
$$\text{Accuracy} = \frac{TP+TN}{TP+TN+FP+FN} = \frac{1+90}{1+90+1+8} = 0.91$$

सटीक होने का आंकड़ा 0.91 या 91% (कुल 100 उदाहरणों में से 91 सही अनुमान) होता है. इसका मतलब है कि ट्यूमर का हमारा टियरियर नुकसान पहुंचाने वालों की पहचान करने का शानदार काम कर रहा है, है न?

दरअसल, हमारे मॉडल की परफ़ॉर्मेंस के बारे में ज़्यादा अच्छे से जानने के लिए, हम सकारात्मक और नकारात्मक चीज़ों का बारीकी से विश्लेषण करते हैं.

ट्यूमर के 100 उदाहरणों में से, 91 (90 TN और 1 FP) और 9 नुकसान पहुंचाने वाले (1 TP और 8 FN) हैं.

91 मामूली ट्यूमर में, मॉडल में 90 रोगियों को सही तरीके से पहचाना गया है. यह अच्छा है. हालांकि, 9 नुकसान पहुंचाने वाली ट्यूमर से, मॉडल को सिर्फ़ एक की पहचान, नुकसान पहुंचाने वाले के तौर पर हुई है—यह एक बहुत खराब नतीजा है, क्योंकि नौ नुकसानों में से आठ का पता नहीं लगाया जा सका!

हो सकता है कि पहली नज़र में 91% सही रेटिंग अच्छी लग जाए, लेकिन ट्यूमर-क्लासिफ़ायर का एक और मॉडल हमेशा अच्छा होता है जो हमारे उदाहरणों में सही (91/100 सही अनुमान) सटीक होगा. दूसरे शब्दों में, हमारा मॉडल उससे बेहतर नहीं है जिसमें घातक ट्यूमर को ट्यूमर से होने वाले मामूली बदलावों में अंतर करने की अनुमानित क्षमता नहीं है.

जब आप सही तरीके से काम नहीं करते, तो सटीक और सटीक जानकारी देने वाला कोई एक टैग काम नहीं करता. ऐसे में, इस तरह के क्लास-असंतुलित डेटा सेट का इस्तेमाल किया जा सकता है. इस तरह के नतीजों में, पॉज़िटिव और नेगेटिव लेबल की संख्या में काफ़ी अंतर होता है.

अगले सेक्शन में, हम असमानता से जुड़ी समस्याओं का मूल्यांकन करने के लिए दो बेहतर मेट्रिक देखें: सटीक और याद रखना.