विश्लेषण ट्रैप

"सभी मॉडल गलत हैं, लेकिन कुछ उपयोगी हैं." — जॉर्ज बॉक्स, 1978

हालांकि, आंकड़ों की तकनीक असरदार होती है, लेकिन उसकी अपनी सीमाएं भी होती हैं. समझना इन सीमाओं की मदद से शोधकर्ता, किसी भी तरह की ग़लतफ़हमी और गलत दावों से बच सकते हैं. जैसे बीएफ़ स्किनर का यह कहना कि शेक्सपियर ने किसी एक ही शब्द का इस्तेमाल सिर्फ़ रैंडमनेस का अनुमान लगाया जाता है. (स्किनर की स्टडी के मुताबिक कम सुविधाओं वाला.1)

अनिश्चितता और गड़बड़ी के बार

अपने विश्लेषण में अनिश्चितता की जानकारी देना ज़रूरी है. यह भी उतना ही ज़रूरी है की मदद से, अन्य लोगों के विश्लेषण में अनिश्चितता को मापा जा सकता है. दिखने वाले डेटा पॉइंट किसी ग्राफ़ पर रुझान प्लॉट करने के लिए, लेकिन उसमें ओवरलैप होने वाले गड़बड़ी बार दिखाए जाते हैं, तो किसी भी पैटर्न पर लागू होती है. अनिश्चितता भी बहुत ज़्यादा होने की वजह से, उपयोगी जानकारी नहीं मिल सकती किसी अध्ययन या सांख्यिकीय परीक्षण से मिले निष्कर्ष. अगर रिसर्च स्टडी के लिए लॉट-लेवल की सटीक जानकारी की ज़रूरत होती है. यह 500 मीटर की अनिश्चितता वाला जियोस्पेशियल डेटासेट है में इतनी अनिश्चितता है कि इसे इस्तेमाल नहीं किया जा सकता.

इसके अलावा, फ़ैसला लेने के दौरान अनिश्चितता के लेवल काम के हो सकते हैं प्रोसेस. पानी के किसी खास तरह के पानी के उपचार को 20% अनिश्चितता के साथ इस्तेमाल किए जाने वाले नतीजों के आधार पर, सुझाव या राय दी जा सकती है कि के साथ मिलकर प्रोग्राम पर लगातार नज़र रखी जाती है, ताकि अनिश्चितता को दूर किया जा सके.

बेज़ियन न्यूरल नेटवर्क इसके बजाय, वैल्यू के डिस्ट्रिब्यूशन का अनुमान लगाकर अनिश्चितता को माप सकता है वैल्यू.

काम का नहीं है

जैसा कि शुरुआती जानकारी में बताया गया है, ऑडियंस के बीच अपने अंतर को कम से कम और ज़मीनी हकीकत के ख़िलाफ़ हैं. अनुभवी मशीन लर्निंग मैनेजर को यह तय करना चाहिए कि क्या डेटासेट, पूछे गए सवाल के हिसाब से सही है.

हफ़ एक ऐसे शुरुआती अध्ययन के बारे में बताते हैं जिसमें बताया गया है कि श्वेत मूल के अमेरिकन अफ़्रीकी-अमेरिकी मूल के लोगों के लिए, यह उनके लिए बहुत आसान रास्ता था जीव-जंतु उनके स्तर से सीधे तौर पर और विपरीत संबंधित थे अफ़्रीकी मूल के लोगों के प्रति हमदर्दी है. जैसे-जैसे नस्लीय दुश्मन बढ़ते गए, अपेक्षित आर्थिक अवसरों के बारे में प्रतिक्रियाएं और भी बढ़ गईं आशावादी. इस समस्या को गलत तरीके से, प्रोग्रेस का संकेत माना जा सकता है. हालांकि, इस स्टडी में एआई के असल उस समय अफ़्रीकी-अमेरिकी मूल के लोगों के लिए आर्थिक अवसर उपलब्ध थे, लेकिन यह नौकरी के बाज़ार की हकीकत के बारे में निष्कर्ष निकालने के लिए सही है. सर्वे के लिए जवाब देने वाले लोगों की राय पर ध्यान दें. इकट्ठा किया गया डेटा जॉब मार्केट की स्थिति के हिसाब से सही नहीं था.2

ऊपर बताए गए तरीके से, सर्वे के डेटा की मदद से मॉडल को ट्रेनिंग दी जा सकती है, जहां आउटपुट में ऑपर्च्यूनिटी के बजाय उम्मीद का आकलन किया जाता है. हालांकि, क्योंकि अनुमानित अवसरों का इस्तेमाल, असल अवसरों पर किया जा सकता है, अगर यह दावा किया है कि मॉडल वास्तविक अवसरों का अनुमान लगा रहा था, तो आपको मॉडल के अनुमान को गलत तरीके से पेश करना.

उलझन

कॉन्फ़्रेंडिंग वैरिएबल, कॉन्उंडिंग या कॉफ़ैक्टर एक वैरिएबल है नहीं पढ़ रहे हैं स्टडी किए जा रहे वैरिएबल पर असर डालता है और नतीजों को बिगाड़ सकता है. उदाहरण के लिए, एक एमएल मॉडल इस्तेमाल करें, जो किसी इनपुट के लिए मृत्यु दर का अनुमान लगाता है के आधार पर तैयार किया गया है. मान लें कि माध्यिका उम्र एक सुविधा नहीं है. मान लें कि कुछ देशों में अन्य की तुलना में जनसंख्या. मीडियन उम्र के कॉन्फ़ाउंडिंग वैरिएबल को अनदेखा करके, हो सकता है कि इस मॉडल में, मृत्यु दर के गलत मामलों का अनुमान लगाया जा सके.

अमेरिका में, नस्ल का अक्सर सामाजिक-आर्थिक संबंध है क्लास के डेटा को मृत्यु संख्या के साथ रिकॉर्ड किया जाता है. हालांकि, सिर्फ़ नस्ल को ही रिकॉर्ड किया जाता है, क्लास के बजाय. क्लास से जुड़े भ्रम की स्थिति. जैसे, स्वास्थ्य सेवा, पोषण, खतरनाक काम, हो सकता है कि नस्ल की तुलना में मरने की दर पर ज़्यादा असर पड़े, लेकिन उन्हें अनदेखा कर दिया जाना चाहिए, क्योंकि इन्हें डेटासेट में शामिल नहीं किया गया है.3 और इन बातों को कंट्रोल करना बेहद ज़रूरी है, ताकि उपयोगी मॉडल बनाए जा सकें और सार्थक और सटीक निष्कर्ष निकालना.

अगर किसी मॉडल को मृत्यु दर के मौजूदा डेटा के आधार पर ट्रेनिंग दी गई है, जिसमें रेस शामिल है, लेकिन नहीं यह नस्ल के आधार पर मृत्यु दर का अनुमान लगा सकता है, भले ही वर्ग ज़्यादा मज़बूत हो मृत्यु का अनुमान लगाने वाला के तौर पर. इससे लोगों को, ग़लतफ़हमी पैदा करने और COVID-19 की वजह से होने वाले असर और मरीज़ों की मृत्यु के बारे में गलत अनुमान. मशीन लर्निंग का इस्तेमाल करने वाले लोग यह जानना चाहिए कि क्या डेटा में मौजूद उलझनें मौजूद हैं. साथ ही, वैरिएबल शायद उनके डेटासेट में मौजूद न हों.

1985 में, नर्सों का हेल्थ स्टडी, हार्वर्ड की निगरानी में रखे गए समानता रखने वाले लोगों पर की गई स्टडी मेडिकल स्कूल ऐंड हार्वर्ड स्कूल ऑफ़ पब्लिक हेल्थ ने पाया कि एक जैसे उपयोगकर्ताओं के ग्रुप में शामिल लोग एस्ट्रोजन रिप्लेसमेंट थेरेपी लेने से दिल का दौरा पड़ने की संभावना कम थी समानता रखने वाले लोगों के उन सदस्यों की तुलना में जिन्होंने कभी एस्ट्रोजन. नतीजतन, डॉक्टरों ने एस्ट्रोजेन का सुझाव दिया दशकों से रजोनिवृत्ति और पोस्टरमेनोपॉज़ल के बाद तक, साल 2002 में लॉन्ग टर्म एस्ट्रोजन थेरेपी की मदद से सेहत के जुड़े खतरों की पहचान की गई. प्रैक्टिस रजोनिवृत्ति के बाद महिलाओं को एस्ट्रोजेन लेना बंद कर दिया गया, लेकिन समय से पहले हज़ारों मौतें हो सकती हैं.

अगर ऐसी कई बातें हैं, तो वे एक-दूसरे से जुड़ सकते हैं. एपिडेमियोलॉजिस्ट मिले हॉर्मोन रिप्लेसमेंट थेरेपी लेने वाली महिलाओं की तुलना में, पतले, ज़्यादा पढ़े-लिखे, अमीर, और अपनी सेहत के प्रति ज़्यादा जागरूक रहते हैं. और व्यायाम करने की संभावना बढ़ जाती है. अलग-अलग अध्ययनों में, शिक्षा और संपत्ति पर इससे दिल की बीमारी का खतरा कम हो जाता है. उन असर को देखकर एस्ट्रोजन थेरेपी और दिल के दौरे के बीच का संबंध.4

नेगेटिव संख्याओं वाले प्रतिशत

नेगेटिव नंबर मौजूद होने पर प्रतिशत का इस्तेमाल करने से बचें.5 क्योंकि नेगेटिव नंबर मौजूद होने पर प्रतिशत में उपयोगी फ़ायदों और नुकसानों को छिपाया जा सकता है. सरल के लिए, मान लो पता है कि रेस्टोरेंट उद्योग में 20 लाख नौकरियां हैं. अगर इंडस्ट्री से रेवेन्यू 1 कम हो जाता है उनमें से लाखों नौकरियां मार्च 2020 के आखिर में हुईं, यानी 10 आवेदनों में कोई बदलाव नहीं आया और साल दर साल फ़रवरी 2021 की शुरुआत में 9,00,000 नौकरियां हासिल कीं. अगर मार्च 2021 की शुरुआत में हुए आंकड़ों की तुलना की गई है, तो इसका मतलब है कि रेस्टोरेंट से जुड़ी नौकरियों में सिर्फ़ 5% की कमी हुई है. इसमें किसी और बदलाव को न मानकर, फ़रवरी के आखिर में साल-दर-साल की तुलना की जा सकती है साल 2022, रेस्टोरेंट से जुड़ी नौकरियों में 90% की बढ़ोतरी का सुझाव देगा, जो कि काफ़ी अलग है हकीकत की तस्वीर.

वास्तविक संख्याओं को प्राथमिकता दें, जो भी उपयुक्त हो. संख्यात्मक विश्लेषण के साथ काम करना Cata देखें.

पोस्ट-हॉक फ़ैलेसी और अनुपयोगी कोरिलेशन

पोस्ट-हॉक के बाद की गलती यह माना जाता है कि इवेंट A के बाद इवेंट B, इवेंट A की वजह से इवेंट B आसान शब्दों में कहें, तो यह एक कार्य-और-प्रभाव संबंध, जहां कोई मौजूद नहीं होता. और भी आसान शब्दों में: सहसंबंध कार्य-कारण साबित नहीं करते.

साफ़ तौर पर वजह और असर के बीच, एक-दूसरे से जुड़े होने के साथ-साथ इनसे उठता है:

  • शुद्ध अवसर (टायलर विगन देखें झूठी कोरिलेशन तस्वीरों के साथ-साथ, तलाक की दर के बीच का गहरा संबंध भी दिखाया है. मेन और मार्जरीन की मात्रा में.
  • दो वैरिएबल के बीच का वास्तविक संबंध. हालांकि, यह साफ़ नहीं है कि वैरिएबल एक फ़ैक्टर है और किस पर असर पड़ता है.
  • एक तीसरा, अलग कारण, जो दोनों वैरिएबल पर असर डालता है. हालांकि, सहसंबंध वैरिएबल एक-दूसरे से जुड़े नहीं होते. वैश्विक मुद्रास्फीति, उदाहरण के लिए, यॉट और सेलरी, दोनों की कीमतें बढ़ाई जा सकती हैं.6

मौजूदा डेटा से आगे के कोरिलेशन का अनुमान लगाना भी जोखिम भरा हो सकता है. हफ़ बताती हैं कि थोड़ी बारिश से फ़सलों की क्वालिटी बेहतर होगी, लेकिन बहुत ज़्यादा बारिश से नुकसान होगा उन्हें; बारिश और फ़सल के नतीजों के बीच का संबंध अरेखीय है.7 (यहां देखें और नॉन-लीनियर रिलेशनशिप के बारे में ज़्यादा जानने के लिए, अगले दो सेक्शन देखें.) जोंस ध्यान दें कि दुनिया में कई असामान्य घटनाएं हुई हैं, जैसे, युद्ध और अकाल से जुड़ी समस्याएं. इनमें आने वाले समय में, टाइम सीरीज़ से जुड़े डेटा का अनुमान लगाया जाता है काफ़ी ज़्यादा अनिश्चितता है.8

इसके अलावा, कारण और प्रभाव पर आधारित वास्तविक पारस्परिक संबंध भी मदद मिलती है. उदाहरण के तौर पर, हफ़ इस बात का संकेत देता है कि 1950 के दशक में शादी और कॉलेज की शिक्षा हासिल की. वे महिलाएं जो गई थीं उस कॉलेज से शादी करने की उम्मीद कम थी, लेकिन ऐसा हो सकता था जो महिलाएं कॉलेज गई थीं, उनमें शादी करने के लिए कम दिलचस्पी थी. अगर ऐसा होता, तो कॉलेज की शिक्षा से उनके शादी करना.9

अगर किसी विश्लेषण से डेटासेट में दो वैरिएबल के बीच के संबंध का पता चलता है, तो पूछें:

  • यह किस तरह का संबंध है: वजह और असर, काल्पनिक, अज्ञात संबंध है या इसकी वजह किसी तीसरे वैरिएबल की वजह से है?
  • डेटा से अनुमान लगाना कितना जोखिम भरा है? डेटा पर हर मॉडल का अनुमान नहीं है, प्रभावी है, इंटरपोलेशन या तो डेटा का अनुमान लगाया जा सकता है.
  • क्या सहसंबंध का इस्तेमाल उपयोगी फ़ैसले लेने के लिए किया जा सकता है? उदाहरण के लिए, बढ़ती सैलरी के साथ आशावाद सहसह से जुड़ा हो सकता है, लेकिन सोशल मीडिया जैसे टेक्स्ट डेटा के कुछ बड़े संग्रह की भावनाओं का विश्लेषण किसी खास देश में लोगों की पोस्ट का अनुमान लगाना और बढ़ोतरी होती है.

मॉडल को ट्रेनिंग देते समय, मशीन लर्निंग प्रोसेस करने वाले पेशेवर लोग आम तौर पर ऐसी सुविधाएं ढूंढते हैं जो लेबल के साथ पूरी तरह से जुड़ा हुआ होना चाहिए. अगर सुविधाओं के बीच संबंध और लेबल ठीक से समझ में नहीं आता है, तो इसकी वजह से बताई गई समस्याएं हो सकती हैं और इस सेक्शन में, नकली सहसंबंधों और मॉडल जो यह मानते हैं कि ऐतिहासिक रुझान भविष्य में जारी रहेंगे, जबकि असल में वे नहीं.

लीनियर बायस

तय सीमा में "लीनियर थिंकिंग इन अ नॉनलीनियर वर्ल्ड" बार्ट डे लंघे, स्टेफ़नो पुतोनी, और रिचर्ड लैरिक रैखिक पक्षपात की व्याख्या करते हैं व्यक्ति के दिमाग में लीनियर रिलेशनशिप की उम्मीद करने और उसे देखने की क्षमता होती है. हालांकि, कई घटनाएँ अरेखीय होती हैं. इंसान के नज़रिए और सोच के बीच संबंध व्यवहार एक लाइन के बजाय, एक उत्तल कर्व है. 2007 की एक जर्नल ऑफ़ de Langhe et al. द्वारा उद्धृत उपभोक्ता नीति दस्तावेज़ जेनी वैन डोर और अन्य ने सर्वे के जवाब देने वालों के बीच के संबंध का मॉडल बनाया चिंता का विषय माहौल और जवाब देने वालों के हिसाब से ऑर्गैनिक प्रॉडक्ट की खरीदारी. जिनके पास यह है पर्यावरण से जुड़ी सबसे गंभीर समस्याओं ने ज़्यादा ऑर्गैनिक प्रॉडक्ट खरीदे, हालांकि, इस काम में जवाब देने वाले अन्य सभी लोगों के बीच थोड़ा अंतर है.

ऑर्गैनिक प्रॉडक्ट की खरीदारी बनाम पर्यावरण से जुड़ी समस्याओं का स्कोर,
  आम तौर पर सपाट लाइन दिखाना, जिसमें सबसे दाईं ओर ऊपर की ओर साफ़ उत्तल वक्र हो
ऑर्गैनिक खरीदारी और पर्यावरण से जुड़ी समस्याओं के ग्राफ़ के ग्राफ़ को, van Doorn et al के हिसाब से आसान बनाया गया है. पेपर

मॉडल या स्टडी डिज़ाइन करते समय, नॉनलीनियर की संभावना पर ध्यान दें रिश्ते. क्योंकि A/B टेस्टिंग हो सकता है कि नॉनलीनियर रिलेशनशिप न हो, तीसरे, इंटरमीडिएट की टेस्टिंग भी करें शर्त, सी. यह भी देखें कि क्या शुरुआती व्यवहार लीनियर, लीनियर रहेगा या आने वाले समय में ज़्यादा लॉगारिद्मिक या अन्य नॉनलीनियर व्यवहार दिखाएं.

लॉगारिद्मिक डेटा के लिए लीनियर फ़िट, पहले के लिए सही फ़िट होता है
  80% से कम नहीं होगा.
लॉगारिद्मिक डेटा पर खराब लीनियर फ़िट का उदाहरण

यह काल्पनिक उदाहरण, लॉगारिद्मिक डेटा के लिए एक गलत लीनियर फ़िट दिखाता है. अगर सिर्फ़ शुरुआती कुछ डेटा पॉइंट उपलब्ध होंगे, तो दोनों ही आकर्षक होंगे. और यह गलत है कि वैरिएबल के बीच एक लीनियर संबंध है.

लीनियर इंटरपोलेशन

डेटा बिंदुओं के बीच के किसी इंटपोलेशन का पता लगाएं, क्योंकि इंटरपोलेशन काल्पनिक बिंदु प्रस्तुत करता है और वास्तविक मापों के बीच के अंतराल अहम उतार-चढ़ाव होते हैं. उदाहरण के लिए, इन बातों पर ध्यान दें लीनियर इंटरपोलेशन से जुड़े चार डेटा पॉइंट का विज़ुअलाइज़ेशन:

समय के साथ विस्तार, जो एक सीधी रेखा से जुड़े हुए चार बिंदुओं को दिखाता है.
लीनियर इंटरपोलेशन का उदाहरण.

इसके बाद, डेटा पॉइंट के बीच होने वाले उतार-चढ़ाव के इस उदाहरण पर गौर करें लीनियर इंटरपोलेशन से मिटाया गया:

पहले की तरह ही पॉइंट. हालांकि, दूसरे और तीसरे पॉइंट के बीच बहुत ज़्यादा उतार-चढ़ाव हुए हैं.
डेटा पॉइंट के बीच में होने वाले उतार-चढ़ाव (भूकंप) का उदाहरण.

यह उदाहरण गलत है, क्योंकि सीस्मोग्राफ़ लगातार डेटा इकट्ठा करते हैं. यह भूकंप आसानी से नहीं छूटेगा. लेकिन यह क्षेपकों से अनुमान लगाया जाता है और वास्तविक घटना को बताया जाता है. पेशेवर आपसे चूक सकते हैं.

रन्ज़ फ़िनॉमेनन

रुंज की घटना. इसे "पॉलीनोमियल विगल" भी कहा जाता है, एक समस्या है, जो इसके ठीक सामने है लीनियर इंटरपोलेशन और लीनियर बायस से स्पेक्ट्रम. पॉलिनोमियल फ़िट करने पर डेटा इंटरपोलेशन है, तो बहुत उच्च डिग्री वाले बहुपद का उपयोग किया जा सकता है (डिग्री या क्रम, जो पॉलिनोमियल इक्वेशन में सबसे ज़्यादा एक्सपोनेंट है). यह इसके किनारों पर अजीब तरंगित होती है. उदाहरण के लिए, किसी डिग्री 11 का पॉलिनोमियल इंटरपोलेशन, जिसका मतलब है कि बहुपद समीकरण में \(x^{11}\)है, जिससे मोटे तौर पर रैखिक डेटा मिलता है, जिससे नतीजे मिलते हैं शुरुआत और अंत में बहुत ही खराब पूर्वानुमान डेटा की रेंज:

रफ़ली लीनियर
  इस डेटा में, डिग्री 11 के पॉलिनोमियल इंटरपोलेशन का इस्तेमाल किया गया है.
  शुरुआती दो डेटा पॉइंट और गिरावट की तेज़ी के बीच ज़्यादा बढ़ोतरी
  आखिरी दो डेटा पॉइंट के बीच में
पॉलिनोमियल विगल का उदाहरण

एमएल कॉन्टेक्स्ट में, मिलती-जुलती घटना ओवरफ़िटिंग.

आंकड़ों के सही न होने का पता लगाना

कभी-कभी, आंकड़ों की जांच में इतने कम हो सकते हैं कि छोटा प्रभाव. आंकड़ों के विश्लेषण में कम क्षमता का मतलब है कि सही तरीके से सही घटनाओं की पहचान करने में मदद मिलती है, जिससे गलत जानकारी मिलने की संभावना ज़्यादा होती है. कैथरीन बटन और अन्य नेचर में लिखा: "जब किसी खास क्षेत्र में की जाने वाली पढ़ाई को 20% की क्षमता से डिज़ाइन किया जाता है, तो इसका मतलब है कि 100 असली के असर को देखते हुए, इन अध्ययनों से पता चलता है कि सिर्फ़ 20." कभी-कभी सैंपल साइज़ को बढ़ाने से भी मदद मिल सकती है. हालांकि, सावधानी बरतें पढ़ाई के लिए डिज़ाइन किया गया है.

ML की ऐसी समस्या है कि क्लासिफ़िकेशन और वर्गीकरण थ्रेशोल्ड का विकल्प. ज़्यादा थ्रेशोल्ड चुनने के विकल्प से नतीजे मिलते हैं कम फ़ॉल्स पॉज़िटिव और ज़्यादा फ़ॉल्स नेगेटिव, जबकि कम थ्रेशोल्ड नतीजा मिलता है को ज़्यादा फ़ॉल्स पॉज़िटिव और कम फ़ॉल्स नेगेटिव में देखें.

सांख्यिकीय शक्ति वाले मुद्दों के अतिरिक्त, क्योंकि सहसंबंध है इसे रैखिक संबंध का पता लगाने के लिए डिज़ाइन किया गया है, जो कि वैरिएबल को छोड़ा जा सकता है. इसी तरह, हर वैरिएबल से संबंधित वैरिएबल हो सकते हैं अन्य, लेकिन सांख्यिकीय रूप से संबद्ध नहीं. वैरिएबल ये भी हो सकते हैं नकारात्मक रूप से संबद्ध होता है, लेकिन पूरी तरह से असंबंधित होता है, जिसे बर्कसन का विरोधाभास या बर्कसन का फ़ालसा. बर्कसन की किसी जोखिम के बीच का नकली नेगेटिव कोरिलेशन होता है अस्पताल में भर्ती मरीज़ की संख्या को देखते समय (जैसा कि सामान्य जनसंख्या की तुलना में), जो चुनने की प्रोसेस से पैदा होती है (a स्थिति इतनी गंभीर है कि उसे अस्पताल में भर्ती होने की ज़रूरत पड़ सकती है.

देखें कि इनमें से कोई स्थिति लागू होती है या नहीं.

पुराने मॉडल और गलत अनुमान

यहां तक कि अच्छे मॉडल में भी समय के साथ गिरावट आ सकती है, क्योंकि बदलाव भी हो सकते हैं. Netflix के शुरुआती अनुमान लगाने वाले मॉडल बंद कर दिए गए थे उनके ग्राहक आधार युवा, तकनीक की समझ रखने वाले लोगों से बदलकर सामान्य हो गए हैं जनसंख्या.10

मॉडल में मौन और गलत अनुमान भी हो सकते हैं, जो छिपे रह सकते हैं 2008 में बाज़ार में भारी गिरावट के बाद, कॉन्टेंट बनाने वित्तीय उद्योग के वे वैल्यू ऐट रिस्क (वीएआर) मॉडल, जिनका सटीक अनुमान लगाने का दावा किया गया है किसी भी ट्रेडर के पोर्टफ़ोलियो पर ज़्यादा से ज़्यादा नुकसान होता है. $1,00,000, 99% समय की उम्मीद थी. हालांकि, असामान्य स्थितियों में क्रैश का प्रतिशत, ऐसे पोर्टफ़ोलियो जैसा ज़्यादा से ज़्यादा $1,00,000 का नुकसान हो सकता है कभी-कभी खोना 10,00,000 डॉलर या इससे ज़्यादा.

वीएआर मॉडल गलत अनुमानों पर आधारित थे. इनमें ये शामिल हैं:

  • बाज़ार में हुए पिछले बदलावों से, आने वाले समय में बाज़ार में होने वाले बदलावों का अनुमान लगाया जा सकता है.
  • सामान्य (थिन-टेल्ड और इसलिए अनुमान लगाने लायक) डिस्ट्रिब्यूशन था अनुमानित रिटर्न मौजूद होता है.
गॉसियन डिस्ट्रिब्यूशन से मिलता-जुलता, k=5 और फ़्लैट k=1 और k=.2 के साथ वॉन मिस डिस्ट्रिब्यूशन.
वॉन मिसेज़ डिस्ट्रिब्यूशन का ग्राफ़, जो ज़्यादा K पर पतला-पुच्छीय और कम K पर फ़ैट-टेल्ड होता है.

असल में, डिस्ट्रिब्यूशन, फ़ैट-टेल, "वाइल्ड", या फ़्रैक्टल, इसका मतलब है कि लंबी पूंछ वाले जोखिम, बहुत ज़्यादा, और सामान्य डिस्ट्रिब्यूशन की तुलना में, कभी-कभी होने वाले इवेंट का अनुमान लगाया जाता है. इसकी फैट-टेल्ड प्रकृति असल डिस्ट्रिब्यूशन के बारे में जानकारी तो थी, लेकिन उस पर कोई कार्रवाई नहीं की गई थी. आपको क्या अच्छा नहीं लगा यह जाना कि अलग-अलग चीज़ें कितनी जटिल और एक-दूसरे से जुड़ी हुई थीं, ऑटोमेटेड सेलऑफ़ के साथ कंप्यूटर आधारित ट्रेडिंग.11

एग्रीगेशन से जुड़ी समस्याएं

इकट्ठा किया गया डेटा. इसमें ज़्यादातर डेमोग्राफ़िक (उम्र, लिंग, आय, शिक्षा वगैरह) और महामारी से जुड़ी जानकारी शामिल होती है वे कुछ खास तरह के जाल का शिकार होते हैं. सिम्प्सन का विरोधाभास या एमलगेमेशन पैराडॉक्स, एग्रीगेट किए गए डेटा में होता है, जिसमें रुझान साफ़ तौर पर दिखते हैं डेटा को एक अलग लेवल पर एग्रीगेट करने पर, गायब या रिवर्स हो जाता है. ऐसा और कार्य-कारण संबंधों को गलत समझ रहे हैं.

इकोलॉजिकल गड़बड़ी के तहत, इस विषय के बारे में गलत जानकारी दी जाती है किसी एक एग्रीगेशन लेवल से दूसरे एग्रीगेशन लेवल पर जनसंख्या, जहां हो सकता है दावा मान्य न हो. यह एक बीमारी है, जो सिर्फ़ 40% खेती करने वाले लोगों पर असर डालती है एक प्रांतीय या अन्य प्रांत नहीं हो सकता जनसंख्या. इस बात की भी संभावना है कि ऐसी जगह पर कुछ न हो या उस प्रांत के कृषि शहर, जहां समान उच्च स्तर की नहीं है कितनी बड़ी समस्या हो सकती है. उन लोगों में 40% की मौजूदगी की उम्मीद करने के लिए जो कम प्रभावित हैं गलत जगहें भी दिखती हैं.

बदलाव की जा सकने वाली आरल यूनिट प्रॉब्लम (एमएयूपी), दुनिया भर में सबसे लोकप्रिय समस्या है 1984 में स्टैन ओपनशॉ ने बताया कि भू-स्थानिक डेटा CATMOG 38. इस काम के लिए इस्तेमाल किए जाने वाले क्षेत्रों के आकार और आकार के आधार पर तो कोई जियोस्पेशियल डेटा प्रैक्टिशनर डेटा में वैरिएबल के बीच का संबंध. ड्रॉइंग वोटिंग किसी एक या किसी अन्य पक्ष का पक्ष लेने वाले ज़िला, MAUP का उदाहरण है.

इन सभी स्थितियों में किसी एक अनुमान का गलत विश्लेषण शामिल होता है एग्रीगेशन का लेवल. अलग-अलग स्तर पर विश्लेषण के लिए, एग्रीगेशन या पूरी तरह से अलग-अलग डेटासेट.12

ध्यान दें कि आम तौर पर, जनगणना, डेमोग्राफ़िक (उम्र, लिंग, आय, शिक्षा वगैरह), और महामारी से जुड़ा डेटा निजता को ध्यान में रखते हुए, ज़ोन के हिसाब से इकट्ठा किया जाता है और ये ज़ोन अक्सर इसका मतलब है कि यह असल दुनिया की सीमाओं पर आधारित नहीं है. टास्क कब शुरू होगा अगर मशीन लर्निंग प्रोसेस करने वाले लोगों को इस तरह के डेटा का इस्तेमाल करना है, तो उन्हें यह जांच करनी चाहिए कि मॉडल ज़ोन के साइज़ और आकार के हिसाब से, परफ़ॉर्मेंस और अनुमान बदलते रहते हैं या एग्रीगेशन का लेवल चुना गया हो. अगर ऐसा है, तो क्या मॉडल के लिए सुझाव दिए गए हैं एग्रीगेशन से जुड़ी इनमें से किसी एक समस्या का असर पड़ा हो.

रेफ़रंस

बटन, कैथरीन और अन्य. "पावर फ़ेलियर: छोटा सैंपल साइज़, भरोसा है." नेचर रिव्यू न्यूरोसाइंस वॉल्यूम 14 (2013), 365–376. डीओआई: https://doi.org/10.1038/nrn3475

काहिरा, अल्बर्टो. चार्ट का क्या असर होता है: विज़ुअल की जानकारी को लेकर ज़्यादा स्मार्ट बनें. न्यूयॉर्क: डब्ल्यू॰डब्ल्यू॰ नॉर्टन, 2019.

डैवनपोर्ट, थॉमस एच॰ "अनुमानित Analytics प्राइमर." HBR गाइड टू डेटा में मैनेजर के लिए Analytics से जुड़ी बुनियादी बातें (Boston: HBR Press, 2018) 81-86.

डे लैंगे, बार्ट, स्टेफ़नो पुंटोनी, और रिचर्ड लैरिक. "लीनियर थिंकिंग इन अ नॉनलीनियर वर्ल्ड." मैनेजर के लिए डेटा Analytics से जुड़ी बुनियादी बातों की एचबीआर गाइड (बोस्टन: HBR Press, 2018) 131-154.

एलेनबर्ग, जॉर्डन. हाउ नॉट बी गलत: द पावर ऑफ़ मैथमैटिकल थिंकिंग. न्यूयॉर्क: पेंग्विन, 2014.

हफ़, डैरेल. आंकड़ों के साथ झूठ बोलने का तरीका. न्यूयॉर्क: डब्ल्यू॰डब्ल्यू॰ नॉर्टन, 1954.

जोन्स, बेन. डेटा में होने वाली समस्याओं से बचना. होबोकेन, न्यूजर्सी: वाइली, 2020.

ओपनशॉ, स्टैन. "द संशोधित एरियल यूनिट प्रॉब्लम," CATMOG 38 (नॉर्विच, इंग्लैंड: जियो बुक्स 1984) 37.

फ़ाइनेंशियल मॉडलिंग के जोखिम: वीएआर और इकनॉमिक मेल्टडाउन, 111वीं कांग्रेस (2009) (नासीम एन॰ तालेब और रिचर्ड बुकस्टबर).

रिटर, डेविड. "कोरिलेशन कब करें और कब नहीं." HBR गाइड में मैनेजरों के लिए डेटा के आंकड़ों से जुड़ी बुनियादी बातें (Boston: HBR Press, 2018) 103-109.

टलचिन्स्की, थियोडोर एच॰, और ऐलेना ए॰ वाराविकोवा. "चैप्टर 3: किसी जनसंख्या के स्वास्थ्य को मापना, उसकी निगरानी करना, और उसका आकलन करना" द न्यू पब्लिक हेल्थ में, तीसरा वर्शन. सैन डिएगो: अकैडमिक प्रेस, 2014, पीपी 91-147. डीओआई: https://doi.org/10.1016/B978-0-12-415766-8.00003-3.

वान डूर्न, जेनी, पीटर सी॰ वर्होफ़ और टैमो एच॰ ए॰ बिजमोल्ट. "प्रोग्रामैटिक विज्ञापनों में नीति में रवैये और व्यवहार के बीच गैर-रेखीय संबंध रिसर्च." जर्नल ऑफ़ कंज़्यूमर पॉलिसी 30 (2007) 75–90. डीओआई: https://doi.org/10.1007/s10603-007-9028-3

इमेज का रेफ़रंस

"वॉन मिस डिस्ट्रिब्यूशन" पर आधारित. Rainald62, 2018. सोर्स


  1. एलेनबर्ग 125.

  2. हफ़ 77-79. हफ़ ने प्रिंसटन के ऑफ़िस ऑफ़ पब्लिक ओपिनियन रिसर्च के बारे में बताया, लेकिन हो सकता है कि वह उसके बारे में सोच रहा हो अप्रैल 1944 की रिपोर्ट यूनिवर्सिटी ऑफ़ डेनवर के नैशनल ओपिनियन रिसर्च सेंटर ने दी हैं.

  3. तुलचिंस्की और राविकोवा.

  4. गैरी टाउब्स, क्या हमें वाकई पता है कि हम स्वस्थ कैसे होते हैं?" द न्यूयॉर्क टाइम्स मैगज़ीन में,16 सितंबर, 2007 में.

  5. एलेनबर्ग 78.

  6. हफ़ 91-92.

  7. हफ़ 93.

  8. जोन्स 157-167.

  9. हफ़ 95.

  10. डेवनपोर्ट 84.

  11. कांग्रेस में नासीम एन॰ द रिस्क्स ऑफ़ फ़ाइनेंशियल मॉडलिंग: वीएआर ऐंड द इकोनॉमिक मेल्टडाउन, 111वीं कांग्रेस (2009) 11-67 में तालेब और रिचर्ड बुकस्टेबर.

  12. कैरो 155, 162.