इंसान, इंसान होने के कारण संज्ञानात्मक पक्षपात के अधीन हैं, जिनमें शामिल हैं को तर्क के साथ बताना और पुष्टि करना. अल्बर्टो काहिरा ने लिखा, "रिरेशनलाइज़ेशन इंसान के दिमाग का डिफ़ॉल्ट मोड होता है."1 लोग अक्सर तो उस नतीजे को साबित करने के लिए डेटा या सबूत खोजें.
डेटा और मॉडल के साथ काम करते समय या उनका आकलन करते समय, जो कई सोर्स से लिए जा सकते हैं अलग-अलग सोर्स से, पक्षपात के संभावित सोर्स के बारे में पूछें. उदाहरण के लिए:
- इस मॉडल या स्टडी के लिए फ़ंड किसे मिल रहा है? मार्केट या कमर्शियल क्या है का इस्तेमाल करें?
- डेटा इकट्ठा करने वाले लोगों को किस तरह के इंसेंटिव दिए जा सकते हैं?
- मॉडल को ट्रेनिंग देने वाले शोधकर्ताओं को किस तरह के इंसेंटिव दिए जाएंगे या पढ़ाई करने के लिए इस्तेमाल किया जा रहा है. इसमें पब्लिकेशन और समयावधि की जानकारी भी शामिल है?
- इस स्टडी को पब्लिश करने के लिए, मॉडल का लाइसेंस कौन ले रहा है या कौन बन रहा है और उनकी क्या पहचान है इंसेंटिव?
डिस्क्रिप्टिव स्टैटिस्टिक्स
मीन (वैल्यू का कुल योग, संख्या से भाग देकर मिलने वाली संख्या), मीडियन (बीच की वैल्यू, जब वैल्यू क्रम से लगाई जाती हैं और mode (सबसे ज़्यादा इस्तेमाल होने वाली वैल्यू) अक्सर इन कामों में मददगार होती हैं डेटासेट के आकार को समझना. अगर माध्यिका और माध्य दूर हैं उदाहरण के लिए, दो अलग-अलग स्थितियों में काफ़ी अंतर दिख सकता है. सेट.
range, जिसमें सबसे बड़ी और सबसे कम वैल्यू के बीच का अंतर होता है. और वैरियंस, जो कि मीन स्क्वेयर डिफ़रेंस है और सेट के माध्य के बीच में अंतर के साथ-साथ, डेटासेट का प्रसार और आकार.
अपने डेटा पर मॉडल को ट्रेनिंग देने से पहले, यह भी पूछें कि क्या डेटासेट असंतुलित और अगर हां, तो क्या उस असंतुलन को दूर किया जाना चाहिए.
संभावित इंप्रेशन और p-वैल्यू
पर्याप्त समय और पर्याप्त मौके दिए जाने पर, अजीब घटना की संभावना बहुत ज़्यादा होती है. सैद्धांतिक देखें बाल्टमोर स्टॉकब्रोकर से जुड़ी धोखाधड़ी का एक संभावित उदाहरण देखें.
वैज्ञानिक सहमति से, किसी नतीजे को आंकड़ों के हिसाब से अहम माना जाता है (और इसलिए, पब्लिश किए जा सकते हैं) जब p-वैल्यू .05 से कम होगी. इसका मतलब यह है कि <5% संभावना है कि समान परिणाम या एक और चरम, शून्य अनुमान—जो संभावना की वजह से होता है. ज़्यादा बोलचाल में, शोधकर्ता सिर्फ़ तब पब्लिश कर सकते हैं, जब 20 में से 1 या इससे कम संभावना हो उनके परिणाम यादृच्छिकता का परिणाम होते हैं. इसके अलावा, चिंता की बात है कि बीस में से एक बार प्रयोग करने पर, एक नकली नतीजा महत्वपूर्ण, हालांकि यह नहीं है और अन्य उन्नीस परिणाम के लिए पब्लिश किया गया है. साल 2005 के एक पेपर में, "ज़्यादातर शोध के नतीजे गलत क्यों हैं" में, जॉन आयोनिडिस ने आंकड़ों से लेकर, जिसमें फ़र्ज़ी नतीजों को पब्लिश करने में योगदान दिया जाता हो.
उदाहरण के लिए, कॉन्टेंट पब्लिश करने का बढ़ावा मिलने की वजह से, कभी-कभी शोधकर्ता परेशान हो जाते हैं उस सीमा से कम होने के लिए .05 के आस-पास p-मान. अन्य समय, पब्लिश की गई स्टडी परिणाम, जो स्वाभाविक रूप से अनपेक्षित और असामान्य परिणामों के लिए चयन करते हैं, उसे दोहराया नहीं जा सकता (और इसलिए संभावित रूप से किसी अवसर के परिणाम के रूप में) ताकि आत्मविश्वास के साथ डालने की ज़रूरत नहीं है. इसकी मदद से, यह भी बनाया गया है कि फिर से बनाने की क्षमता की जांच करने के लिए काम करने वाले संगठन.
एमएल (मशीन लर्निंग) के क्षेत्र में, मॉडल को सबसे नया तब माना जाता है, जब वे मिलते-जुलते हों या अन्य प्रतिस्पर्धी मॉडल के मूल्यांकन के बेंचमार्क को पार कर जाता है. यह समय है हो सकता है कि मॉडल के इवैलुएशन स्कोर के आस-पास एक जैसा दबाव महसूस हो. बेंचमार्क लीक होने की वजह से, इसे आर्टिफ़िशियल तरीके से बढ़ाया जा सकता है.2
रिग्रेशन मॉडल के लिए सुविधा चुनते समय P-वैल्यू मददगार हो सकती है. ANOVA (वैरिएंस का विश्लेषण) आंकड़ों का एक ऐसा तरीका है जिससे ग्रुप में होने वाले फ़र्क़ से, ग्रुप के बीच के फ़र्क़ को दिखाता है हर सुविधा के लिए F-आंकड़े और p-वैल्यू. सबसे कम p-वैल्यू वाली सबसे अहम सुविधाओं को चुनने पर, सुविधाओं की वह संख्या जिनका अनुमान लगाने में मॉडल को कोई फ़र्क़ नहीं पड़ता. पावर. इससे, कंप्यूट की बचत होती है और कई सुविधाओं की समस्या से बचा जा सकता है, जिनकी चर्चा बाद के सेक्शन में की गई है. scikits देखें ज़्यादा जानकारी के लिए, सुविधा चुनने की गाइड.
एक से ज़्यादा तुलनाओं से जुड़ी समस्या
महत्वपूर्ण-सीमा की समस्या उन स्थितियों में विशेष रूप से गंभीर हो जाती है जहां शून्य हाइपोथीसिस की कई तुलनाओं समय. यह एफ़एमआरआई स्टडी में खास तौर पर होने वाली समस्या है.
एफ़एमआरआई में, हर वॉक्सेल आंकड़ों के हिसाब से अहम आकलन के लिए, दिमाग की (वॉल्यूम यूनिट) की स्वतंत्र जांच की जाती है और अगर ऐसा है, तो हाइलाइट किया गया है. इससे कुछ ऐसी चीज़ होती है जो 1,00,000 स्वतंत्र महत्व वाले टेस्ट एक साथ किए जा रहे हैं. p=.05 की दर में की मेट्रिक के आधार पर, मिनिएचर के तौर पर एक एफ़एमआरआई में पॉज़िटिव रिस्पॉन्स.3
इस समस्या को शायद 2009 बेनेट और अन्य ने सबसे अच्छे से समझा हो. पोस्टर, "पोस्ट-मॉर्टम अटलांटिक सैमन को लेते हुए इंटरसेप्सी के नज़रिए का न्यूरल रिलेशन," इस गेम में, आईजी नोबेल पुरस्कार. शोधकर्ताओं ने एक एफ़एमआरआई मशीन में मरे हुए सैमन के साथ बहुत ज़्यादा भावनात्मक स्थिति में फंसे इंसान, मरे हुए सैमन (सेमन) को यह पता लगाने के लिए कहना कि वीडियो में दिखाई गई इंसान में कैसी भावनाएं हैं अनुभव कर रहे थे. उन्होंने आंकड़ों के हिसाब से अहम क्लस्टर का इस्तेमाल किया सैमन के मस्तिष्क गुहा में सक्रिय वॉक्सल और गाल में जीभ निकालकर निष्कर्ष पर कि मरा हुआ सैमन सच में नज़रिए देखने की कोशिश कर रहा था. ज़्यादा गंभीरता से, रिसर्च करने वाले लोग, कई तुलनाओं से जुड़ी समस्याओं पर ध्यान दे रहे थे. एफ़एमआरआई और इससे मिलती-जुलती इमेजिंग की स्थितियां और उनके असर को कम करने की ज़रूरत.
एक साफ़ तौर पर और ज़्यादा मुश्किल समाधान महत्व को दिखाने वाले थ्रेशोल्ड p-मान को कम करना है. द इनहेरेंट संवेदनशीलता (सभी पॉज़िटिव पॉज़िटिव कैप्चर करना) और खासियत के बीच तालमेल रहता है (सभी सही नेगेटिव की पहचान करना). संवेदनशीलता पर चर्चा, जिसे ट्रू पॉज़िटिव रेट, क्लासिफ़िकेशन मॉड्यूल में देखा जा सकता है मशीन लर्निंग क्रैश कोर्स के बारे में बताया गया है.
किसी अन्य समस्या को कम करने के लिए, परिवार के हिसाब से गड़बड़ी की दर (एफ़डब्ल्यूईआर) को कंट्रोल किया जा रहा है, जो कम से कम एक फ़ॉल्स पॉज़िटिव की संभावना होती है. कोई दूसरा, फ़ॉल्स डिस्कवरी रेट (एफ़डीआर) या फ़ॉल्स पॉज़िटिव का अनुमानित अनुपात सभी को पसंद आए. 'गवर्नेंस ऐंड पॉलिटिक्स' में सबूत देखें' कई तुलनाओं की समस्या से जुड़ी गाइड, साथ ही, लिंडक्विस्ट और मेजिया "ज़ेन ऐंड द आर्ट ऑफ़ मल्टीपल कमीज़," यहाँ इन तरीकों को अच्छे से समझा जा सकता है. स्थिति में मरे हुए सैमन के साथ, एफ़डीआर और एफ़डब्ल्यूईआर को कंट्रोल करने से पता चला कि कोई वॉक्सल नहीं था, यह आंकड़ों के हिसाब से अहम है.
एफ़एमआरआई और इमेजिंग के अन्य तरीकों से स्कैन पर एमएल मॉडल को ट्रेनिंग देने की संख्या लगातार बढ़ रही है यह मेडिकल डायग्नोसिस4 और दोबारा बनाने वाली इमेज, दोनों में लोकप्रिय है ब्रेन ऐक्टिविटी से जुड़े डेटा का इस्तेमाल किया जाता है.5 अगर इन मॉडल को ट्रेनिंग देने के लिए, ट्रेनिंग डेटासेट, इससे समस्याओं की संभावना हो सकती है तुलनाएं समस्या. हालांकि, खास तौर पर, डायग्नोसिस के क्षेत्र में, यह मॉडल अगर 20% "ऐक्टिव" है, तो नए अलग-अलग स्कैन से गलत अनुमान लगाया जा सकता है वॉक्सल सच तो यह है कि यह ग़लत है. ध्यान दें कि डाइग्नोस्टिक एफ़एमआरआई क्लासिफ़िकेशन ली और ज़ाओ में बताए गए मॉडल ~70-85% सटीक हैं.
रिग्रेशन विश्लेषण में बहुत ज़्यादा वैरिएबल
एक से ज़्यादा तुलनाओं की समस्या, एक से ज़्यादा रिग्रेशन विश्लेषण पर लागू होती है. रिग्रेशन का विश्लेषण या लीनियर रिग्रेशन, कई न्यूमेरिक प्रेडिक्टिव मॉडल का आधार है. रिग्रेशन का विश्लेषण करने के लिए, कई तरीकों में से किसी एक का इस्तेमाल किया जाता है. जैसे, सामान्य सबसे कम स्क्वेयर रिग्रेशन गुणांक पता करना है, जो सबसे अच्छी तरह से बताता है कि एक वैरिएबल का असर पड़ता है. कोई दूसरा. रिसर्चर यह पूछ सकते हैं कि उम्र और धूम्रपान से फेफड़ों के कैंसर की दर पर कैसे असर पड़ता है कैंसर के रिग्रेशन विश्लेषण में, हर फ़ैक्टर को वैरिएबल के तौर पर दिखाना अलग-अलग उम्र के लोगों और धूम्रपान करने वालों में COVID-19 की घटनाओं के बारे में जानकारी. लीनियर रिग्रेशन मॉडल समान तरीके से काम करता है. इसलिए, यह काफ़ी समझा जा सकता है अन्य एमएल मॉडल की तुलना में. रिग्रेशन का पता लगाना उन वैरिएबल के गुणांक, दोनों के बीच रैखिक संबंधों की इन वैरिएबल और फेफड़े के कैंसर की दरों के बारे में ज़्यादा जानकारी मिलती है.
रिग्रेशन विश्लेषण में सभी संभावित वैरिएबल को शामिल करने से आपको फ़ायदा हो सकता है, कम से कम इसलिए, क्योंकि किसी महत्वपूर्ण कारक को शामिल नहीं करने पर भी इसके योगदान का कारण हो सकता है नज़रअंदाज़ किया जा रहा है. हालांकि, किसी रिग्रेशन विश्लेषण में बहुत ज़्यादा वैरिएबल जोड़ने से बिना काम के वैरिएबल के आंकड़ों के दिखने की संभावना को बढ़ाती है अहम. अगर हम अपने विश्लेषण में अठारह ज़्यादा बिना काम के वैरिएबल जोड़ दें, जैसे "देखी गई फ़िल्में" और "कुत्तों के मालिक हैं" तो हो सकता है कि इनमें से कोई एक अवसर के हिसाब से, बिना काम के वैरिएबल, फेफड़े के कैंसर की दर ज़्यादा होना.6
एमएल के बारे में देखें, लेकिन समान स्थिति में मशीन लर्निंग में काफ़ी ज़्यादा सुविधाएं मॉडल का इस्तेमाल कर सकते हैं, जिसकी वजह से ओवरफ़िटिंग, और समस्याएं हल करने में मदद करते हैं.
अनुमान और फ़ैसला
सोच के इन ट्रैप से बचने का एक तरीका है, आंकड़ों और मशीन लर्निंग का इस्तेमाल करना आंकड़ों से तैयार किए गए मॉडल, जो फ़ैसला लेने में मदद करने वाले टूल के तौर पर काम करते हैं. जवाब देने की ज़रूरत नहीं है. यह था पोज़िशन जो जेरज़ी नेमैन और इगॉन शार्प पियर्सन ने ली.7
इस फ़्रेमवर्क में, डेटा, डेटा के आंकड़े, और डेरिवेटिव. इनमें एमएल मॉडल भी शामिल हैं, अनुमान लगाने के लिए, सबसे सही माने जाते हैं. दुनिया भर के बयानों को गलत बनाना, अपनी रणनीति को बेहतर बनाना, और और फ़ैसला लेने में मदद करना शामिल है. वे सही नहीं हैं सच के बारे में सही दावे करने के लिए.
डेविड रिटर के अनुसार, विशाल डेटा दो बातों पर आधारित होना चाहिए:
- "यह भरोसा कि आने वाले समय में संबंध की बार-बार होने की संभावना है," कौनसा यह इस बात पर आधारित होना चाहिए कि यह समझने की कोशिश करें कि आपके बीच संबंध क्यों पैदा हो रहा है.
- अभिनय करने के जोखिम और इनाम.8
इसी तरह, यह भी हो सकता है कि रिसर्च से जुड़े सभी सवाल, एआई के लिए सही न हों. अनस्टेसिया एआई के इस्तेमाल से जुड़ी समस्या के लिए, Fedyk दो शर्तें देती है:
- समस्या के लिए पूर्वानुमान की ज़रूरत है, न कि साधारण संबंधों को समझने की.
- एआई को फ़ीड किए जा रहे डेटा में वह सब कुछ शामिल है जो समस्या; इसका मतलब है कि समस्या अपने-आप पूरी हो.9
रेफ़रंस
बेनेट, क्रेग एम॰, अबीगैल ए॰ बेयर्ड, माइकल बी॰ मिलर और जॉर्ज एल॰ वूल्फ़र्ड. "पोस्ट-मॉर्टम में लिए जाने वाले इंटरसेप्सी के नज़रिए का न्यूरल रिलेशन अटलांटिक सैमन: कई तुलनाओं में सुधार करने का तर्क." न्यूरोइमेज (2009).
काहिरा, अल्बर्टो. चार्ट का क्या असर होता है: विज़ुअल की जानकारी को लेकर ज़्यादा स्मार्ट बनें. न्यूयॉर्क: डब्ल्यू॰डब्ल्यू॰ नॉर्टन, 2019.
डैवनपोर्ट, थॉमस एच॰ "अनुमानित Analytics प्राइमर." HBR गाइड टू डेटा में मैनेजर के लिए Analytics से जुड़ी बुनियादी बातें (Boston: HBR Press, 2018) 81-86.
एलेनबर्ग, जॉर्डन. हाउ नॉट बी गलत: द पावर ऑफ़ मैथमैटिकल थिंकिंग. न्यूयॉर्क: पेंग्विन, 2014.
फ़ेडिक, अनस्तेसिया. "क्या मशीन लर्निंग से आपके कारोबार की समस्या हल हो सकती है?" HBR में मैनेजरों के लिए डेटा Analytics से जुड़ी बुनियादी बातों की गाइड (Boston: HBR Press, 2018) 111-119.
गैलो, एमी. "आंकड़ों के हिसाब से अहम जानकारी देना." HBR गाइड टू डेटा में मैनेजर के लिए Analytics से जुड़ी बुनियादी बातें (Boston: HBR Press, 2018) 121-129.
हफ़, डैरेल. आंकड़ों के साथ झूठ बोलने का तरीका. न्यूयॉर्क: डब्ल्यू॰डब्ल्यू॰ नॉर्टन, 1954.
आयोनिडिस, जॉन पी॰ ए॰ "ज़्यादातर पब्लिश की गई रिसर्च के नतीजे गलत क्यों हैं.". PLoS Med में 2 नं. 8: e124.
जोन्स, बेन. डेटा में होने वाली समस्याओं से बचना. होबोकेन, न्यूजर्सी: वाइली, 2020.
ली, जियांगशुए, और पीज़ ज़ाओ. "एफ़एमआरआई में डीप लर्निंग ऐप्लिकेशन – एक समीक्षा वाला काम" आईसीबीबीबी 2023 (टोक्यो, जापान, 13 से 16 जनवरी, 2023): 75-80. https://doi.org/10.1145/3586139.3586150
लिंडक्विस्ट, मार्टिन ए॰, और अमैंडा मेजिया. "ज़ेन और कई तुलनाओं की कला." साइकोसोमैटिक मेडिसिन 77 नंबर 2 (फ़रवरी से मार्च 2015): 114–125. डीओआई: 10.1097/PSY.0000000000000148.
रिटर, डेविड. "कोरिलेशन कब करें और कब नहीं." HBR गाइड में मैनेजरों के लिए डेटा के आंकड़ों से जुड़ी बुनियादी बातें (Boston: HBR Press, 2018) 103-109.
टागाकी, यू, और शिंजी निशिमोतो. "मानव दिमाग की गतिविधि से मिले लेटेंट डिफ़्यूज़न मॉडल की मदद से हाई-रिज़ॉल्यूशन वाली इमेज रीकंस्ट्रक्शन." आईईईई/सीवीएफ़ कॉन्फ़्रेंस 2023 कंप्यूटर विज़न और पैटर्न रिकग्निशन (वैंकूवर, बीसी, कनाडा, 2023): 14453-14463 है. डीओआई: 10.1109/CVPR52729.2023.01389.
व्हीलन, चार्ल्स. छिपे हुए आंकड़े: डेटा से डर को दूर करना. न्यूयॉर्क: डब्ल्यू॰डब्ल्यू॰ नॉर्टन, 2013
चोउ, कुन, यूताओ ज़ू, झिपेंग चेन, वेंटॉन्ग चेन, वेन शिन ज़ाओ, शु चेन, यंकाई लिन, जी-रोंग वेन, और जियावे हान. "एलएलएम को इवैलुएशन बेंचमार्क चीटर न बनाएं." arXiv:2311.01964 cs.CL.