सोचते हुए जाल

इंसान, इंसान होने के कारण संज्ञानात्मक पक्षपात के अधीन हैं, जिनमें शामिल हैं को तर्क के साथ बताना और पुष्टि करना. अल्बर्टो काहिरा ने लिखा, "रिरेशनलाइज़ेशन इंसान के दिमाग का डिफ़ॉल्ट मोड होता है."1 लोग अक्सर तो उस नतीजे को साबित करने के लिए डेटा या सबूत खोजें.

डेटा और मॉडल के साथ काम करते समय या उनका आकलन करते समय, जो कई सोर्स से लिए जा सकते हैं अलग-अलग सोर्स से, पक्षपात के संभावित सोर्स के बारे में पूछें. उदाहरण के लिए:

  • इस मॉडल या स्टडी के लिए फ़ंड किसे मिल रहा है? मार्केट या कमर्शियल क्या है का इस्तेमाल करें?
  • डेटा इकट्ठा करने वाले लोगों को किस तरह के इंसेंटिव दिए जा सकते हैं?
  • मॉडल को ट्रेनिंग देने वाले शोधकर्ताओं को किस तरह के इंसेंटिव दिए जाएंगे या पढ़ाई करने के लिए इस्तेमाल किया जा रहा है. इसमें पब्लिकेशन और समयावधि की जानकारी भी शामिल है?
  • इस स्टडी को पब्लिश करने के लिए, मॉडल का लाइसेंस कौन ले रहा है या कौन बन रहा है और उनकी क्या पहचान है इंसेंटिव?

डिस्क्रिप्टिव स्टैटिस्टिक्स

मीन (वैल्यू का कुल योग, संख्या से भाग देकर मिलने वाली संख्या), मीडियन (बीच की वैल्यू, जब वैल्यू क्रम से लगाई जाती हैं और mode (सबसे ज़्यादा इस्तेमाल होने वाली वैल्यू) अक्सर इन कामों में मददगार होती हैं डेटासेट के आकार को समझना. अगर माध्यिका और माध्य दूर हैं उदाहरण के लिए, दो अलग-अलग स्थितियों में काफ़ी अंतर दिख सकता है. सेट.

range, जिसमें सबसे बड़ी और सबसे कम वैल्यू के बीच का अंतर होता है. और वैरियंस, जो कि मीन स्क्वेयर डिफ़रेंस है और सेट के माध्य के बीच में अंतर के साथ-साथ, डेटासेट का प्रसार और आकार.

अपने डेटा पर मॉडल को ट्रेनिंग देने से पहले, यह भी पूछें कि क्या डेटासेट असंतुलित और अगर हां, तो क्या उस असंतुलन को दूर किया जाना चाहिए.

संभावित इंप्रेशन और p-वैल्यू

पर्याप्त समय और पर्याप्त मौके दिए जाने पर, अजीब घटना की संभावना बहुत ज़्यादा होती है. सैद्धांतिक देखें बाल्टमोर स्टॉकब्रोकर से जुड़ी धोखाधड़ी का एक संभावित उदाहरण देखें.

वैज्ञानिक सहमति से, किसी नतीजे को आंकड़ों के हिसाब से अहम माना जाता है (और इसलिए, पब्लिश किए जा सकते हैं) जब p-वैल्यू .05 से कम होगी. इसका मतलब यह है कि <5% संभावना है कि समान परिणाम या एक और चरम, शून्य अनुमान—जो संभावना की वजह से होता है. ज़्यादा बोलचाल में, शोधकर्ता सिर्फ़ तब पब्लिश कर सकते हैं, जब 20 में से 1 या इससे कम संभावना हो उनके परिणाम यादृच्छिकता का परिणाम होते हैं. इसके अलावा, चिंता की बात है कि बीस में से एक बार प्रयोग करने पर, एक नकली नतीजा महत्वपूर्ण, हालांकि यह नहीं है और अन्य उन्नीस परिणाम के लिए पब्लिश किया गया है. साल 2005 के एक पेपर में, "ज़्यादातर शोध के नतीजे गलत क्यों हैं" में, जॉन आयोनिडिस ने आंकड़ों से लेकर, जिसमें फ़र्ज़ी नतीजों को पब्लिश करने में योगदान दिया जाता हो.

उदाहरण के लिए, कॉन्टेंट पब्लिश करने का बढ़ावा मिलने की वजह से, कभी-कभी शोधकर्ता परेशान हो जाते हैं उस सीमा से कम होने के लिए .05 के आस-पास p-मान. अन्य समय, पब्लिश की गई स्टडी परिणाम, जो स्वाभाविक रूप से अनपेक्षित और असामान्य परिणामों के लिए चयन करते हैं, उसे दोहराया नहीं जा सकता (और इसलिए संभावित रूप से किसी अवसर के परिणाम के रूप में) ताकि आत्मविश्वास के साथ डालने की ज़रूरत नहीं है. इसकी मदद से, यह भी बनाया गया है कि फिर से बनाने की क्षमता की जांच करने के लिए काम करने वाले संगठन.

एमएल (मशीन लर्निंग) के क्षेत्र में, मॉडल को सबसे नया तब माना जाता है, जब वे मिलते-जुलते हों या अन्य प्रतिस्पर्धी मॉडल के मूल्यांकन के बेंचमार्क को पार कर जाता है. यह समय है हो सकता है कि मॉडल के इवैलुएशन स्कोर के आस-पास एक जैसा दबाव महसूस हो. बेंचमार्क लीक होने की वजह से, इसे आर्टिफ़िशियल तरीके से बढ़ाया जा सकता है.2

रिग्रेशन मॉडल के लिए सुविधा चुनते समय P-वैल्यू मददगार हो सकती है. ANOVA (वैरिएंस का विश्लेषण) आंकड़ों का एक ऐसा तरीका है जिससे ग्रुप में होने वाले फ़र्क़ से, ग्रुप के बीच के फ़र्क़ को दिखाता है हर सुविधा के लिए F-आंकड़े और p-वैल्यू. सबसे कम p-वैल्यू वाली सबसे अहम सुविधाओं को चुनने पर, सुविधाओं की वह संख्या जिनका अनुमान लगाने में मॉडल को कोई फ़र्क़ नहीं पड़ता. पावर. इससे, कंप्यूट की बचत होती है और कई सुविधाओं की समस्या से बचा जा सकता है, जिनकी चर्चा बाद के सेक्शन में की गई है. scikits देखें ज़्यादा जानकारी के लिए, सुविधा चुनने की गाइड.

एक से ज़्यादा तुलनाओं से जुड़ी समस्या

महत्वपूर्ण-सीमा की समस्या उन स्थितियों में विशेष रूप से गंभीर हो जाती है जहां शून्य हाइपोथीसिस की कई तुलनाओं समय. यह एफ़एमआरआई स्टडी में खास तौर पर होने वाली समस्या है.

एफ़एमआरआई में, हर वॉक्सेल आंकड़ों के हिसाब से अहम आकलन के लिए, दिमाग की (वॉल्यूम यूनिट) की स्वतंत्र जांच की जाती है और अगर ऐसा है, तो हाइलाइट किया गया है. इससे कुछ ऐसी चीज़ होती है जो 1,00,000 स्वतंत्र महत्व वाले टेस्ट एक साथ किए जा रहे हैं. p=.05 की दर में की मेट्रिक के आधार पर, मिनिएचर के तौर पर एक एफ़एमआरआई में पॉज़िटिव रिस्पॉन्स.3

इस समस्या को शायद 2009 बेनेट और अन्य ने सबसे अच्छे से समझा हो. पोस्टर, "पोस्ट-मॉर्टम अटलांटिक सैमन को लेते हुए इंटरसेप्सी के नज़रिए का न्यूरल रिलेशन," इस गेम में, आईजी नोबेल पुरस्कार. शोधकर्ताओं ने एक एफ़एमआरआई मशीन में मरे हुए सैमन के साथ बहुत ज़्यादा भावनात्मक स्थिति में फंसे इंसान, मरे हुए सैमन (सेमन) को यह पता लगाने के लिए कहना कि वीडियो में दिखाई गई इंसान में कैसी भावनाएं हैं अनुभव कर रहे थे. उन्होंने आंकड़ों के हिसाब से अहम क्लस्टर का इस्तेमाल किया सैमन के मस्तिष्क गुहा में सक्रिय वॉक्सल और गाल में जीभ निकालकर निष्कर्ष पर कि मरा हुआ सैमन सच में नज़रिए देखने की कोशिश कर रहा था. ज़्यादा गंभीरता से, रिसर्च करने वाले लोग, कई तुलनाओं से जुड़ी समस्याओं पर ध्यान दे रहे थे. एफ़एमआरआई और इससे मिलती-जुलती इमेजिंग की स्थितियां और उनके असर को कम करने की ज़रूरत.

एक साफ़ तौर पर और ज़्यादा मुश्किल समाधान महत्व को दिखाने वाले थ्रेशोल्ड p-मान को कम करना है. द इनहेरेंट संवेदनशीलता (सभी पॉज़िटिव पॉज़िटिव कैप्चर करना) और खासियत के बीच तालमेल रहता है (सभी सही नेगेटिव की पहचान करना). संवेदनशीलता पर चर्चा, जिसे ट्रू पॉज़िटिव रेट, क्लासिफ़िकेशन मॉड्यूल में देखा जा सकता है मशीन लर्निंग क्रैश कोर्स के बारे में बताया गया है.

किसी अन्य समस्या को कम करने के लिए, परिवार के हिसाब से गड़बड़ी की दर (एफ़डब्ल्यूईआर) को कंट्रोल किया जा रहा है, जो कम से कम एक फ़ॉल्स पॉज़िटिव की संभावना होती है. कोई दूसरा, फ़ॉल्स डिस्कवरी रेट (एफ़डीआर) या फ़ॉल्स पॉज़िटिव का अनुमानित अनुपात सभी को पसंद आए. 'गवर्नेंस ऐंड पॉलिटिक्स' में सबूत देखें' कई तुलनाओं की समस्या से जुड़ी गाइड, साथ ही, लिंडक्विस्ट और मेजिया "ज़ेन ऐंड द आर्ट ऑफ़ मल्टीपल कमीज़," यहाँ इन तरीकों को अच्छे से समझा जा सकता है. स्थिति में मरे हुए सैमन के साथ, एफ़डीआर और एफ़डब्ल्यूईआर को कंट्रोल करने से पता चला कि कोई वॉक्सल नहीं था, यह आंकड़ों के हिसाब से अहम है.

एफ़एमआरआई और इमेजिंग के अन्य तरीकों से स्कैन पर एमएल मॉडल को ट्रेनिंग देने की संख्या लगातार बढ़ रही है यह मेडिकल डायग्नोसिस4 और दोबारा बनाने वाली इमेज, दोनों में लोकप्रिय है ब्रेन ऐक्टिविटी से जुड़े डेटा का इस्तेमाल किया जाता है.5 अगर इन मॉडल को ट्रेनिंग देने के लिए, ट्रेनिंग डेटासेट, इससे समस्याओं की संभावना हो सकती है तुलनाएं समस्या. हालांकि, खास तौर पर, डायग्नोसिस के क्षेत्र में, यह मॉडल अगर 20% "ऐक्टिव" है, तो नए अलग-अलग स्कैन से गलत अनुमान लगाया जा सकता है वॉक्सल सच तो यह है कि यह ग़लत है. ध्यान दें कि डाइग्नोस्टिक एफ़एमआरआई क्लासिफ़िकेशन ली और ज़ाओ में बताए गए मॉडल ~70-85% सटीक हैं.

रिग्रेशन विश्लेषण में बहुत ज़्यादा वैरिएबल

एक से ज़्यादा तुलनाओं की समस्या, एक से ज़्यादा रिग्रेशन विश्लेषण पर लागू होती है. रिग्रेशन का विश्लेषण या लीनियर रिग्रेशन, कई न्यूमेरिक प्रेडिक्टिव मॉडल का आधार है. रिग्रेशन का विश्लेषण करने के लिए, कई तरीकों में से किसी एक का इस्तेमाल किया जाता है. जैसे, सामान्य सबसे कम स्क्वेयर रिग्रेशन गुणांक पता करना है, जो सबसे अच्छी तरह से बताता है कि एक वैरिएबल का असर पड़ता है. कोई दूसरा. रिसर्चर यह पूछ सकते हैं कि उम्र और धूम्रपान से फेफड़ों के कैंसर की दर पर कैसे असर पड़ता है कैंसर के रिग्रेशन विश्लेषण में, हर फ़ैक्टर को वैरिएबल के तौर पर दिखाना अलग-अलग उम्र के लोगों और धूम्रपान करने वालों में COVID-19 की घटनाओं के बारे में जानकारी. लीनियर रिग्रेशन मॉडल समान तरीके से काम करता है. इसलिए, यह काफ़ी समझा जा सकता है अन्य एमएल मॉडल की तुलना में. रिग्रेशन का पता लगाना उन वैरिएबल के गुणांक, दोनों के बीच रैखिक संबंधों की इन वैरिएबल और फेफड़े के कैंसर की दरों के बारे में ज़्यादा जानकारी मिलती है.

रिग्रेशन विश्लेषण में सभी संभावित वैरिएबल को शामिल करने से आपको फ़ायदा हो सकता है, कम से कम इसलिए, क्योंकि किसी महत्वपूर्ण कारक को शामिल नहीं करने पर भी इसके योगदान का कारण हो सकता है नज़रअंदाज़ किया जा रहा है. हालांकि, किसी रिग्रेशन विश्लेषण में बहुत ज़्यादा वैरिएबल जोड़ने से बिना काम के वैरिएबल के आंकड़ों के दिखने की संभावना को बढ़ाती है अहम. अगर हम अपने विश्लेषण में अठारह ज़्यादा बिना काम के वैरिएबल जोड़ दें, जैसे "देखी गई फ़िल्में" और "कुत्तों के मालिक हैं" तो हो सकता है कि इनमें से कोई एक अवसर के हिसाब से, बिना काम के वैरिएबल, फेफड़े के कैंसर की दर ज़्यादा होना.6

एमएल के बारे में देखें, लेकिन समान स्थिति में मशीन लर्निंग में काफ़ी ज़्यादा सुविधाएं मॉडल का इस्तेमाल कर सकते हैं, जिसकी वजह से ओवरफ़िटिंग, और समस्याएं हल करने में मदद करते हैं.

अनुमान और फ़ैसला

सोच के इन ट्रैप से बचने का एक तरीका है, आंकड़ों और मशीन लर्निंग का इस्तेमाल करना आंकड़ों से तैयार किए गए मॉडल, जो फ़ैसला लेने में मदद करने वाले टूल के तौर पर काम करते हैं. जवाब देने की ज़रूरत नहीं है. यह था पोज़िशन जो जेरज़ी नेमैन और इगॉन शार्प पियर्सन ने ली.7

इस फ़्रेमवर्क में, डेटा, डेटा के आंकड़े, और डेरिवेटिव. इनमें एमएल मॉडल भी शामिल हैं, अनुमान लगाने के लिए, सबसे सही माने जाते हैं. दुनिया भर के बयानों को गलत बनाना, अपनी रणनीति को बेहतर बनाना, और और फ़ैसला लेने में मदद करना शामिल है. वे सही नहीं हैं सच के बारे में सही दावे करने के लिए.

डेविड रिटर के अनुसार, विशाल डेटा दो बातों पर आधारित होना चाहिए:

  • "यह भरोसा कि आने वाले समय में संबंध की बार-बार होने की संभावना है," कौनसा यह इस बात पर आधारित होना चाहिए कि यह समझने की कोशिश करें कि आपके बीच संबंध क्यों पैदा हो रहा है.
  • अभिनय करने के जोखिम और इनाम.8

इसी तरह, यह भी हो सकता है कि रिसर्च से जुड़े सभी सवाल, एआई के लिए सही न हों. अनस्टेसिया एआई के इस्तेमाल से जुड़ी समस्या के लिए, Fedyk दो शर्तें देती है:

  • समस्या के लिए पूर्वानुमान की ज़रूरत है, न कि साधारण संबंधों को समझने की.
  • एआई को फ़ीड किए जा रहे डेटा में वह सब कुछ शामिल है जो समस्या; इसका मतलब है कि समस्या अपने-आप पूरी हो.9

रेफ़रंस

बेनेट, क्रेग एम॰, अबीगैल ए॰ बेयर्ड, माइकल बी॰ मिलर और जॉर्ज एल॰ वूल्फ़र्ड. "पोस्ट-मॉर्टम में लिए जाने वाले इंटरसेप्सी के नज़रिए का न्यूरल रिलेशन अटलांटिक सैमन: कई तुलनाओं में सुधार करने का तर्क." न्यूरोइमेज (2009).

काहिरा, अल्बर्टो. चार्ट का क्या असर होता है: विज़ुअल की जानकारी को लेकर ज़्यादा स्मार्ट बनें. न्यूयॉर्क: डब्ल्यू॰डब्ल्यू॰ नॉर्टन, 2019.

डैवनपोर्ट, थॉमस एच॰ "अनुमानित Analytics प्राइमर." HBR गाइड टू डेटा में मैनेजर के लिए Analytics से जुड़ी बुनियादी बातें (Boston: HBR Press, 2018) 81-86.

एलेनबर्ग, जॉर्डन. हाउ नॉट बी गलत: द पावर ऑफ़ मैथमैटिकल थिंकिंग. न्यूयॉर्क: पेंग्विन, 2014.

फ़ेडिक, अनस्तेसिया. "क्या मशीन लर्निंग से आपके कारोबार की समस्या हल हो सकती है?" HBR में मैनेजरों के लिए डेटा Analytics से जुड़ी बुनियादी बातों की गाइड (Boston: HBR Press, 2018) 111-119.

गैलो, एमी. "आंकड़ों के हिसाब से अहम जानकारी देना." HBR गाइड टू डेटा में मैनेजर के लिए Analytics से जुड़ी बुनियादी बातें (Boston: HBR Press, 2018) 121-129.

हफ़, डैरेल. आंकड़ों के साथ झूठ बोलने का तरीका. न्यूयॉर्क: डब्ल्यू॰डब्ल्यू॰ नॉर्टन, 1954.

आयोनिडिस, जॉन पी॰ ए॰ "ज़्यादातर पब्लिश की गई रिसर्च के नतीजे गलत क्यों हैं.". PLoS Med में 2 नं. 8: e124.

जोन्स, बेन. डेटा में होने वाली समस्याओं से बचना. होबोकेन, न्यूजर्सी: वाइली, 2020.

ली, जियांगशुए, और पीज़ ज़ाओ. "एफ़एमआरआई में डीप लर्निंग ऐप्लिकेशन – एक समीक्षा वाला काम" आईसीबीबीबी 2023 (टोक्यो, जापान, 13 से 16 जनवरी, 2023): 75-80. https://doi.org/10.1145/3586139.3586150

लिंडक्विस्ट, मार्टिन ए॰, और अमैंडा मेजिया. "ज़ेन और कई तुलनाओं की कला." साइकोसोमैटिक मेडिसिन 77 नंबर 2 (फ़रवरी से मार्च 2015): 114–125. डीओआई: 10.1097/PSY.0000000000000148.

रिटर, डेविड. "कोरिलेशन कब करें और कब नहीं." HBR गाइड में मैनेजरों के लिए डेटा के आंकड़ों से जुड़ी बुनियादी बातें (Boston: HBR Press, 2018) 103-109.

टागाकी, यू, और शिंजी निशिमोतो. "मानव दिमाग की गतिविधि से मिले लेटेंट डिफ़्यूज़न मॉडल की मदद से हाई-रिज़ॉल्यूशन वाली इमेज रीकंस्ट्रक्शन." आईईईई/सीवीएफ़ कॉन्फ़्रेंस 2023 कंप्यूटर विज़न और पैटर्न रिकग्निशन (वैंकूवर, बीसी, कनाडा, 2023): 14453-14463 है. डीओआई: 10.1109/CVPR52729.2023.01389.

व्हीलन, चार्ल्स. छिपे हुए आंकड़े: डेटा से डर को दूर करना. न्यूयॉर्क: डब्ल्यू॰डब्ल्यू॰ नॉर्टन, 2013

चोउ, कुन, यूताओ ज़ू, झिपेंग चेन, वेंटॉन्ग चेन, वेन शिन ज़ाओ, शु चेन, यंकाई लिन, जी-रोंग वेन, और जियावे हान. "एलएलएम को इवैलुएशन बेंचमार्क चीटर न बनाएं." arXiv:2311.01964 cs.CL.


  1. कैरो 182.

  2. ज़ो और अन्य

  3. लिंडक्विस्ट और मेजिया.

  4. ली और ज़ाओ 77-78.

  5. टगाकी और निशिमोटो.

  6. व्हीलन 221.

  7. एलेनबर्ग 159.

  8. रिटर 104.

  9. फ़ेडीक 113.