डेटा क्वालिटी और जानकारी

"कचरा फ़ेंकना हो और कचरा फेंकना हो."
— शुरुआती कॉन्टेंट की कहानियाँ

हर एमएल मॉडल के नीचे, कोरिलेशन का हर कैलकुलेशन, और हर डेटा-आधारित नीति के सुझाव में एक या एक से ज़्यादा रॉ डेटासेट होते हैं. चाहे वह कितनी ही सुंदर या असली प्रॉडक्ट आकर्षक या आकर्षक होने चाहिए, अगर उनका डेटा गलत, खराब तरीके से इकट्ठा किया गया या हल्की क्वालिटी वाला मॉडल, जिसकी वजह से मॉडल अनुमान, विज़ुअलाइज़ेशन या नतीजा भी कम होगा. क्वालिटी. मॉडल को विज़ुअलाइज़ करने वाला, उसका विश्लेषण करने, और उसे ट्रेनिंग देने वाला कोई भी व्यक्ति डेटासेट में डेटा के सोर्स के बारे में मुश्किल सवाल पूछे जाने चाहिए.

डेटा इकट्ठा करने वाले इंस्ट्रुमेंट में गड़बड़ी हो सकती है या उन्हें गलत तरीके से कैलिब्रेट किया जा सकता है. डेटा इकट्ठा करने वाले लोग थके हुए, शरारती, और एक जैसे काम करने वाले हो सकते हैं. इसके अलावा, वे काम भी नहीं कर सकते ट्रेनिंग दी गई. लोगों से गलतियां हो जाती हैं और कई लोग एक-दूसरे से सहमत नहीं हो सकते की कैटगरी में रखा जा सकता है. इस वजह से, डेटा की वैधता पर असर पड़ सकता है. साथ ही, हो सकता है कि डेटा में असल जानकारी न दिखे. बेन जोन्स, बचते डेटा के लेखक गलतियां, डेटा-रिएलिटी गैप, पाठक को याद दिलाना: "यह अपराध नहीं है, यह अपराध की शिकायत की गई है. यह नहीं है उल्का पिंडों के झटकों की संख्या से, यह उल्का पिंडों पर किए गए रिकॉर्ड किए गए हमलों की संख्या से हासिल होती है."

डेटा-रिएलिटी गैप के उदाहरण:

  • जोन्स के ग्राफ़, 5-मिनट के अंतराल पर समय के माप में जाते हैं, और वज़न की माप 5-पाउंड के अंतराल पर मापी जाती है, न कि डेटा की तुलना में डेटा इकट्ठा करने वाले सिस्टम में, उपकरणों के उलट अपनी संख्याओं को निकटतम 0 या 5 तक पूर्णांकित करने के लिए.1

  • साल 1985 में, जो फ़ार्मन, ब्रायन गार्डिनर, और जोनाथन शंकलिन, ब्रिटिश अंटार्कटिक सर्वे (बीएएस) ने पाया कि उनके माप से दक्षिणी गोलार्ध में ओज़ोन लेयर में सीज़न के हिसाब से छेद. यह ने नासा के डेटा से उलटा जानकारी दी, जिसमें ऐसा कोई छेद नहीं हुआ. नासा के भौतिक वैज्ञानिक रिचर्ड स्टोलर्स्की ने जांच की और पाया कि नासा का डेटा-प्रोसेसिंग सॉफ़्टवेयर इसे यह मानकर डिज़ाइन किया गया है कि ओज़ोन लेवल कभी भी ओज़ोन की मात्रा का पता चला है और ओज़ोन की मात्रा बहुत कम है उन्हें अपने-आप बेतुके आउटलायर के तौर पर हटा दिया जाता था.2

  • इस वाद्ययंत्र में कई तरह के काम करने के दौरान नाकाम होने वाले मोड होते हैं. कभी-कभी स्थिर होने के बाद भी, डेटा इकट्ठा कर रहा है. एडम रिंगलर और अन्य सीस्मोग्राफ़ की एक गैलरी उपलब्ध कराएँ इंस्ट्रुमेंट के काम न करने (और उनसे जुड़े अपडेट) की वजह से मिलने वाली रीडिंग साल 2021 के पेपर में "माय स्क्विगल्स मज़ेदार क्यों दिखती हैं?"3 उदाहरण के तौर पर दिए गए रीडआउट, असल भूकंप से जुड़ी गतिविधि के बारे में नहीं हैं.

मशीन लर्निंग का इस्तेमाल करने वाले लोगों के लिए, इन बातों को समझना बहुत ज़रूरी है:

  • किसने डेटा इकट्ठा किया
  • डेटा कैसे और कब इकट्ठा किया गया और यह किन स्थितियों में हुआ
  • मापने वाले उपकरणों की संवेदनशीलता और स्थिति
  • किसी खास डिवाइस में कोई गड़बड़ी और मानवीय गड़बड़ी कैसी दिख सकती है कॉन्टेक्स्ट
  • मानवीय संख्याओं को पूर्णांक बनाने और अपने हिसाब से जवाब देने की आदत होती है

आम तौर पर, डेटा और हकीकत में थोड़ा-बहुत अंतर होता है. इसे ग्राउंड ट्रूथ के नाम से भी जाना जाता है. अच्छे नतीजे पाने और सही फ़ैसला लेने के लिए, अंतर को ध्यान में रखना बेहद ज़रूरी है सही फ़ैसले लेने में मदद मिलती है. इसमें यह तय करना शामिल है:

  • एमएल की मदद से किन सवालों को हल किया जा सकता है और किन सवालों को हल करना चाहिए.
  • कौनसे सवाल एमएल के ज़रिए सबसे अच्छे तरीके से हल नहीं हो सकते.
  • ऐसे सवाल जिन्हें मशीन लर्निंग की मदद से हल करने के लिए अभी तक काफ़ी अच्छी क्वालिटी का डेटा नहीं मिला.

पूछें: डेटा की मदद से, सटीक और ज़्यादा शब्दों में क्या जानकारी दी जाती है? यह भी ज़रूरी है कि डेटा में क्या नहीं बताया गया है?

डेटा में मौजूद गंदगी

डेटा इकट्ठा करने की शर्तों की जांच करने के अलावा, डेटासेट इसमें ढेरों गड़बड़ी, गलतियां, और शून्य या अमान्य वैल्यू हो सकती हैं (जैसे, सांद्रता के नेगेटिव माप). क्राउड-सोर्स किया गया डेटा खास तौर पर, अस्त-व्यस्त. अज्ञात क्वालिटी के डेटासेट के साथ काम करने से गलत नतीजे मिल सकते हैं.

ये कुछ सामान्य समस्याएं हो सकती हैं:

  • स्ट्रिंग वैल्यू की गलत स्पेलिंग, जैसे कि जगह, नस्ल या ब्रैंड के नाम
  • गलत यूनिट कन्वर्ज़न, यूनिट या ऑब्जेक्ट टाइप
  • वैल्यू मौजूद नहीं हैं
  • लगातार गलत कैटगरी या गलत लेबल का इस्तेमाल करना
  • गणितीय संक्रियाओं के बचे हुए महत्वपूर्ण अंक जो किसी इंस्ट्रुमेंट की असल संवेदनशीलता

डेटासेट को साफ़ करने के लिए, अक्सर शून्य और गैर-मौजूद वैल्यू से जुड़े विकल्प शामिल होते हैं (चाहे उन्हें शून्य या खाली छोड़ने या 0s बदलने के लिए), स्पेलिंग ठीक करके एक वर्शन है, यूनिट और कन्वर्ज़न ठीक करना वगैरह. ज़्यादा बेहतर तकनीक, गायब वैल्यू को इंप्रेशन के तौर पर लागू करती है. इस बारे में डेटा की विशेषताएं मशीन लर्निंग क्रैश कोर्स में शामिल हैं.

सैंपलिंग, सर्वाइवरशिप बायस, और सरोगेट एंडपॉइंट समस्या

आंकड़ों की सहायता से बड़ी आबादी के लिए पूरी तरह से रैंडम सैंपल. इसकी भंगुरता ट्रेनिंग के इस असंतुलित और अधूरे इनपुट की वजह से, कई ML ऐप्लिकेशन की हाई-प्रोफ़ाइल विफलताओं के लिए किया गया है, जिनमें समीक्षा और पुलिसिंग फिर से शुरू कर सकें. इसकी वजह से पोलिंग फ़ेल हुए और डेमोग्राफ़िक (उम्र, लिंग, आय, शिक्षा वगैरह) ग्रुप के बारे में गलत नतीजे. ज़्यादातर मामलों में कंप्यूटर से जनरेट किया गया आर्टिफ़िशियल डेटा, पूरी तरह से रैंडम सैंपल भी हैं महंगा और उसे हासिल करना बहुत मुश्किल है. अलग-अलग समाधान और किफ़ायती इसके बजाय, प्रॉक्सी का इस्तेमाल किया जाता है, जो अलग-अलग सोर्स से जानकारी देते हैं पक्षपात.

उदाहरण के लिए, अलग-अलग स्तर से सैंपल इकट्ठा करने का तरीका इस्तेमाल करने के लिए, आपको बड़ी आबादी में हर सैंपल स्ट्रैटम की व्यावहारिकता. अगर आपको लगता है कि कोई ऐसी व्यापक जानकारी है जो वास्तव में गलत है, तो आपके परिणाम गलत होंगे. इसी तरह, ऑनलाइन पोलिंग शायद ही किसी राष्ट्रीय जनसंख्या का कोई रैंडम सैंपल हो, लेकिन इंटरनेट से कनेक्ट होने वाली जनसंख्या का एक (अक्सर कई देशों से) सर्वे को देखता है और उसमें हिस्सा लेना चाहता है. यह ग्रुप, किसी भी रैंडम सैंपल से अलग हो सकता है. इसमें मौजूद सवाल पोल संभावित सवालों के नमूने हैं. पोल से जुड़े उन सवालों के जवाब हैं, फिर से, जवाब देने वालों का कोई रैंडम सैंपल नहीं वास्तविक राय, लेकिन जो जवाब देने वालों ने सहजता से अपनी राय दी है, जो उनकी राय से अलग हो सकती हैं के बारे में बताएँगे.

क्लिनिकल हेल्थ रिसर्चर को एक ऐसी ही समस्या का सामना करना पड़ता है जिसे सरोगेट कहते हैं एंडपॉइंट से जुड़ी समस्या के बारे में ज़्यादा जानें. क्योंकि किसी दवा के असर की जांच करने में बहुत ज़्यादा समय लगता है मरीज़ की उम्र, रिसर्च करने वाले लोग उन प्रॉक्सी बायोमार्कर का इस्तेमाल करते हैं जिन्हें जीवन काल से संबंधित है, लेकिन हो सकता है नहीं भी हो. कोलेस्ट्रॉल लेवल का इस्तेमाल, सरोगेट की तरह किया जाता है हृदय संबंधी समस्याओं की वजह से दिल के दौरे और मौत का एंडपॉइंट: अगर कोई दवा कोलेस्ट्रॉल के लेवल को कम करता है, इसलिए दिल की समस्याओं के जोखिम को भी कम माना जाता है. हालांकि, हो सकता है कि कोरिलेशन की वह चेन मान्य न हो या वजह, रिसर्चर के अनुमान से अलग हो सकती है. वेंट्रॉब और अन्य देखें, "सरोगेट एंडपॉइंट के खतरे", पढ़ें. ML की ऐसी ही स्थिति है प्रॉक्सी लेबल.

गणितज्ञ अब्राहम वाल्ड ने डेटा सैंपलिंग की एक समस्या की पहचान की थी जो अब तक काफ़ी मशहूर है बताया गया भेदभाव के तौर पर मार्क किया गया. वापस जा रहे लड़ाकू हवाई जहाज़ अन्य जगहों पर नहीं. अमेरिकी सेना को और कवच जोड़ने थे बुलेट पॉइंट वाले इलाकों के हवाई जहाज़ों तक सीमित नहीं है, लेकिन वॉल्ड का रिसर्च ग्रुप इसके बजाय, यह सुझाव दिया जाता है कि कवच को बुलेट होल के बिना जगह पर लगाएं. उन्होंने सही अनुमान लगाया कि हवाई जहाज़ों से उड़ान भरने की वजह से उनका डेटा टेढ़ा-मेढ़ा था वे इलाके इतने खराब हो गए थे कि वे बेस पर वापस नहीं आ पा रहे थे.

हवाई जहाज़ की आउटलाइन में लाल बिंदु और गोल निशान
दूसरे विश्व युद्ध में बचे बमबारी के दौरान, गोलीबारी से हुए नुकसान का काल्पनिक डायग्राम

ऐसा हो सकता है कि किसी कवच का सुझाव देने वाले मॉडल को, सिर्फ़ लौटने के डायग्राम के आधार पर ट्रेनिंग दी गई हो ऐसे युद्ध-प्लेन, जिनमें डेटा में मौजूद सर्वाइवरशिप बायस के बारे में अहम जानकारी मौजूद नहीं है. उस मॉडल में ज़्यादा बुलेट छेद वाले इलाकों को और मज़बूत बनाने का सुझाव दिया जाता.

खुद ही चुनने से जुड़ा पूर्वाग्रह तब पैदा हो सकता है, जब लोगों की इच्छा से एक स्टडी में हिस्सा लिया. आत्मनिर्भरता कम करने के लिए साइन अप करने वाले कैदियों जैसे, यह प्रोग्राम ऐसे लोगों के लिए बना सकता है जिनकी Google Workspace सदस्यता में कैदियों की संख्या की तुलना में, आने वाले समय में होने वाले अपराधों की संख्या को कम किया जा सकता है. इससे नतीजों पर बुरा असर पड़ सकता है.4

रीकॉल पूर्वाग्रह की एक और सूक्ष्म नमूनाकरण समस्या है, जिसमें लोगों की जानकारी यादें. 1993 में, एडवर्ड जोवान्नुची ने एक आयु-मेल वाले समूह से जिनमें से कुछ महिलाओं को कैंसर हो चुका है, लेकिन वे अपने खान-पान पर पिछले आदतें. इन महिलाओं ने अपने शुरुआती दौर में खान-पान से जुड़ी आदतों पर एक सर्वे कैंसर का पता लगाना. जोवन्नुची ने खोज के नतीजों में यह बताया कि जिन महिलाओं के पास कैंसर नहीं होता ने अपने डाइट को सही तरीके से रिकॉल किया, लेकिन स्तन कैंसर से पीड़ित महिलाओं ने यह जानकारी दी पहले की तुलना में ज़्यादा फ़ैट खा रहे हैं—अनजाने में अपने कैंसर की संभावित (गलत) जानकारी देना.5

सवाल:

  • डेटासेट असल में सैंपलिंग क्या है?
  • सैंपलिंग के कितने लेवल मौजूद हैं?
  • सैंपलिंग के हर लेवल पर किस तरह के पूर्वाग्रह हो सकते हैं?
  • क्या प्रॉक्सी मेज़रमेंट का इस्तेमाल किया गया है (बायोमार्कर, ऑनलाइन पोल या बुलेट) होल) असल संबंध या कार्य-कारण दिखा रहा है?
  • सैंपल और सैंपलिंग के तरीके में क्या जानकारी मौजूद नहीं है?

फ़ेयरनेस मॉड्यूल में मशीन लर्निंग क्रैश कोर्स में, क्रैश का आकलन करने और उसे कम करने के तरीकों के बारे में बताया गया है डेमोग्राफ़िक डेटासेट में पक्षपात के अतिरिक्त सोर्स शामिल किए जा सकते हैं.

परिभाषाएं और रैंकिंग

शब्दों को साफ़ तौर पर और सटीक तरीके से परिभाषित करें. इसके अलावा, उनसे साफ़ तौर पर और सटीक परिभाषाएं बताने के लिए भी कहा जा सकता है. यह समझना ज़रूरी है कि डेटा से जुड़ी किन सुविधाओं पर विचार किया जा रहा है और किस चीज़ का अनुमान लगाया गया है या किस पर दावा किया गया है. चार्ल्स व्हीलन, नेकेड स्टैटिस्टिक्स में "अमेरिका के लोगों की सेहत के बारे में जानकारी देते हैं" मैन्युफ़ैक्चरिंग" . अमेरिका में की जाने वाली मैन्युफ़ैक्चरिंग "सेहत के लिए" या नहीं, पूरी तरह से इस बात पर निर्भर करता है कि शब्द को कैसे परिभाषित किया गया है. ग्रेग आईपीस The Economist के बारे में मार्च 2011 का लेख साफ़ तौर पर पता चलता है. अगर "स्वास्थ्य" मेट्रिक यानी "मैन्युफ़ैक्चरिंग" आउटपुट," तब 2011 में, अमेरिका में मैन्युफ़ैक्चरिंग क्षेत्र की स्थिति बेहतर होती जा रही थी. अगर "स्वास्थ्य" मेट्रिक को "मैन्युफ़ैक्चरिंग जॉब" कहा जाता है. हालांकि, यू.एस. मैन्युफ़ैक्चरिंग में गिरावट आई थी.6

रैंकिंग में अक्सर मिलती-जुलती समस्याएं होती हैं. इनमें धुंधली या बेतुकी समस्याएं शामिल होती हैं रैंकिंग के अलग-अलग कॉम्पोनेंट को दिया जाता है, रैंकर का में अंतर होता है और अमान्य विकल्प. द न्यू यॉर्कर में लिखते समय, मैल्कम ग्लैडवेल ने मिशिगन की सुप्रीम कोर्ट के चीफ़ जस्टिस, थॉमस ब्रेनन, जिन्होंने एक बार सौ वकीलों ने उनसे कहा कि क्वालिटी के हिसाब से दस लॉ स्कूल की रैंकिंग तय करें. इनमें से कुछ मशहूर हैं, कुछ नहीं भी. इन वकीलों ने पेन स्टेट लॉ स्कूल को करीब पांचवीं रैंकिंग में रखा हालांकि सर्वे के समय, पेन स्टेट के लिए स्कूल.7 कई जाने-माने रैंकिंग में इसी तरह की अन्य चीज़ें शामिल होती हैं भरोसेमंद कॉम्पोनेंट शामिल करें. जानें कि किन कॉम्पोनेंट की रैंकिंग की जाती है और वे क्यों कॉम्पोनेंट को उनके खास वेट असाइन किए गए थे.

कम संख्या और बड़े इफ़ेक्ट

सिक्का उछालने पर, 100% हेड या 100% टेल पाना कोई हैरानी की बात नहीं है दो बार. न ही चार बार सिक्का उछालने के बाद, 25% हेड मिलना कोई हैरानी की बात है. इसके बाद, अगले चार फ़्लिप के लिए, 75% हेड अहम रहते हैं. हालांकि, यह साफ़ तौर पर दिखाता है कि बहुत ज़्यादा बढ़ोतरी (इसे गलती से सैंडविच खाने की वजह से किया जा सकता है) सिक्का उछालने या किसी अन्य नकली फ़ैक्टर के बीच में अंतर कर दिया जाता है. हालांकि, जिस संख्या में सिक्का उछालने का प्रतिशत बढ़ जाता है, जैसे कि 1,000 या 2,000 तक उनमें से 50% की संभावना खत्म होने वाली है.

किसी अध्ययन में मापों या प्रायोगिक विषयों की संख्या को अक्सर N करें. संभावना के कारण बड़े समानुपातिक परिवर्तन की संभावना डेटासेट और सैंपल में, N कम होता है.

डेटा कार्ड में, डेटासेट का विश्लेषण करते समय या दस्तावेज़ तैयार करते समय, N, ताकि दूसरे लोग शोर और रैंडमनेस के असर को समझ सकें.

मॉडल की क्वालिटी, उदाहरणों की संख्या के हिसाब से होती है. इसलिए, डेटासेट के साथ कम N होने की वजह से, खराब क्वालिटी वाले मॉडल मिलते हैं.

मीन तक प्रतिगमन (रिग्रेशन)

इसी तरह, जिस मेज़रमेंट का संयोग से कुछ असर पड़ता है, वह इफ़ेक्ट को इस नाम से जाना जाता है मीन के हिसाब से रिग्रेशन. इससे यह पता चलता है कि किसी बहुत ज़्यादा माप के बाद, कैसे मेज़रमेंट किया जाता है औसतन, बहुत मुश्किल या मीन के करीब होती है. इसकी वजह पहले स्थान पर सबसे गंभीर माप के होने की संभावना नहीं थी. कॉन्टेंट बनाने किसी ग्रुप में खास तौर पर औसत से ज़्यादा या औसत से कम होने पर, ज़्यादा असर होता है को यह देखने के लिए चुना गया था कि क्या वह समूह जनसंख्या, टीम के सबसे खराब एथलीट या जिन्हें स्ट्रोक का खतरा सबसे ज़्यादा होता है. कॉन्टेंट बनाने सबसे ऊंचे लोगों के बच्चों के बच्चों की उम्र उनके बच्चों से छोटी होने की औसतन संभावना है अपवाद के बाद, सबसे खराब एथलीट की परफ़ॉर्मेंस बेहतर होने की संभावना रहती है मौसम खराब है और जिन्हें स्ट्रोक का खतरा सबसे ज़्यादा होता है, उनमें जोखिम कम हो सकता है किसी समस्या के समाधान के बाद, न कि किसी समस्या की वजह से, लेकिन क्योंकि इसमें कभी-कभी बदलाव आ जाता है.

एक्सप्लोर करते समय, मीन पर रिग्रेशन के असर को कम करने के लिए एक तरीका औसत से ज़्यादा या उससे कम ग्रुप के लिए इंटरवेंशन या ट्रीटमेंट अलग-अलग विषयों को अलग-अलग करने के लिए, उन्हें स्टडी ग्रुप और कंट्रोल ग्रुप में बांटें वजह पर असर पड़ सकता है. एमएल (मशीन लर्निंग) के हिसाब से, इस तरीके से पता चलता है कि ज़्यादा पैसे खर्च करने हैं. ऐसे किसी भी मॉडल पर ध्यान दें जो असामान्य या बाहरी वैल्यू का अनुमान लगाता है, जैसे:

  • खराब मौसम या तापमान
  • सबसे अच्छा परफ़ॉर्म करने वाले स्टोर या एथलीट
  • किसी वेबसाइट पर सबसे लोकप्रिय वीडियो

अगर किसी मॉडल के इन रुझानों का पता लगाया जाता है समय के साथ अपवाद के तौर पर सेट की गई वैल्यू, हकीकत से मेल नहीं खातीं. उदाहरण के लिए, यह अनुमान लगाना कि बेहद सफल स्टोर या वीडियो तब तक सफल रहेंगे, जब तक असल में वे ऐसा करते हैं नहीं है, तो पूछें:

  • क्या औसत पर प्रतिगमन (रिग्रेशन) की वजह से समस्या हो सकती है?
  • क्या उन सुविधाओं का अनुमान लगाने के लिए अनुमान लगाया जा सकता है जिनमें सबसे ज़्यादा वेट कम वज़न वाली सुविधाओं की तुलना में कम है?
  • क्या ऐसा डेटा इकट्ठा किया जाता है जिसमें उन सुविधाओं की बेसलाइन वैल्यू होती है, अक्सर शून्य (कंट्रोल ग्रुप असरदार तरीके से) है, तो मॉडल के अनुमान बदलते हैं?

रेफ़रंस

हफ़, डैरेल. आंकड़ों के साथ झूठ बोलने का तरीका. न्यूयॉर्क: डब्ल्यू॰डब्ल्यू॰ नॉर्टन, 1954.

जोन्स, बेन. डेटा में होने वाली समस्याओं से बचना. होबोकेन, न्यूजर्सी: वाइली, 2020.

ओ'कॉनर, कैलिन, और जेम्स ओवेन वेदरॉल. गलत जानकारी को फैलने से रोकने वाला युग. न्यू हेवन: येल यूपी, 2019.

रिंगलर, एडम, डेविड मेसन, गाबी लास्क, और मैरी टेंपलटन. "मेरी स्क्विगलें मज़ेदार क्यों लगती हैं? हैक किए गए भूकंप के सिग्नल की गैलरी." साइज़्मॉलॉजिकल रिसर्च लेटर 92 नंबर 6 (जुलाई 2021). डीओआई: 10.1785/0220210094

वाइनट्रब, विलियम एस, थॉमस एफ़॰ लुशर और स्टुअर्ट पोकॉक. "सरोगेट एंडपॉइंट के खतरे." यूरोपियन हार्ट जर्नल 36 नंबर 33 (सितंबर 2015): 2212–2218. डीओआई: 10.1093/eurHeartj/ahv164

व्हीलन, चार्ल्स. छिपे हुए आंकड़े: डेटा से डर को दूर करना. न्यूयॉर्क: डब्ल्यू॰डब्ल्यू॰ नॉर्टन, 2013

इमेज का रेफ़रंस

"सर्वाइवरशिप बायस." मार्टिन ग्रैंडजीन, मैकगेडन, और कैमरन मोल 2021. CC BY-SA 4.0. सोर्स


  1. जोन्स 25-29.

  2. ओ'कॉनर और वेदरॉल 22-3.

  3. रिंगलिंग और अन्य

  4. व्हीलन 120.

  5. सिद्धार्थ मुखर्जी, "क्या सेलफ़ोन से दिमाग का कैंसर होता है?" द न्यूयॉर्क टाइम्स में,13 अप्रैल, 2011 को हुआ था. व्हीलन 122 में बताया गया.

  6. व्हीलन 39-40.

  7. मैलकम ग्लैडवेल, "द ऑर्डर ऑफ़ थिंग्स", द न्यू यॉर्कर में 14 फ़रवरी, 2011 को. व्हीलन 56 में बताया गया.