مصائد التحليل

"جميع النماذج خاطئة ولكن بعضها مفيد". — "جورج بوكس"، 1978

وعلى الرغم من فعالية الأساليب الإحصائية، إلا أن لها حدود قصوى. فهم يمكن أن تساعد هذه القيود الباحث في تجنب التقصير والادعاءات غير الدقيقة، مثل تأكيد بي إف سكينر بأن شكسبير لم يستخدم الجناس بأكثر من ستتنبأ به العشوائية. (كانت دراسة سكينر مبطّنة.1)

أشرطة عدم اليقين والخطأ

من المهم تحديد عدم اليقين في تحليلك. من المهم بنفس القدر لتحديد عدم اليقين في تحليلات الآخرين. نقاط البيانات التي تظهر لرسم اتجاه على رسم بياني، ولكن مع وجود أشرطة خطأ متداخلة، قد لا يشير إلى أي نمط على الإطلاق. قد يكون عدم اليقين أيضًا عاليًا جدًا بحيث لا يمكن استخلاص معلومات الاستنتاجات من دراسة معينة أو اختبار إحصائي. إذا كانت دراسة دقة على مستوى قطعة البيانات، وهي مجموعة بيانات جغرافية مكانية مع درجة عدم يقين تبلغ +/- 500 متر به الكثير من عدم اليقين بحيث لا يمكن استخدامه.

بدلاً من ذلك، قد تكون مستويات عدم اليقين مفيدة أثناء اتخاذ القرار والعمليات. البيانات التي تدعم معالجة مياه معينة مع عدم يقين بنسبة 20٪ في فقد تؤدي النتائج إلى توصية بتنفيذ هذا الماء مع المراقبة المستمرة للبرنامج لمعالجة عدم اليقين هذا.

شبكات بايز العصبية قياس عدم اليقين من خلال التنبؤ بتوزيع القيم بدلاً من القيم.

عدم الصلة بالموضوع

كما نوقش في المقدمة، هناك دائمًا فجوة صغيرة على الأقل بين البيانات والحقيقة الواقعية. يجب أن يثبت الممارس الذكي لتعلُّم الآلة ما إذا كان مجموعة البيانات ذات صلة بالسؤال المطروح.

يصف هوف دراسة مبكرة للرأي العام أظهرت أن الأمريكيين البيض إجابات عن سؤال حول مدى سهولة قيام الأمريكيين ذوي البشرة السوداء على أرض الواقع ارتباطًا مباشرًا وعكسيًا بمستوى التعاطف تجاه الأمريكيين ذوي البشرة السوداء. فمع زيادة الرغبة العرقية، أصبحت الاستجابة بشأن الفرص الاقتصادية المتوقعة أكثر فأكثر متفائل. كان من الممكن إساءة فهم هذا كعلامة على التقدم. ومع ذلك، يمكن أن تظهر الدراسة لا شيء عن الفرص الاقتصادية المتاحة للأمريكيين من أصل أفريقي في ذلك الوقت، ولم تكن مناسبة لاستخلاص النتائج حول واقع سوق العمل - فقط آراء المشاركين في الاستبيان. البيانات التي تم جمعها كان في الواقع غير مرتبط بحالة سوق العمل.2

يمكنك تدريب نموذج على بيانات استبيان مثل تلك الموضحة أعلاه، حيث يقيس الناتج في الواقع التفاؤل بدلاً من الفرصة. ولكن لأن الفرص المتوقعة ليست ذات صلة بالفرص الفعلية، إذا النموذج كان يتنبأ بالفرص الفعلية، فمن المحتمل تقديم وصف مضلل لما يتوقعه النموذج.

الارتباك

المتغير المربك أو الملبس أو العامل المساعد هو متغير ليست قيد الدراسة ويؤثر على المتغيرات قيد الدراسة وقد تشوّه النتائج. على سبيل المثال، بالنظر إلى نموذج تعلُّم الآلة الذي يتنبأ بمعدلات الوفيات لأحد الإدخالات. البلد استنادًا إلى ميزات سياسة الصحة العامة. لنفترض أن الوسيط العمر ليس ميزة. ولنفترض أيضًا أن بعض البلدان لديها والسكان من غيرهم. وبتجاهل المتغير المربك لمتوسط العمر، فإن هذا النموذج قد يتنبأ بمعدلات الوفيات الخاطئة.

في الولايات المتحدة، غالبًا ما يرتبط العرق ارتباطًا وثيقًا بالعلاقات الاجتماعية والاقتصادية الفئة، على الرغم من أن العرق فقط، وليس الفئة، يتم تسجيلها مع بيانات الوفيات. المشكلات المرتبطة بالصف، مثل الحصول على الرعاية الصحية والتغذية والعمل الخطير والإسكان الآمن، قد يكون لها تأثير أقوى على معدلات الوفيات من العرق ولكن إهمالها لأنها غير مضمّنة في مجموعات البيانات.3 والتحكم في هذه الخلافات أمر بالغ الأهمية لإنشاء نماذج واستخلاص استنتاجات مفيدة ودقيقة.

إذا تم تدريب نموذج على بيانات الوفيات الحالية، والتي تشمل العرق وليس الفئة، فقد تتنبأ بعدد الوفيات بناءً على العرق، حتى إذا كانت الفئة أقوى متنبئ للوفيات. وهذا يمكن أن يؤدي إلى افتراضات غير دقيقة حول السببية والتنبؤات غير الدقيقة حول وفيات المرضى. ممارسو تعلُّم الآلة يجب أن يسأل ما إذا كانت هناك تناقضات في بياناته، وكذلك ما المغزى والمتغيرات المفقودة من مجموعة البيانات الخاصة بها.

في عام 1985، قامت الممرضات دراسة صحية، دراسة جماعية رصدية من جامعة هارفارد وجدت كلية الطب وكلية هارفارد للصحة العامة أن أعضاء الفئة كان تناول العلاج البديل لهرمون الاستروجين يقل احتمال حدوث النوبات القلبية مقارنةً بأعضاء المجموعة النموذجية الذين لم يسبق لهم الاستروجين. ونتيجة لذلك، وصف الأطباء هرمون الاستروجين مرضى انقطاع الطمث وما بعد سن اليأس لعقود، حتى إجراء دراسة سريرية في حدد عام 2002 مخاطر صحية ناجمة عن العلاج بالإستروجين على المدى الطويل. الممارسة توقف وصف الأستروجين للنساء بعد انقطاع الطمث، ولكن ليس قبل التسب بعشرات الآلاف من الوفيات المبكرة.

ربما تسبّب العديد من الارتباك في عملية الربط. علماء الأوبئة أن النساء اللواتي يتناولن العلاج بالهرمونات، مقارنة بالنساء اللواتي لا يخضعن للعلاج، يكونون أكثر نحافة وتعليمًا وثراءً ووعيًا بصحتهم وأكثر احتمالاً لممارسة الرياضة. في دراسات مختلفة، كان التعليم والثروة وجدت للحد من خطر الإصابة بأمراض القلب. كانت هذه التأثيرات قد اختلطت عليك العلاقة الواضحة بين العلاج بهرمون الاستروجين والنوبات القلبية4

النسب المئوية التي تحتوي على أرقام سالبة

تجنَّب استخدام النسب المئوية عندما تكون الأرقام السالبة،5 باعتبارها جميع أنواع يمكن إخفاء المكاسب والخسائر ذات المغزى. لنفترض أنه من أجل البساطة في الرياضيات، أن صناعة المطاعم بها مليونا وظيفة. إذا خسر المجال 1 مليون من هذه الوظائف في أواخر آذار (مارس) 2020، لم يطرأ أي تغيير صافي عليها و900,000 وظيفة في أوائل فبراير 2021 مقارنةً بالعام السابق مقارنة في أوائل مارس 2021 إلى خسارة بنسبة 5٪ فقط في وظائف المطاعم. بافتراض عدم إجراء أي تغييرات أخرى، تتم مقارنة المقارنة بالعام السابق في نهاية فبراير قد يشير عام 2022 إلى زيادة بنسبة 90٪ في وظائف المطاعم، وهو أمر مختلف تمامًا للواقع.

تفضيل الأرقام الفعلية، مع تسويتها حسب الحاجة. راجِع العمل باستخدام الأعداد الرقمية Cata لمعرفة المزيد.

المغالطة ما بعد الهجرة والارتباطات غير القابلة للاستخدام

خطأ ما بعد إعادة التخصيص هو الافتراض بأن الحدث "أ" قد تبعه الحدث "ب"، تسبب الحدث "أ" في حدوث الحدث "ب". ببساطة، يعني ذلك أنك تفترض علاقة السبب والنتيجة في حال عدم وجودها. يمكنك أيضًا إجراء ما يلي بسهولة أكبر: والارتباطات لا تثبت السببية.

بالإضافة إلى علاقة السبب والنتيجة الواضحة، يمكن أن تؤدي الارتباطات أيضًا تنشأ من:

  • فرصة بحتة (انظر "تايلر فيغن" الارتباطات الزائفة مقابل الرسوم التوضيحية، بما في ذلك الارتباط القوي بين معدل الطلاق في ولاية ماين والسمن).
  • هناك علاقة حقيقية بين متغيرين، على الرغم من أنه تظل غير واضحة يكون سببيًا وأيهما يتأثر.
  • سبب ثالث منفصل يؤثر على كلا المتغيرين، على الرغم من المتغيرات المترابطة غير مرتبطة ببعضها البعض. التضخم العالمي على سبيل المثال، يمكن أن يرفع أسعار كل من اليخوت والكرفس.6

كما أنه من الخطورة استنتاج أي ارتباط يتجاوز البيانات الموجودة. يشير "هوف" إلى أنّ بعض تساقط الأمطار سيحسّن المحاصيل، ولكن الكثير من الأمطار ستلحق الضرر تكون العلاقة بين نتائج هطول الأمطار والمحاصيل غير خطية.7 (الاطّلاع على القسمين التاليين للتعرّف على مزيد من المعلومات حول العلاقات غير الخطية). جونز أن العالم مليء بالأحداث غير المتوقعة، مثل الحرب والمجاعة، والتي ترجع إلى التوقعات المستقبلية لبيانات السلاسل الزمنية قدر هائل من عدم اليقين.8

علاوة على ذلك، قد لا يكون الارتباط الحقيقي الذي يستند إلى السبب والنتيجة ومفيدة في اتخاذ القرارات. يقدم هوف، كمثال، الارتباط بين الزواج والتعليم الجامعي في خمسينيات القرن العشرين. النساء اللواتي ذهبن إلى الكلية أقل عرضة للزواج، ولكن كان من الممكن أن يكون الأمر كذلك أن النساء اللواتي ذهبن إلى الكلية كان أقل ميلًا إلى الزواج في البداية. إذا كان الأمر كذلك، فإن التعليم الجامعي لم يغيّر احتمالية من الزواج.9

إذا اكتشف التحليل وجود ارتباط بين متغيرين في مجموعة بيانات، فاسأل:

  • ما نوع الارتباط: السبب والنتيجة، زائف، غير معروف أو علاقة فعلية بها أو ناتج عن متغير ثالث؟
  • ما مدى خطورة الاستنتاج من البيانات؟ كل توقع نموذجي على البيانات التي ليست في مجموعة بيانات التدريب هي استقراء البيانات أو الاستنتاج من البيانات.
  • هل يمكن استخدام الارتباط لاتخاذ قرارات مفيدة؟ على سبيل المثال: يمكن أن يكون التفاؤل مرتبطًا بشدة بزيادة الأجور، تحليل الآراء لمجموعة كبيرة من البيانات النصية، مثل وسائل التواصل الاجتماعي مشاركات المستخدمين في بلد معين، قد لا يكون من المفيد التنبؤ زيادة الأجور في ذلك البلد.

عند تدريب أحد النماذج، يبحث ممارسو تعلُّم الآلة عمومًا عن الميزات التي ترتبط ارتباطًا وثيقًا بالتسمية. إذا كانت العلاقة بين الميزات والتسمية غير مفهومة جيدًا، فقد يؤدي ذلك إلى المشكلات الموضحة في هذا القسم، بما في ذلك النماذج التي تستنِد إلى ارتباطات ونماذج كاذبة تفترض أن الاتجاهات التاريخية ستستمر في المستقبل، في حين أنها في الواقع لا تفعل ذلك.

الانحياز الخطي

ضِمن "التفكير الخطي في عالم غير خطي" يصف بارت دي لانغ وستيفانو بونتوني وريتشارد لاريك التحيز الخطي بأنه ميل الدماغ البشري إلى توقع العلاقات الخطية والبحث عنها، على الرغم من فإن العديد من الظواهر تكون غير خطية. العلاقة بين المواقف البشرية على سبيل المثال، منحنى محدب وليس خطًا. في مجلة نشر عام 2007 مقالة حول سياسة المستهلك نقلتها صحيفة de Langhe et al. Jenny van Doorn et al. ووضع نموذج للعلاقة بين المشاركين في الاستطلاع قلق بشأن البيئة والمشاركين عمليات شراء المنتجات العضوية. الذين لديهم المخاوف البالغة الأهمية بشأن البيئة والتي قامت بشراء المزيد من المنتجات العضوية، لكن كان هناك الكثير اختلاف بسيط بين جميع المشاركين الآخرين.

عمليات شراء المنتجات العضوية مقابل درجة الاهتمام بالبيئة
  يظهر خط مسطّح في الغالب مع منحنى محدب حاد لأعلى في أقصى اليمين
تم تبسيط ومقارنة الرسم البياني للمشتريات العضوية مقابل الاهتمام بالبيئة من مجلة van Doorn et al. ورق

عند تصميم نماذج أو دراسات، ضع في الاعتبار إمكانية وجود نماذج غير خطية علاقات. لأنّ اختبار A/B فقد تغيب علاقات غير خطية، فكر أيضًا في اختبار طرف ثالث متوسط الشرط، C. وأيضًا ضع في اعتبارك ما إذا كان السلوك الأولي الذي يظهر خطية خطية، أو ما إذا كانت أي بيانات مستقبلية لإظهار المزيد من السلوكيات اللوغاريتمية أو غيرها من السلوكيات غير الخطية.

التوافق الخطي للبيانات اللوغاريتمية يظهر التوافق الجيد مع أول
  إلى نصف البيانات، ويزداد سوءًا بعد ذلك.
مثال لتوفُّر خطّي ضعيف مع البيانات اللوغاريتمية

يوضح هذا المثال الافتراضي ملاءمة خطية خاطئة للبيانات اللوغاريتمية. إذا توفرت نقاط البيانات القليلة الأولى فقط، فسيكون من المغري وغير صحيح لافترض أن هناك علاقة خطية مستمرة بين المتغيرات.

الاستيفاء الخطي

فحص أي استقراء بين نقاط البيانات، بسبب الاستيفاء يقدم نقاطًا خيالية، وقد تشير الفواصل بين القياسات الحقيقية تحتوي على تقلبات كبيرة. على سبيل المثال، ضع في اعتبارك ما يلي: تصور أربع نقاط بيانات مرتبطة بعمليات الاستيفاء الخطية:

العرض على مدار الوقت يوضح أربع نقاط متصلة بخط مستقيم.
مثال على الاستيفاء الخطي

ثم ضع في الاعتبار هذا المثال للتقلّبات بين نقاط البيانات تم محوها عن طريق الاستيفاء الخطي:

نفس النقاط كما كان من قبل، ولكن مع تقلبات ضخمة بين النقطتين الثانية والثالثة.
مثال على التقلبات الواضحة (زلزال) بين نقاط البيانات

وقد تمت صياغة هذا المثال لأن عمليات الزلازل تجمع بيانات مستمرة، ولذلك لن يفوتك هذا الزلزال. لكنها مفيدة لتوضيح الافتراضات التي تصدر من خلال عمليات الاستيفاء، والظواهر الحقيقية التي تستنِد إليها قد يفوت الممارسين.

ظاهرة "رونج"

ظاهرة "رونج"، أيضًا المعروف باسم "المناورة متعددة الحدود" يمثل مشكلة في الطرف الآخر من الطيف من الاستيفاء الخطي والتحيز الخطي. عند تناسب كثير الحدود باستكمال البيانات، من الممكن استخدام متعدد الحدود بدرجة عالية جدًا (درجة أو ترتيب، ويمثل أعلى أس في المعادلة متعددة الحدود). هذا النمط وتُنتج اهتزازات غريبة عند الحواف. على سبيل المثال، يؤدي تطبيق الاستقراء المتعدد الحدود من الدرجة 11، مما يعني أن الحد الأعلى ترتيبًا في فإن المعادلة متعددة الحدود تشتمل على \(x^{11}\)، إلى بيانات خطية تقريبًا، ينتج عنها التوقعات السيئة بشكل ملحوظ في بداية ونهاية نطاق البيانات:

محتوى مُجدوَل تقريبًا
  بيانات عدة متوافقة مع استقراء متعدد الحدود من الدرجة 11، مما يوضح
  الارتفاع التصاعدي بين أول نقطتي بيانات وارتفاع حاد في الانخفاض
  بين آخر نقطتي بيانات
مثال على اهتزاز متعدّد الحدود

في سياق التعلم الآلي، تحدث الظواهر التناظرية فرط التخصيص.

حالات إخفاق إحصائية في الكشف

في بعض الأحيان، قد يكون الاختبار الإحصائي ضعيفًا جدًا بحيث لا يمكن اكتشاف تأثير صغير. تعني القوة المنخفضة في التحليل الإحصائي فرصة منخفضة تحديد الأحداث الصحيحة، وبالتالي تكون هناك فرصة كبيرة لظهور نتائج سالبة خاطئة. "كاثرين بوتون" وآخرون كتبت في مقالة Nature: "عندما تكون الدراسات في مجال معين بتصميم قوي بنسبة 20%، فهذا يعني أنه إذا كان هناك 100 نوع غير خالٍ التأثيرات التي سيتم اكتشافها في هذا المجال، يُتوقع من هذه الدراسات اكتشاف 20 منها فقط". يمكن أن تساعد زيادة حجم العينة في بعض الأحيان، كما هو الحال تصميم الدراسة.

الوضع التناظري في التعلم الآلي هو مشكلة التصنيف اختيار حد التصنيف. يؤدي اختيار حد أعلى إلى عدد الحالات الموجبة الخاطئة أكثر وعددًا أكبر من الحالات السالبة الخاطئة، بينما ينتج عن الحد الأدنى للنتائج الموجبة الخاطئة في المزيد من الحالات الموجبة الخاطئة وعدد الحالات السالبة الخاطئة.

بالإضافة إلى المشكلات المتعلقة بالقوة الإحصائية، نظرًا لأن الارتباط لاكتشاف العلاقات الخطية والارتباطات غير الخطية بين التي يمكن تفويتها. وبالمثل، يمكن أن تكون المتغيرات مرتبطة بكل البعض ولكن لا تكون مرتبطة إحصائيًا. يمكن أيضًا أن تكون المتغيرات مرتبطة سلبيًا ولكنها غير ذات صلة تمامًا، فيما يُعرف باسم متناقض بيركسون أو خطأ بيركسون. والمثال الكلاسيكي لإطار عمل بيركسون الخطأ هو الارتباط السلبي الزائف بين أي خطر العامل والمرض الخطير عند النظر إلى المرضى داخل المستشفى (كما مقارنة بالمجتمع الإحصائي العام)، والتي تنشأ عن عملية الاختيار ( حالة شديدة لدرجة تتطلب الدخول إلى المستشفى).

ضع في اعتبارك ما إذا كانت أي من هذه الحالات تنطبق.

النماذج القديمة والافتراضات غير الصالحة

حتى النماذج الجيدة يمكن أن تتدهور بمرور الوقت لأن السلوك (والعالم، المعنية) قد تتغير. كان لابد من إيقاف نماذج التنبؤ المبكر في نتفليكس تغيرت قاعدة عملائها من المستخدمين الشباب ذوي الخبرة التكنولوجية إلى المستخدمين السكان.10

يمكن أن تحتوي النماذج أيضًا على افتراضات صامتة وغير دقيقة قد تظل مخفية. حتى الفشل الكارثي للنموذج، كما كان في انهيار السوق عام 2008. تشير رسالة الأشكال البيانية نماذج القيمة المعرضة للمخاطر (VaR) في الصناعة المالية المطالب بها تقديرًا دقيقًا أقصى خسارة في محفظة أي متداول، لنفترض أن الحد الأقصى للخسارة $100000 متوقع في 99% من الوقت. ولكن في الظروف غير الطبيعية من العطل، وهو محفظة بحجم يبلغ $100,000 كحد أقصى يفقد أحيانًا $1,000,000 أو أكثر.

استندت نماذج معدّل القيمة المتغيّرة إلى افتراضات خاطئة، بما في ذلك ما يلي:

  • تنبئ تغييرات السوق السابقة بتغيّرات السوق المستقبلية.
  • كان التوزيع الطبيعي (رقيق الذيل، وبالتالي يمكن التنبؤ به) المحددة للعائدات المتوقعة.
توزيع فون ميسيس مع k=5، الذي يشبه توزيع غاوس، وتوزيع k=1 المسطح وk=.2.
رسم بياني لتوزيع فون ميسيس، ذو الذيل رقيق عند درجة K العالية، وذيل سمين عند انخفاض K.

في الواقع، كان التوزيع الأساسي ذو ذيل سمين، "واي"، أو كسرية، مما يعني أن هناك خطرًا أعلى بكثير من الاصطدام بذيل طويل وشديد الارتفاع ومن المفترض أحداثًا نادرة أكثر مما يمكن أن يتوقعه التوزيع العادي. الطبيعة ذات الذيل السمين كان التوزيع الحقيقي معروفًا بشكل جيد، ولكن لم يتم اتخاذ إجراء بناءً عليه. الجوانب السلبية هو مدى تعقيد الظواهر المختلفة والمترابطة بإحكام، بما في ذلك التداول المستند إلى الكمبيوتر من خلال عمليات البيع الآلية.11

مشاكل التجميع

يشير هذا المصطلح إلى البيانات المجمَّعة التي تتضمّن معظم الخصائص الديمغرافية والوبائية. البيانات، تخضع لمجموعة معينة من الفخاخ. متناقض سيمبسون ومتناقض الدمج، في البيانات المجمّعة حيث تظهر هناك اتجاهات تختفي أو تتراجع عندما يتم تجميع البيانات على مستوى مختلف، بسبب العوامل المربكة وسوء فهم العلاقات السببية.

يتضمن الخطأ البيئي استقراء المعلومات بشكل خاطئ عن المجموعة بالكامل على مستوى تجميع إلى مستوى تجميع آخر، حيث تكون قد تكون المطالبة غير صالحة. مرض يصيب 40٪ من العمال الزراعيين في قد لا تكون مقاطعة واحدة موجودة بنفس الانتشار في المقاطعات وعدد السكان. ومن المحتمل جدًا أيضًا أن تكون هناك مزارع معزولة أو المدن الزراعية في تلك المقاطعة التي لا تشهد ارتفاعًا مشابهًا انتشار هذا المرض. افتراض انتشار 40٪ في تلك الأقل تأثرًا الأماكن أيضًا ستكون خاطئة.

تُعد مشكلة وحدة المنطقة القابلة للتعديل (MAUP) من المشاكل المعروفة في البيانات الجيوفضائية، التي وصفها ستان أوبنشو في عام 1984 في CATMOG 38: اعتمادًا على أشكال وأحجام المناطق المستخدمة البيانات المجمّعة، يمكن لممارس البيانات الجيوفضائية إنشاء أي الارتباط بين المتغيرات في البيانات. التصويت بالرسم والمناطق التي تفضل طرفًا أو آخر هي مثال على MAUP.

تتضمن جميع هذه المواقف استقراءًا غير ملائم من مكان تجميع البيانات إلى مستوى آخر. قد تتطلب مستويات مختلفة من التحليل تجميعات أو حتى مجموعات بيانات مختلفة تمامًا.12

لاحظ أن بيانات التعداد السكاني والخصائص الديموغرافية والوبائية عادة ما تكون حسب المناطق لأسباب تتعلق بالخصوصية، وأن هذه المناطق غالبًا ما تكون عشوائيًا، أي أنه ليس مستنِدًا إلى حدود حقيقية ذات مغزى. فعندما عند العمل باستخدام هذه الأنواع من البيانات، يجب على ممارسي تعلُّم الآلة التحقق مما إذا كان النموذج يتغير الأداء والتوقعات حسب حجم وشكل المناطق محدد أو مستوى التجميع، وإذا كان الأمر كذلك، سواء كانت تنبؤات النماذج بإحدى مشكلات التجميع هذه.

المراجع

Button, Katharine et al. "خطأ في الطاقة: لماذا يؤدي حجم العينة الصغير إلى تقويض وموثوقية علم الأعصاب". الطبيعة مراجعات Neuroscience الجزء 14 (2013)، 365–376. معرّف الكائن الرقمي (DOI): https://doi.org/10.1038/nrn3475

القاهرة، ألبرتو. كيف تكمن المخططات: تعزيز ذكاء المعلومات المرئية؟ نيويورك: دبليو. دبليو Norton، 2019

دافنبورت، توماس هـ. "دراسة تمهيدية للتحليلات التنبؤية". في دليل HBR للبيانات أساسيات Analytics للمدراء (Boston: HBR Press, 2018) 81-86.

دي لانغي وبارت وستيفانو بونتوني وريتشارد لاريك. "التفكير الخطي في عالم غير خطي" في دليل HBR لأساسيات تحليلات البيانات للمدراء (Boston: HBR Press، 2018) 131-154.

إلينبرغ، جوردان. How Not to Be False: (قوة التفكير الرياضي) نيويورك: Penguin، 2014.

هوف، داريل. كيفية التعامل مع الإحصاءات نيويورك: دبليو. دبليو نورتون، 1954.

جونز، بن. تجنُّب مخاطر البيانات: هوبوكين، نيو جيرسي: وايلي، 2020.

Openshaw، ستان. "مشكلة وحدة المنطقة القابلة للتعديل"، الإصدار CATMOG 38 (نورويتش، إنجلترا: كتب جغرافية 1984) 37.

مخاطر النمذجة المالية: معدّل القيمة المضافة والانهيار الاقتصادي، الكونغرس الحادي عشر (2009) (شهادات نسيم ن. "طارب" و"ريتشارد بوكستابر").

ريتر، ديفيد. "متى يتم التصرف بشأن الارتباط ومتى لا يجب". في دليل HBR حول أساسيات تحليلات البيانات للمدراء (Boston: HBR Press, 2018) 103-109.

"تولتشينسكي" و"ثيودور إتش" و"إيلينا أ. فارافيكوفا. "الفصل 3: قياس حالة السكان ومراقبتها وتقييمها" في The New Public Health، الإصدار الثالث سان دييغو: Academic Press, 2014, pp 91-147. معرّف الكائن الرقمي: https://doi.org/10.1016/B978-0-12-415766-8.00003-3.

"فان دورن" و"جيني" و"بيتر سي". وVerhoef وTmmo H. ج: بيجمولت. "أهمية العلاقات غير الخطية بين الموقف والسلوك في السياسة البحث". Journal of Consumer Policy 30 (2007) 75–90. معرِّف الكائن الرقمي: https://doi.org/10.1007/s10603-007-9028-3

مرجع الصورة

استنادًا إلى "توزيع فون ميسيس". Rainald62، 2018. المصدر


  1. Ellenberg 125.

  2. Huff 77-79. يستشهد هوف بمكتب أبحاث الرأي العام التابع لجامعة برينستون، لكن فربما كان يفكر في تقرير نيسان (أبريل) 1944 مركز أبحاث الرأي الوطني في جامعة دنفر.

  3. "تولتشينسكي" و"فارافيكوفا".

  4. "غاري تاوبس"، هل نعرف حقًا ما الذي يجعلنا صحية؟" في مجلة The New York Times Magazine، 16 أيلول (سبتمبر) 2007.

  5. Ellenberg 78.

  6. Huff 91-92.

  7. Huff 93.

  8. جونز 157-167.

  9. Huff 95.

  10. Davenport 84.

  11. اطّلِع على شهادة الكونغرس لـ Nassim N. "تليب" و"ريتشارد بكتبتابر" في مقالة مخاطر النمذجة المالية: مخاطر المخاطرة والانهيار الاقتصادي، المؤتمر الحادي عشر (2009) 11-67.

  12. القاهرة 155، 162