يتعرض البشر للتحيزات المعرفية بحكم كونهم بشريًا، بما في ذلك الترشيد والتحيز التأكيدي. كتب "ألبرتو كايرو" قائلاً: هو الوضع التلقائي للدماغ البشري".1 في كثير من الأحيان، يتوقع الأشخاص أو يريدون نتيجة معينة، ثم ابحث عن بيانات أو دليل لدعم تلك النتيجة.
عند العمل مع البيانات والنماذج أو تقييمها، والتي يمكن أن تأتي من عدة مصادر مختلفة، اسأل عن مصادر الانحياز المحتمَلة. على سبيل المثال:
- من يمول هذا النموذج أو الدراسة؟ ما السوق أو النشاط التجاري التطبيق؟
- ما أنواع الحوافز الموجودة للأشخاص المشاركين في جمع البيانات؟
- ما هي أنواع الحوافز المتاحة للباحثين الذين يُدرِّبون النموذج أو يجرون الدراسة، بما في ذلك النشر والمدة الزمنية لشغل الوظيفة؟
- من يمنح ترخيص النموذج أو ينشر الدراسة، وما هي حوافزه؟
الإحصاءات الوصفية
المتوسط (مجموع القيم مقسومًا على العدد)، الوسيط (القيمة المتوسطة، عندما يتم ترتيب القيم)، وغالبًا ما يكون mode (القيمة الأكثر تكرارًا) مفيدًا في التعرف على شكل مجموعة بيانات أحد الأفراد. على سبيل المثال، إذا كان المتوسط الحسابي والوسيط بعيدَين عن بعضهما، قد تكون هناك قيم متطرفة وغير متماثلة إلى حدٍ ما في المجموعة.
يقدّم أيضًا النطاق، وهو الفرق بين أعلى وأدنى القيم، والتباين، وهو متوسّط الفرق التربيعي بين كل قيمة ومتوسط المجموعة، معلومات مفيدة عن انتشار مجموعة البيانات وشكلها.
قبل تدريب نموذج على بياناتك، اسأل أيضًا ما إذا كانت مجموعة البيانات غير متوازنة وما إذا كان يجب معالجة هذا الخلل في حال حدوثه.
القيم غير المحتمَلة المحتمَلة وقيم p
مع مرور الوقت الكافي وتوفر الفرص الكافية، يصبح وقوع حدث غير محتمل على الأرجح. يمكنك الاطّلاع على الاحتيال النظري الذي يمارسه وسطاء البورصة في بالتيمور للحصول على مثال محتمل.
من خلال الإجماع العلمي، تعد النتيجة ذات دلالة إحصائية (و وبالتالي قابلة للنشر) عندما تكون القيمة الاحتمالية أقل من .05. وهذا يعني أنّ هناك احتمالًا نسبته <%5 بأن تحدث النتيجة نفسها أو نتيجة أكثر تطرفاً بموجب فرضية العدم، أي نتيجة الصدفة. بعبارة أخرى، لا يمكن للباحثين نشر نتائجهم إلا إذا كانت هناك فرصة واحدة من 20 فرصة أو أقل لتحديد أنّ نتائجهم هي نتيجة الصدفة. أو، وبشكل أكثر إثارة للقلق، حوالي مرة واحدة في عشرين تجربة، ستظهر نتيجة كاذبة على الرغم من أنها ليست كذلك، ولن تكون النتائج التسعة عشرة الأخرى المنشورة. في ورقة عام 2005، "Why معظم Research Results Is False"، وضع "جون يوانيديس" عوامل متعدّدة، بدءًا من الإحصاء الإحصائي إلى مساهمة في نشر نتائج كاذبة.
فعلى سبيل المثال، نظرًا للحوافز القوية لنشر المحتوى، يتخفى الباحثون أحيانًا للقيم الاحتمالية حوالي 05 .للانخفاض عن هذا الحد. وفي أحيان أخرى، تبين أنّ نتائج الدارسات المنشورة، التي يتم اختيارها بشكل طبيعي للحصول على نتائج غير متوقّعة وغير عادية، لا يمكن تكرارها (وبالتالي قد تكون نتيجة الصدفة)، ما أدّى إلى أزمة ثقة في مجالات متعدّدة. وقد أدّى ذلك أيضًا إلى إنشاء مؤسسات مخصّصة لاختبار قابلية التكرار.
وفي مجال تعلُّم الآلة، لا تُعتبر النماذج حديثة إلا إذا استوفت متطلّبات أو معايير التقييم لمعظم النماذج التنافسية الأخرى. من المُحتمل أن تنشأ ضغوط مماثلة حول نتائج تقييم النموذج، والتي يمكن تحسينها بشكل مصطنع من خلال تسرب معايير الأداء.2
يمكن أن تكون قيم p مفيدة في اختيار الميزات لنماذج الانحدار. ANOVA يُعد (تحليل التباين) طريقة إحصائية تقارن التباين في المجموعات على عكس المجموعات، دالة F والقيمة الاحتمالية لكل ميزة. يمكن أن يؤدي اختيار الميزات الأكثر أهمية، ذات القيم الاحتمالية الأقل، إلى تقليل عدد الميزات التي يجب أن يأخذها النموذج في الاعتبار، بدون فقدان الكثير من القدرة على التنبؤ. ويؤدي ذلك إلى توفير طاقة الحوسبة وتجنُّب مشكلة استخدام عدد كبير جدًا من الميزات، وسيتمّ مناقشة ذلك في قسم لاحق. اطّلِع على دليل اختيار الميزات في scikit للاطّلاع على التفاصيل.
مشكلة المقارنات المتعددة
تكون مشكلة عتبة الأهمية شديدة بشكل خاص في المواقف التي ويتم إجراء مقارنات متعددة مع فرضية العدم في الوقت ذاته الوقت. وهذه مشكلة خاصة بدراسات التصوير بالرنين المغناطيسي الوظيفي.
في هاتفك المحمول من جديد، يستخدم كل فوكسل (وحدة حجم) الدماغ يتم اختبارها بشكل مستقل للتحقق من وجود دلالة إحصائية نشاطك وتمييزه إذا كان الأمر كذلك. يؤدي هذا إلى شيء بترتيب إجراء 100,000 اختبار لأهمية النتائج المستقلة. عندما يكون معدّل النبض = 05. دالة إحصائية، تتوقع النظرية الإحصائية وجود 5000 خطأ تقريبًا النتائج الإيجابية التي تظهر في أداة تصوير بالرنين المغناطيسي (fMRI) واحدة.3
يمكن توضيح المشكلة على أفضل وجه من خلال الملصق الذي نشره "بننت وآخرون" في عام 2009 بعنوان: "الارتباطات العصبية لأخذ منظور بين الأنواع في سمك السلمون الأطلسي بعد الوفاة"، الذي حصل على جائزة IG Nobel. عرض الباحثون 15 صورة لأشخاص في مواقف عاطفية للغاية على سمكة سلمون ميتة في جهاز تصوير بالرنين المغناطيسي الوظيفي، وطلبوا من السمكة تحديد المشاعر التي كان يشعر بها الأشخاص المصورون. وقد حددوا مجموعة عنقودية ذات دلالة إحصائية الفوكسل النشطة في تجويف دماغ السلمون واختتمتها، مع وضع لسان على خدي أن السلمون الميت كان منخرطًا بالفعل في تبني وجهات النظر. والأهم من ذلك، كان الباحثون ينبّهون إلى مشكلة المقارنات المتعددة في fMRI وحالات التصوير المشابهة، والحاجة إلى تخفيف هذه المشكلة.
من بين الحلول الواضحة والعامة خفض الحدّ الأدنى لقيمة p التي تشير إلى الدلالة. إنّ التوازن العميق يحدث بين الحساسية (التقاط جميع النتائج الموجبة الصائبة) والتحديد (تحديد جميع النتائج السالبة الصائبة). إن مناقشة الحساسية، وتسمى أيضًا معدّل الموجب الصحيح في وحدة التصنيف من دورة مكثّفة عن تعلّم الآلة.
هناك وسيلة تخفيف أخرى تتمثل في التحكم في معدل الخطأ من ناحية جميع أفراد العائلة (FWER)، والتي تمثل احتمالية وجود موجب خاطئ واحد على الأقل. ومن الطرق الأخرى التحكّم في نسبة الاكتشاف الخاطئ (FDR)، أو النسبة المتوقّعة للنتائج الإيجابية الخاطئة مقارنةً بجميع النتائج الإيجابية. الاطّلاع على الأدلة في حوكمة وسياسة لمشكلة المقارنات المتعددة، وكذلك Lindquist وMejia "سن وفن المقارنات المتعددة" للحصول على توضيحات لهذه الطرق وعلى بعض الجولات التفصيلية. في حالة سمك السلمون الميت، أظهرت عملية التحكّم في FDR وFWER أنّه ما مِن وحدة حجم ثلاثية الأبعاد كانت ملفتة للانتباه من الناحية الإحصائية.
إنّ تدريب نماذج الذكاء الاصطناعي على عمليات المسح من خلال التصوير بالرنين المغناطيسي وطرق التصوير الأخرى يزداد رواجًا بشكلٍ متزايد في مجال التشخيص الطبي4 وفي إعادة إنشاء الصور من نشاط الدماغ.5 إذا تم تدريب هذه النماذج على مجموعة بيانات كبيرة بما يكفي، قد يقلل ذلك من احتمالية حدوث مشاكل من مشكلة المقارنات المتعدّدة. ومع ذلك، وخاصةً في مجال التشخيص، قد ينتج عن استنتاجات غير دقيقة في عمليات الفحص الفردية الجديدة إذا كانت نسبة% 20 من "النشطة" فوكسل هي بالفعل موجبة خاطئة. يُرجى العِلم أنّ نماذج تصنيف fMRI التشخيصية описанة في Li وZhao تبلغ دقتها حوالي %70-85.
هناك عدد كبير جدًا من المتغيرات في تحليل الانحدار.
تمتد مشكلة المقارنات المتعددة إلى تحليل الانحدار المتعدد. تحليل الانحدار، أو الانحدار الخطي، هو العمود الفقري للعديد من النماذج التوقّعية الرقمية. يستخدم تحليل الانحدار إحدى الطرق العديدة، مثل المربعات الصغرى العادية، لإيجاد معامل الانحدار الذي يصف بأفضل شكل كيفية تأثير متغير واحد البعض ويمكن للباحثين الاستفسار عن مدى تأثير العمر والتدخين على معدلات سرطان الرئة من خلال تمثيل كل عامل كمتغير في تحليل الانحدار للسرطان للمدخنين وغير المدخنين من مختلف الأعمار. نموذج الانحدار الخطي تعمل بالطريقة ذاتها، وبالتالي يمكن تفسيره مقارنةً بالأنواع الأخرى من نماذج تعلُّم الآلة إيجاد الانحدار وستصف معاملات هذه المتغيرات العلاقات الخطية بين هذه المتغيرات ومعدّلات سرطان الرئة.
قد يكون من المغري تضمين جميع المتغيّرات المحتمَلة في تحليل الانحدار، ولا سيما لأنّ عدم تضمين عامل مهم قد يؤدي إلى إغفال مساهمته . ومع ذلك، فإنّ إضافة الكثير من المتغيرات إلى تحليل الانحدار زيادة احتمالات ظهور متغير غير ملائم من الناحية الإحصائية مهمًا. إذا أضفنا ثمانية عشر متغيرًا غير ذي صلة إلى تحليلنا، مثل "الأفلام التي تمت مشاهدتها" و"الكلاب التي تملكها"، فمن المحتمل أن تكون إحدى تلك المتغيرات غير ذات الصلة، عن طريق الصدفة البحتة، مرتبطة معدّلات سرطان الرئة أعلى في6
في سياق تقنية تعلُّم الآلة، يقدّم الموقف التناظري إعطاء الكثير من الميزات نموذج، وهو ما قد ينتج عنه فرط التخصيص، من بين مشكلات أخرى.
الاستنتاجات واتخاذ القرار
وإحدى الطرق لتجنُّب بعض هذه الفخاخ الفكرية هي التعامل مع الإحصاءات و نماذج الذكاء الاصطناعي ، المستمدة من الإحصاءات، كأدوات لاتخاذ القرارات، بدلاً من الإجابة عن الأسئلة. كانت هذه منصب "جيرزي نيمان" و"إيغون شارب بيرسون".7
في هذا الإطار، سيتم تضمين البيانات وإحصاءات البيانات والمشتقات، بما في ذلك نماذج تعلُّم الآلة هما الأنسب لإجراء التنبؤات الاحتمالية، دحض العبارات العامة وتحسين التركيز والتركيز وأسئلة البحث والمساعدة في اتخاذ القرار. ليست مناسبة بشكل جيد بسبب تقديم ادعاءات إيجابية حول الحقيقة
وفقًا لديفيد ريتر، فإن القرارات القائمة على الارتباطات من ينبغي أن تستند كميات البيانات إلى عاملين:
- "الثقة في أن الارتباط ستتكرر بشكل موثوق في المستقبل"، أي إلى كليهما بناءً على عدد مرات حدوث هذا الارتباط في الماضي وفهم دقيق لسبب هذا الارتباط.
- المخاطر والمكافآت الناتجة عن التصرّف.8
وبالمثل، قد لا تكون بعض أسئلة البحث مناسبة تمامًا للذكاء الاصطناعي. تقدّم "أناستاسيا فيديك" معيارَين لتحديد المشاكل المناسبة للذكاء الاصطناعي:
- تتطلّب المشكلة التوقّع، وليس فهم العلاقات السببية.
- تحتوي البيانات التي تتم إضافتها إلى الذكاء الاصطناعي على كل ما يجب معرفته عن المشكلة؛ أي أنّ المشكلة مستقلة.9
المراجع
"بينيت" و"كريغ إم" أبيجيل أ. بيرد، مايكل ب. ميلر، وجورج إل Wolford "الارتباطات العصبية لمنظور الجينات في التحليل التحليلي بعد حدوث الكوارث Atlantic Salmon: وسيطة لتصحيح المقارنات المتعددة." Neuroimage (2009).
القاهرة، كمال. How Charts Lie: Getting Smarter about Visual Information (كيفية خداع الرسوم البيانية: التعرّف بشكل أفضل على المعلومات المرئية) نيويورك: W.W. Norton، 2019.
دافنبورت، توماس إتش "دراسة تمهيدية للتحليلات التنبؤية". في دليل HBR حول أساسيات تحليلات البيانات للمدراء (بوسطن: HBR Press، 2018) 81-86.
إلينبيرغ، الأردن How Not to Be Wrong: The Power of Mathematical Thinking (كيفية تجنُّب الخطأ: قوة التفكير الرياضي) نيويورك: Penguin، 2014.
فيديك، أناستاسيا. "هل يمكن أن تحلّ تكنولوجيا تعلُّم الآلة مشكلة نشاطك التجاري؟" في HBR دليل أساسيات تحليلات البيانات للمدراء (Boston: HBR Press, 2018) 111-119.
غالو، إيمي. "تنشيط للذاكرة حول الدلالة الإحصائية". في دليل HBR للبيانات أساسيات "إحصاءات YouTube للمدراء" (Boston: HBR Press, 2018) 121-129.
Huff, Darrell. كيفية التعامل مع الإحصاءات نيويورك: دبليو. دبليو نورتون، 1954.
Ioannidis, John P.A. "Why Most Published Research Findings Are False.". في PLoS Med رقم 2 8: e124.
جونز، بن. تجنُّب المشاكل المتعلّقة بالبيانات هوبوكين، نيو جيرسي: وايلي، 2020.
"لي" و"جيانغشكسي" و"بييزه تشاو" "تطبيقات التعلُّم المعمّق في تقنية fMRI – مراجعة العمل" ICBBB 2023 (طوكيو، اليابان، من 13 إلى 16 كانون الثاني/يناير 2023): من 75 إلى 80. https://doi.org/10.1145/3586139.3586150
ليندكويست ومارتن أ. وأماندا ميجيا. "الزنّ وفن المقارنات المتعدّدة" Psychosomatic Medicine 77, no. 2 (Feb-Mar 2015): 114–125. doi: 10.1097/PSY.0000000000000148.
ريتر، ديفيد. "حالات اتّخاذ إجراء بشأن الترابط وحالات عدم اتّخاذه" في دليل HBR إلى dasars Data Analytics for Managers (بوسطن: HBR Press، 2018) 103-109.
تاجاكي ويو وشينجي نيشيموتو. "إعادة إنشاء الصور العالية الدقة باستخدام نماذج الانتشار الكامنة من نشاط الدماغ البشري" مؤتمر IEEE/CVF لعام 2023 بشأن رؤية الكمبيوتر والتعرُّف على الأنماط (فانكوفر، كولومبيا البريطانية، كندا، 2023): 14453-14463. Doi: 10.1109/CVPR52729.2023.01389.
Wheelan, Charles. الإحصاءات المجردة: إزالة الخوف من البيانات نيويورك: W.W. نورتون، 2013
تشو، كون، يوتاو تشو، تشيبينغ تشن، وينتونغ تشن، واين شين تشاو، شو تشين، "يانكاي لين" و"جي رونغ وين" و"جياوي هان". "عدم استخدام نموذج اللغة الكبيرة كأداة غش في اختبار التقييم" arXiv:2311.01964 cs.CL.