يتعرض البشر للتحيزات المعرفية بحكم كونهم بشريًا، بما في ذلك الترشيد والتحيز التأكيدي. كتب "ألبرتو كايرو" قائلاً: هو الوضع التلقائي للدماغ البشري".1 في كثير من الأحيان، يتوقع الأشخاص أو يريدون نتيجة معينة، ثم ابحث عن بيانات أو دليل لدعم تلك النتيجة.
عند العمل مع أو تقييم البيانات والنماذج، التي يمكن أن تأتي من العديد مصادر مختلفة، واسأل عن مصادر التحيز المحتملة. على سبيل المثال:
- من يمول هذا النموذج أو الدراسة؟ ما السوق أو النشاط التجاري التطبيق؟
- ما أنواع الحوافز الموجودة للأشخاص المشاركين في جمع البيانات؟
- ما أنواع الحوافز الموجودة للباحثين الذين يقومون بتدريب النموذج أو إجراء الدراسة، بما في ذلك النشر والوظيفة؟
- من يقوم بترخيص النموذج أو نشر الدراسة، وما هي والحوافز؟
الإحصاءات الوصفية
المتوسط (مجموع القيم مقسومًا على العدد)، الوسيط (القيمة المتوسطة، عندما يتم ترتيب القيم)، وغالبًا ما يكون mode (القيمة الأكثر تكرارًا) مفيدًا في التعرف على شكل مجموعة بيانات أحد الأفراد. إذا كان الوسيط والمتوسط بعيدين على سبيل المثال، قد تكون هناك قيم شاذة وغير متماثلة إلى حدٍ ما في تعيين.
النطاق، وهو الفرق بين القيم الأعلى والأدنى والتباين، وهو متوسط الفرق التربيعي بين كل قيمة ومتوسط المجموعة، تقدم أيضًا معلومات مفيدة عن انتشار مجموعة البيانات وشكلها.
وقبل تدريب نموذج على بياناتك، اسأل أيضًا عما إذا كانت مجموعة البيانات غير متوازن وإذا كان الأمر كذلك، فهل يجب معالجة هذا الخلل.
الاحتمالات المحتملة والقيم الاحتمالية
نظرًا للوقت الكافي والفرص الكافية، فإن حدوث يصبح حدثًا مستبعدًا للغاية. الاطّلاع على النظرية عملية خداع بسمسار أسهم البورصة في بالتيمور لمثال واحد محتمل.
من خلال الإجماع العلمي، تعد النتيجة ذات دلالة إحصائية (و وبالتالي قابلة للنشر) عندما تكون القيمة الاحتمالية أقل من .05. وهذا يعني أن هناك احتمال أقل من 5% أن تحدث نفس النتيجة أو نتيجة أخرى أكثر خطورة تحت الفرضية الصفرية، وهي ناتجة عن الصدفة. بشكل أكثر عمومية، حيث يمكن للباحثين النشر فقط إذا كانت هناك فرصة واحدة من كل 20 فرصة نتائجها هي نتيجة العشوائية. أو، وبشكل أكثر إثارة للقلق، حوالي مرة واحدة في عشرين تجربة، ستظهر نتيجة كاذبة على الرغم من أنها ليست كذلك، ولن تكون النتائج التسعة عشرة الأخرى المنشورة. في ورقة عام 2005، "Why معظم Research Results Is False"، وضع "جون يوانيديس" عوامل متعدّدة، بدءًا من الإحصاء الإحصائي إلى مساهمة في نشر نتائج كاذبة.
فعلى سبيل المثال، نظرًا للحوافز القوية لنشر المحتوى، يتخفى الباحثون أحيانًا للقيم الاحتمالية حوالي 05 .للانخفاض عن هذا الحد. في أوقات أخرى، تم نشر دراسة نتائج بحث غير متوقعة وغير معتادة، والتي يتم تحديدها بطبيعة الحال غير قابلة للتكرار (وبالتالي ربما تكون نتيجة الصدفة)، مما أدى إلى أزمة ثقة في عدة مجالات. كما أدى إلى إنشاء مكرسة لاختبار قابلية التكرار.
وفي مجال تعلُّم الآلة، لا تُعتبر النماذج حديثة إلا إذا استوفت متطلّبات أو معايير التقييم لمعظم النماذج التنافسية الأخرى. من المهم احتمالية ظهور ضغوط مماثلة حول درجات تقييم النموذج، والتي ويمكن تعزيزه بشكل مصطنع من خلال تسريب مقياس الأداء.2
يمكن أن تكون القيم الاحتمالية مفيدة في اختيار الخصائص لنماذج الانحدار. ANOVA يُعد (تحليل التباين) طريقة إحصائية تقارن التباين في المجموعات على عكس المجموعات، دالة F والقيمة الاحتمالية لكل ميزة. يمكن أن يؤدي اختيار أهم الميزات، بأقل القيم الاحتمالية، إلى تقليل عدد الخصائص التي يجب على النموذج وضعها في الاعتبار، دون أن يفقد الكثير من التنبؤ القوة. فهذان يوفر الحوسبة ويتجنب مشكلة عدد كبير جدًا من الميزات، سنناقشها في قسم لاحق. إليك مكتبة ساي كيت دليل اختيار الميزات لمعرفة التفاصيل
مشكلة المقارنات المتعددة
تكون مشكلة حد الدلالة شديدة في الحالات التي يكون فيها ويتم إجراء مقارنات متعددة مع فرضية العدم في الوقت ذاته الوقت. وهذه مشكلة خاصة في دراسات الرنين المغناطيسي (fMRI).
في هاتفك المحمول من جديد، يستخدم كل فوكسل (وحدة حجم) الدماغ يتم اختبارها بشكل مستقل للتحقق من وجود دلالة إحصائية نشاطك وتمييزه إذا كان الأمر كذلك. يؤدي هذا إلى شيء بترتيب إجراء 100,000 اختبار لأهمية النتائج المستقلة. عندما يكون معدّل النبض = 05. دالة إحصائية، تتوقع النظرية الإحصائية وجود 5000 خطأ تقريبًا النتائج الإيجابية التي تظهر في أداة تصوير بالرنين المغناطيسي (fMRI) واحدة.3
قد يكون أفضل توضيح لهذه المشكلة هو مقالة 2009 Bennett et al. الملصق، "الارتباطات العصبية لمنظور الجينات مع تحليل سلمون السلمون الأطلسي بعد حدوث الكوارث"، وهو ما فاز جائزة نوبل. وعرض الباحثون 15 صورة البشر في مواقف عاطفية للغاية تجاه سمكة سلمون ميتة في آلة التصوير بالرنين المغناطيسي (fMRI)، يطلب من السلمون الميت تحديد المشاعر التي يصورها الإنسان الكائنات الحية. وقد حددوا مجموعة عنقودية ذات دلالة إحصائية الفوكسل النشطة في تجويف دماغ السلمون واختتمتها، مع وضع لسان على خدي أن السلمون الميت كان منخرطًا بالفعل في تبني وجهات النظر. بجدية أكبر، كان الباحثون يلفتون الانتباه إلى مشكلة المقارنات المتعددة في التصوير بالرنين المغناطيسي (fMRI) وحالات التصوير المماثلة، والحاجة إلى إجراءات التخفيف.
هناك حلّ واحد واضح ودقيق. لخفض الحد الأدنى للقيمة الاحتمالية التي تشير إلى الدلالة. المتأصل المفاضلة بين الحساسية (التقاط جميع الإيجابيات الحقيقية) والخصية (تحديد جميع السلبيات الحقيقية). إن مناقشة الحساسية، وتسمى أيضًا معدّل الموجب الصحيح في وحدة التصنيف من دورة مكثّفة عن تعلّم الآلة.
من إجراءات التخفيف الأخرى التحكم في معدل الخطأ من حيث جميع أفراد العائلة (FWER)، الذي هي احتمالية وجود موجب خاطئ واحد على الأقل. وآخر هو يتحكم في معدّل الاكتشاف الخاطئ (FDR)، أو النسبة المتوقّعة من النتائج الموجبة الخاطئة على جميع الإيجابيات. الاطّلاع على الأدلة في حوكمة وسياسة لمشكلة المقارنات المتعددة، وكذلك Lindquist وMejia "سن وفن المقارنات المتعددة" للحصول على توضيحات لهذه الطرق وعلى بعض الجولات التفصيلية. في الموقف مع السلمون الميت، أظهر السيطرة على FDR وFWER أنه لم يتم تناول الفوكسل، في الواقع، ذو دلالة إحصائية.
يتزايد تدريب نماذج تعلُّم الآلة على عمليات الفحص باستخدام تقنية "الرنين المغناطيسي" (fMRI) وغيرها من طرق التصوير. شائعة في مجال التشخيص الطبي4 وفي صور إعادة تركيب من نشاط الدماغ.5 إذا كانت هذه النماذج مدرَّبة على حجم كبير بما يكفي فإن هذا قد يقلل من احتمالية حدوث مشكلات من مشكلة المقارنات. ومع ذلك، وخاصةً في مجال التشخيص، قد ينتج عن استنتاجات غير دقيقة في عمليات الفحص الفردية الجديدة إذا كانت نسبة% 20 من "النشطة" فوكسل هي بالفعل موجبة خاطئة. يُرجى ملاحظة أن تصنيف التصوير بالرنين المغناطيسي (fMRI) التشخيصي النماذج الموصوفة في لي وتشاو بنسبة تقارب 70-85%.
هناك عدد كبير جدًا من المتغيرات في تحليل الانحدار.
تمتد مشكلة المقارنات المتعددة إلى تحليل الانحدار المتعدد. تحليل الانحدار الانحدار الخطي هي العمود الفقري للعديد من النماذج التنبؤية العددية. يستخدم تحليل الانحدار إحدى الطرق العديدة، مثل المربعات الصغرى العادية، لإيجاد معامل الانحدار الذي يصف بأفضل شكل كيفية تأثير متغير واحد البعض ويمكن للباحثين الاستفسار عن مدى تأثير العمر والتدخين على معدلات سرطان الرئة من خلال تمثيل كل عامل كمتغير في تحليل الانحدار للسرطان للمدخنين وغير المدخنين من مختلف الأعمار. نموذج الانحدار الخطي تعمل بالطريقة ذاتها، وبالتالي يمكن تفسيره مقارنةً بالأنواع الأخرى من نماذج تعلُّم الآلة إيجاد الانحدار وستصف معاملات هذه المتغيرات العلاقات الخطية بين هذه المتغيرات ومعدّلات سرطان الرئة.
قد يكون من المغري تضمين جميع المتغيرات المحتملة في أي تحليل انحدار، ليس على الأقل، لأنّ عدم تضمين عامل مهم يمكن أن يؤدي إلى المساهمة يتم تجاهله. ومع ذلك، فإنّ إضافة الكثير من المتغيرات إلى تحليل الانحدار زيادة احتمالات ظهور متغير غير ملائم من الناحية الإحصائية مهمًا. إذا أضفنا ثمانية عشر متغيرًا غير ذي صلة إلى تحليلنا، مثل "الأفلام التي تمت مشاهدتها" و"الكلاب التي تملكها"، فمن المحتمل أن تكون إحدى تلك المتغيرات غير ذات الصلة، عن طريق الصدفة البحتة، مرتبطة معدّلات سرطان الرئة أعلى في6
في سياق تقنية تعلُّم الآلة، يقدّم الموقف التناظري إعطاء الكثير من الميزات نموذج، وهو ما قد ينتج عنه فرط التخصيص، من بين مشكلات أخرى.
الاستنتاجات واتخاذ القرار
تتمثل إحدى طرق تفادي بعض فخاخ التفكير هذه في معالجة الإحصائيات وتعلُّم الآلة والنماذج المستمدة من الإحصاءات كأدوات لاتخاذ القرارات، بدلاً من الإجابة عن الأسئلة. كانت هذه هي منصب "جيرزي نيمان" و"إيغون شارب بيرسون".7
في هذا الإطار، سيتم تضمين البيانات وإحصاءات البيانات والمشتقات، بما في ذلك نماذج تعلُّم الآلة هما الأنسب لإجراء التنبؤات الاحتمالية، دحض العبارات العامة وتحسين التركيز والتركيز وأسئلة البحث والمساعدة في اتخاذ القرار. ليست مناسبة بشكل جيد بسبب تقديم ادعاءات إيجابية حول الحقيقة
وفقًا لديفيد ريتر، فإن القرارات القائمة على الارتباطات من ينبغي أن تستند كميات البيانات إلى عاملين:
- "الثقة في أن الارتباط ستتكرر بشكل موثوق في المستقبل"، أي إلى كليهما بناءً على عدد مرات حدوث هذا الارتباط في الماضي وفهم دقيق لسبب هذا الارتباط.
- المخاطر والمكافآت الناتجة عن التصرّف.8
وبالمثل، قد لا تكون بعض أسئلة البحث مناسبة تمامًا للذكاء الاصطناعي. أنستاسيا يقدّم "فيديك" معيارَين لمشكلة مناسبة للذكاء الاصطناعي:
- المشكلة تتطلب التنبؤ، وليس فهم العلاقات السببية.
- تحتوي البيانات التي تتم إضافتها إلى الذكاء الاصطناعي على كل ما يجب معرفته عن المشكلة؛ أي أنّ المشكلة مستقلة.9
المراجع
"بينيت" و"كريغ إم" أبيجيل أ. بيرد، مايكل ب. ميلر وجورج إل. وولفورد. "الارتباطات العصبية لمنظور الجينات في التحليل التحليلي بعد حدوث الكوارث Atlantic Salmon: وسيطة لتصحيح المقارنات المتعددة." Neuroimage (2009).
القاهرة، ألبرتو. كيف تكمن المخططات: تعزيز ذكاء المعلومات المرئية؟ نيويورك: دبليو. دبليو Norton، 2019
دافنبورت، توماس هـ. "دراسة تمهيدية للتحليلات التنبؤية". في دليل HBR للبيانات أساسيات Analytics للمدراء (Boston: HBR Press, 2018) 81-86.
إلينبرغ، جوردان. How Not to Be False: (قوة التفكير الرياضي) نيويورك: Penguin، 2014.
فيديك، أناستاسيا. "هل يمكن للتعلم الآلي حل مشكلة عملك؟" في HBR دليل أساسيات تحليلات البيانات للمدراء (Boston: HBR Press, 2018) 111-119.
غالو، إيمي. "تنشيط للذاكرة حول الدلالة الإحصائية". في دليل HBR للبيانات أساسيات "إحصاءات YouTube للمدراء" (Boston: HBR Press, 2018) 121-129.
هوف، داريل. كيفية التعامل مع الإحصاءات نيويورك: دبليو. دبليو نورتون، 1954.
ايوانيديس، جون ب.أ. "أسباب عدم صحة معظم نتائج البحث المنشورة": في PLoS Med رقم 2 8: e124.
جونز، بن. تجنُّب مخاطر البيانات: هوبوكين، نيو جيرسي: وايلي، 2020.
لي وجيانغشو وبييز تشاو. "تطبيقات التعلُّم المعمّق في تقنية fMRI – مراجعة العمل" ICBBB 2023 (طوكيو، اليابان، من 13 إلى 16 كانون الثاني/يناير 2023): من 75 إلى 80. https://doi.org/10.1145/3586139.3586150
ليندكويست ومارتن أ. وأماندا ميجيا. "زن وفن المقارنات المتعددة" الطب النفسي الجسدي 77 no. 2 (شباط (فبراير) - آذار (مارس) 2015): 114-125. واجهة المستخدم: 10.1097/PSY.0000000000000148.
ريتر، ديفيد. "متى يتم التصرف بشأن الارتباط ومتى لا يجب". في دليل HBR حول أساسيات تحليلات البيانات للمدراء (Boston: HBR Press, 2018) 103-109.
تاجاكي ويو وشينجي نيشيموتو. "إنشاء صور عالية الدقة باستخدام نماذج الانتشار الكامنة من نشاط الدماغ البشري" مؤتمر IEEE/CVF لعام 2023 بشأن رؤية الكمبيوتر والتعرُّف على الأنماط (فانكوفر، كولومبيا البريطانية، كندا، 2023): 14453-14463. Doi: 10.1109/CVPR52729.2023.01389.
ويلان، تشارلز. الإحصاءات المجردة: إزالة الخوف من البيانات نيويورك: دبليو. دبليو نورتون، 2013
تشو، كون، يوتاو تشو، تشيبينغ تشن، وينتونغ تشن، واين شين تشاو، شو تشين، "يانكاي لين" و"جي رونغ وين" و"جياوي هان". "عدم جعل النموذج اللغوي الكبير (LLM) أداة تقييم مرجعية". arXiv:2311.01964 cs.CL.