"النتائج السيئة ناتجة عن إدخال بيانات غير صحيحة".
— مثل قديم عن البرمجة
أسفل كل نموذج لتعلُّم الآلة، وكل عملية حسابية للارتباط، وكل نموذج يستند إلى البيانات واحدة أو أكثر من مجموعات البيانات الأولية التي ننصح بها بغض النظر عن مدى جمال المنتجات النهائية أو تأثيرها أو إقناعها، إذا كانت البيانات الأساسية خاطئة أو تم جمعها بشكل سيئ أو كانت ذات جودة منخفضة، سيكون النموذج أو التوقّع أو العرض المرئي أو الاستنتاج الناتج عنه منخفض الجودة أيضًا. على أيّ شخص يعرض النماذج ويحلّلها ويدربها على مجموعات البيانات أن يطرح أسئلة صعبة حول مصدر بياناته.
يمكن أن تتعطّل أدوات جمع البيانات أو قد تتم معايرتها بشكل سيئ. يمكن أن يكون البشر الذين يجمعون البيانات مرهقين أو مزعجين أو غير متسقين أو سيئين المدرَّبين. يرتكب الأشخاص الأخطاء، وقد يختلف أيضًا الأشخاص المختلفون بشكل معقول في تصنيف الإشارات الغامضة. نتيجة لذلك، جودة يمكن أن تتأثر صحة البيانات، وقد لا تعكس البيانات الواقع. يُطلق "بن جونز"، مؤلف كتاب Avoiding Data Pitfalls، على ذلك اسم الفجوة بين البيانات والحقيقة، ويذكّر القارئ بأنّ "الجريمة ليست جريمة، بل هي الجريمة التي تم الإبلاغ عنها. إنه ليس عدد ضربات الشهب، فهو العدد المسجلة لضربات النيزك".
أمثلة على فجوة البيانات في الواقع:
يرسم "جونز" رسومات بيانية للارتفاعات في قياسات الوقت على فترات 5 دقائق، وقياسات الوزن على فترات 5 أرطال، ليس لأنّ هذه الارتفاعات موجودة في البيانات، ولكن لأنّ جامعي البيانات من البشر، على عكس الأدوات، يميلون إلى تقريب أعدادهم إلى أقرب 0 أو 5.1
في عام 1985، تبيّن لـ "جو فارمان" و"برايان غاردينر" و"جوناثان شانكلين"، الذين يعملون في "الهيئة البريطانية للأبحاث في أنتاركتيكا" (BAS)، أنّ قياساتهم تشير إلى وجود فجوة موسمية في طبقة الأوزون فوق نصف الكرة الجنوبي. تناقض ذلك مع بيانات وكالة ناسا التي لم تسجِّل أي ثقب من هذا النوع. ريتشارد عالم الفيزياء في وكالة "ناسا" أجرى ستولارسكي تحقيقًا ووجد أن برنامج معالجة البيانات التابع لوكالة ناسا افتراض أن مستويات الأوزون لا يمكن أبدًا أن تنخفض والقراءات المنخفضة جدًا لدرجة الأوزون التي تم رصدها تلقائيًا على أنّها قيَم شاذة لا معنى لها.2
تواجه الآلات الموسيقية مجموعة متنوعة من أوضاع الإخفاق، وأحيانًا عندما تكون ثابتة جمع البيانات. يقدّم "آدم رينغلر" وآخرون معرضًا لقراءات الرصد الزلزالي الناتجة عن أعطال في الأجهزة (والأعطال المقابلة) في الورقة البحثية لعام 2021 بعنوان "Why Do My Squiggles Look Funny?" (لماذا تبدو رسوماتي المموّهة غريبة؟)3 لا يتطابق النشاط في مثال القراءات مع النشاط الزلزالي الفعلي.
على خبراء تعلُّم الآلة فهم ما يلي:
- من جمع البيانات
- كيفية ووقت جمع البيانات والظروف التي تم جمعها
- حساسية أدوات القياس وحالةها
- شكل الأعطال في الأجهزة والأخطاء البشرية في سياق معيّن
- الميول البشرية لتقريب الأرقام وتقديم إجابات مرغوب فيها
في معظم الأحيان، يكون هناك فرق صغير على الأقل بين البيانات والحقيقة، ويُعرف ذلك أيضًا باسم الحقيقة الأساسية. إنّ مراعاة هذا الاختلاف هو المفتاح لرسم استنتاجات جيدة واتخاذ قرارات صائبة. يتضمن ذلك اتخاذ قرار بشأن:
- المشكلات التي يمكن وينبغي حلها بواسطة التعلم الآلي.
- المشاكل التي لا يمكن حلّها على أفضل وجه باستخدام تعلُّم الآلة
- المشكلات التي لا تتوفّر لها بعد بيانات كافية عالية الجودة لحلّها باستخدام الذكاء الاصطناعي
اطرح سؤالاً: ما الذي تنقله البيانات بالمعنى الأكثر صرامة والأكثر حرفية؟ بنفس القدر من الأهمية، ما الذي لا تنقله البيانات؟
بيانات غير مفيدة
بالإضافة إلى التحقيق في شروط جمع البيانات، تتيح لك مجموعة البيانات نفسه يمكن أن يحتوي على أخطاء وأخطاء وقيم صفرية أو غير صالحة (مثل قياسات سلبية للتركيز). يمكن أن تكون البيانات ذات مصادر جماعية فوضوي. يمكن أن يؤدي العمل على مجموعة بيانات ذات جودة غير معروفة إلى نتائج غير دقيقة.
تشمل المشاكل الشائعة ما يلي:
- الأخطاء الإملائية في قيم السلاسل، مثل أسماء الأماكن أو الأنواع أو العلامات التجارية
- تحويلات الوحدات أو الوحدات أو أنواع الكائنات غير صحيحة
- قيم مفقودة
- تصنيفات خاطئة متسقة أو خطأ في التسمية
- الأرقام المهمة المتبقية من العمليات الحسابية التي تتجاوز الحساسية الفعلية للأداة
غالبًا ما يتضمن تنظيف مجموعة البيانات خيارات حول القيم الفارغة والمفقودة (سواء لإبقائها فارغة أو إسقاطها أو استبدالها أو استبدال 0)، وتصحيح الأخطاء الإملائية إصدار واحد، وإصلاح الوحدات والإحالات الناجحة، وهكذا. برنامج أكثر تقدمًا هو حساب القيم المفقودة، والموضحة في خصائص البيانات في دورة مكثّفة عن تعلّم الآلة.
أخذ العينات والتحيز الناجم عن البقاء على قيد الحياة ومشكلة نقطة النهاية البديلة
تسمح الإحصاء بالاستنتاج الصحيح والدقيق للنتائج من عينة عشوائية بحتة على أكبر عدد من المجموعة بالكامل. إنّ الضعف غير المتحقّق من هذا الافتراض، إلى جانب مدخلات التدريب غير المتوازنة وغير المكتملة، قد أدّى إلى حدوث إخفاقات بارزة في العديد من تطبيقات تعلُّم الآلة، بما في ذلك النماذج المستخدَمة في مراجعات السيرة الذاتية ومراقبتها. كما أدى إلى إخفاقات استطلاعات الرأي استنتاجات خاطئة حول المجموعات الديموغرافية. في معظم السياقات خارج البيانات الاصطناعية التي يتم إنشاؤها بواسطة الكمبيوتر، تكون العينات العشوائية البحتة باهظة التكلفة ويصعب الحصول عليها. حلول متنوعة وبأسعار معقولة استخدام الخوادم الوكيلة بدلاً من ذلك، والتي تقدم مصادر مختلفة الانحياز
لاستخدام طريقة أخذ العينات الطبقية، على سبيل المثال، عليك معرفة انتشار كل طبقة مأخوذة كعينة في المجموعة الأكبر. إذا افترضت انتشار غير صحيح بالفعل، فستكون نتائجك غير دقيقة. وبالمثل، نادرًا ما يكون الاستطلاع عبر الإنترنت عبارة عن عينة عشوائية من السكان المحليين، ولكن عينة من المجموعة بالكامل المتصلين بالإنترنت (غالبًا من بلدان متعددة) يشاهد الاستطلاع ويرغب في المشاركة فيه من المرجّح أن تختلف هذه المجموعة عن عيّنة عشوائية حقيقية. تتطلب الأسئلة في الاستطلاع عينة من الأسئلة المحتملة. تجدر الإشارة إلى أنّ إجابات أسئلة الاستطلاع هذه ليست، مجددًا، عيّنة عشوائية من آراء المستجيبين الفعلية، بل هي عيّنة من الرأي الذي يشعر المستجيبون بالراحة في تقديمه، وقد يختلف عن رأيهم الفعلي.
يواجه الباحثون في مجال الصحة السريرية مشكلة مشابهة تُعرف باسم مشكلة قياس الأداء البديل. لأن الأمر يستغرق وقتًا طويلاً جدًا للتحقق من تأثير الدواء على عمر المريض، يستخدم الباحثون العلامات الحيوية الوكيلة التي يُفترض أن تكون المتعلقة العمر ولكن قد لا تكون كذلك. تُستخدم مستويات الكوليسترول كبديل نقطة نهاية للنوبات القلبية والوفيات الناجمة عن مشاكل القلب والأوعية الدموية: إذا كان هناك دواء بخفض مستويات الكوليسترول، ويُفترض أيضًا أن يقلل من خطر الإصابة بمشاكل القلب. ومع ذلك، قد لا تكون سلسلة الارتباط هذه صالحة، أو قد يكون ترتيب الأسباب مختلفًا عن ما يفترضه الباحث. راجِع Weintraub et al., "مخاطر نقاط النهاية البديلة", للاطّلاع على المزيد من الأمثلة والتفاصيل والموقف المكافئ في تعلُّم الآلة هو التصنيفات الوكيلة.
رصد عالم الرياضيات أبراهام والد مشكلة شائعة في تحليل عيّنات البيانات تُعرف الآن باسم الميل الناجح. عودة طائرات حربية وبها ثقوب رصاص مواقع معينة وليس في مواقع أخرى. أراد الجيش الأمريكي إضافة المزيد من الدروع إلى الطائرات في المناطق التي تحتوي على أكبر عدد من الثقوب التي تحتوي على ثقوب رصاصة، ولكن راجعت مجموعة والد البحثية وننصح بدلاً من ذلك بإضافة الدروع إلى المناطق بدون ثقوب تعداد نقطي. استنتج بشكل صحيح أن عينة بياناته كانت منحرفة لأن الطائرات انطلقت كانت تلك المناطق متضررة للغاية لدرجة أنهم لم يتمكنوا من العودة إلى قاعدةهم.

هل تم تدريب نموذج يوصي بالدروع فقط استنادًا إلى الرسوم التخطيطية لعودة الدروع الطائرات الحربية، دون رؤية على تحيز البقاء على قيد الحياة في البيانات، كان من الممكن أن يقترح هذا النموذج تدعيم المناطق بمزيد من الثقوب النقطية.
يمكن أن ينشأ الانحياز في الاختيار الذاتي من أشخاص يتطوعون والمشاركة في دراسة. السجناء الذين يدفعون إلى الاشتراك في خطة تخفيف الأثر البرنامج، على سبيل المثال، مجموعة تقل احتمالية التزامهم جرائم مستقبلية من السجن العام. سيؤدي ذلك إلى تشويه النتائج.4
هناك مشكلة أكثر دقة في أخذ العينات وهي تحيز التذكر، حيث تنطوي على قابلية استخدام المواضيع البشرية الذكريات. في عام 1993، سأل إدوارد جيوفانوتشي مجموعة متطابقة من حيث العمر من النساء، تم تشخيص بعضهنّ بالسرطان، عن عادات التغذية السابقة لديهن. أجرت نفس النساء استبيانًا حول العادات الغذائية قبل تشخيصات السرطان. ما اكتشفه "جيوفانوتشي" هو أن نساء بلا سرطان سحبت التشخيصات من نظامها الغذائي بدقة، ولكن تم الإبلاغ عن النساء المصابات بسرطان الثدي تناولوا دهونًا أكثر مما كانت تقوله سابقًا - دون وعي تقديم تفسير محتمل (ولكن غير دقيق) لمرض السرطان.5
سؤال:
- ما هي عيّنة مجموعة البيانات؟
- كم عدد مستويات أخذ العينات الموجودة؟
- ما التحيز الذي يمكن أن يحدث في كل مستوى من مستويات أخذ العينات؟
- هل يُظهر القياس البديل المستخدَم (سواء كان علامة حيوية أو استطلاع على الإنترنت أو نقاط مهمة) ارتباطًا أو سببية فعليين؟
- ما الذي قد يكون غير متوفر في العيّنة وطريقة أخذ العيّنات؟
وحدة الإنصاف في الدورة التدريبية المكثّفة عن تعلّم الآلة التي تتناول مصادر إضافية للتحيز في مجموعات البيانات الديموغرافية.
التعريفات والترتيبات
حدد المصطلحات بوضوح ودقة، أو اسأل عن تعريفات واضحة ودقيقة. هذا الإجراء ضروري لفهم ميزات البيانات قيد النظر. وما يتم التنبؤ به أو المطالبة به بالضبط. يقدم تشارلز ويلان، في مقالة الإحصاءات المجردة، "صحة الولايات المتحدة التصنيع" كمثال على المصطلح الغامض. سواء كان التصنيع في الولايات المتحدة "سليم" أو لا يعتمد كليًا على كيفية تعريف المصطلح. توضّح مقالة غريغ إيب في آذار (مارس) 2011 في The Economist هذا الغموض. إذا كان مقياس "الصحة" هو "تصنيع المخرجات ثم في عام 2011، تحسَّن التصنيع في الولايات المتحدة. في حال تعريف مقياس "الأداء" على أنّه "وظائف التصنيع"، كان أداء التصنيع في الولايات المتحدة في هبوط.6
غالبًا ما تعاني الترتيبات من مشاكل مماثلة، بما في ذلك الأمور المحجوبة أو التي لا معنى لها. والأوزان المعطاة للمكونات المختلفة للتصنيف، والمصنفين والتباين خيارات غير صالحة. يذكر "مالكولم غلادويل" في مجلة The New Yorker أنه رئيس قضاة المحكمة العليا في ولاية ميشيغان، "توماس برينان"، الذي أرسل استطلاعًا إلى ومئة محامٍ يطلب منهم ترتيب عشر كليات محاماة حسب الجودة، وبعضها مشهور والبعض الآخر لا. وقد رتب هؤلاء المحامون كلية الحقوق في ولاية بنسلفانيا بنحو 5 المكان، على الرغم من أنه في وقت إجراء الاستطلاع، لم تكن ولاية بنسلفانيا تمتلك قانونًا المدرسة.7 يتضمن العديد من التصنيفات المعروفة نهجًا ذاتي مشابه المكون السمعة. اسأل عن المكونات التي تدخل في الترتيب، ولماذا أو تم تعيين أوزانها الخاصة.
الأرقام الصغيرة والتأثيرات الكبيرة
ليس من الغريب أن تحصل على 100% وجهود أو رؤوس 100% في حال رمي عملة معدنية مرتين. وليس من المستغرب الحصول على 25% من الرؤوس بعد قلب عملة معدنية أربع مرات، ثم 75٪ يتجهون نحو الانتقالات الأربع التالية، على الرغم من أن هذا يوضح زيادة هائلة (يمكن أن تُعزى عن طريق الخطأ إلى شطيرة تم تناولها بين مجموعات قلب العملات المعدنية، أو أي عامل زائف آخر). ولكن مع زيادة من العملات المعدنية يزداد عددها إلى 1,000 أو 2,000، وهناك نسبة انحراف كبيرة عن فإن نسبة 50٪ المتوقعة يصبح من غير المحتمل أن تتلاشى.
غالبًا ما يُشار إلى عدد القياسات أو المواد التجريبية في دراسة إلى N. من المرجح بشكل كبير أن تؤدي التغييرات التناسبية الكبيرة الناتجة عن الصدفة تحدث في مجموعات البيانات والعيّنات ذات القيمة N المنخفضة.
عند إجراء تحليل أو توثيق مجموعة بيانات في بطاقة بيانات، حدِّد N، حتى يتمكّن الآخرون من مراعاة تأثير الضوضاء والعشوائية.
نظرًا لأن جودة النموذج تميل إلى التوسع مع عدد من الأمثلة، فإن مجموعة البيانات ذات ويؤدي انخفاض N إلى إنشاء نماذج منخفضة الجودة.
الانحدار إلى المتوسط
وبالمثل، فإنّ أيّ قياس يتأثّر ببعض الصدفة يخضع لتأثير يُعرف باسم الانحدار إلى المتوسط. يوضّح ذلك كيف أنّ القياس بعد قياس متطرف بشكل خاص من المرجّح أن يكون أقل تطرفاً في المتوسّط أو أقرب إلى المتوسط، وذلك بسبب عدم احتمال حدوث القياس المتطرف في المقام الأول. تشير رسالة الأشكال البيانية يكون التأثير أكثر وضوحًا إذا كانت مجموعة خاصة فوق المتوسط أو أقل من المتوسط للملاحظة، سواء كانت هذه المجموعة أطول الأشخاص في أو أسوأ الرياضيين في الفريق، أو أولئك الأكثر عرضة للإصابة بالسكتة الدماغية. من المرجّح أن يكون أطفال الأشخاص الأطول قامةً أقصر من أطفال الأشخاص الأقصر قامةً في المتوسّط، ومن المرجّح أن يحقّق الرياضيون الأقلّ أداءً نتائج أفضل بعد موسم سيء بشكلٍ استثنائي، ومن المرجّح أن ينخفض خطر الإصابة بسكتة دماغية لدى الأشخاص الأكثر عرضةً لها بعد أي تدخل أو علاج، ليس بسبب العوامل المسببة بل بسبب خصائص العشوائية واحتمالات حدوثها.
من بين الإجراءات التي يمكن اتّخاذها للتخفيف من تأثيرات الانحدار إلى المتوسط، عند استكشاف التدخلات أو العلاجات لمجموعة أعلى أو أقل من المتوسط، هو تقسيم المواضيع إلى مجموعة دراسة ومجموعة تحكّم من أجل عزل أثر العوامل المسببة. في سياق تعلُّم الآلة، تقترح هذه الظاهرة إيلاء اهتمام إضافي بأي نموذج يتوقّع قيمًا استثنائية أو قيمًا شاذة، مثل:
- الطقس أو درجات الحرارة القاسية
- المتاجر أو الرياضيين الأفضل أداءً
- الفيديوهات الأكثر رواجًا على موقع إلكتروني
فإذا كانت التنبؤات المستمرة لهذا النموذج لا تتطابق القيم الاستثنائية بمرور الوقت مع الواقع، على سبيل المثال، التنبؤ بأن أن يكون المتجر أو الفيديو الناجح للغاية ناجحًا، في حين أنه في الواقع ليس كذلك، اسأل:
- هل يمكن أن يكون الانحدار إلى المتوسط هو المشكلة؟
- هل الميزات ذات الأوزان الأعلى في الواقع أكثر تنبؤية من الميزات ذات الأوزان الأقل؟
- هل يؤدي جمع البيانات التي تحتوي على القيمة الأساسية لهذه الميزات، والتي تمثل في أغلب الأحيان القيمة صفر (أي مجموعة تحكّم فعلية)، إلى تغيير توقّعات النموذج؟
المراجع
هوف، داريل. كيفية التعامل مع الإحصاءات نيويورك: W.W. Norton، 1954.
جونز، بن. تجنُّب مخاطر البيانات: هوبوكين، نيو جيرسي: وايلي، 2020.
أو كونور وكايلين وجيمس أوين ويذرال. The Misinformation Age نيو هافن: جامعة Yale UP، عام 2019.
"رينغلر" و"آدم" و"ديفيد ماسون" و"غابي لاسكي" و"ماري تمبلتون". "لماذا تبدو رسوماتي المموّهة غريبة؟ "معرض للإشارات الزلزالية التي تم اختراقها". رسائل الأبحاث الزلازلية 92 رقم 6 تموز (يوليو) 2021. معرِّف الكائن الرقمي: 10.1785/0220210094
Weintraub, William S, Thomas F. و"لوشر" و"ستيوارت بوكوك". "مخاطر نقاط النهاية النائبة" European Heart Journal 36, no. 33 (Sep 2015): 2212–2218. DOI: 10.1093/eurheartj/ehv164
Wheelan, Charles. الإحصاءات المجردة: إزالة الخوف من البيانات نيويورك: W.W. نورتون، 2013
مرجع الصورة
"الميل إلى التأكيد على الناجين" Martin Grandjean, McGeddon, and Cameron Moll 2021. CC BY-SA 4.0. المصدر
-
جونز 25-29. ↩
-
"أوكونور" و"ويذرال" 22-3.↩
-
Ringling et al. ↩
-
Wheelan 120.↩
-
سيدهارتا موخيرجي، "هل الهواتف المحمولة تسبب سرطان الدماغ؟" في The New York Times في 13 نيسان (أبريل) 2011. تم الاستشهاد به في Wheelan 122.↩
-
ويلان 39-40. ↩
-
"مالكولم غلادويل"، "ترتيب الأشياء"، في The New Yorker في 14 فبراير 2011. تم الاقتباس من Wheelan 56.↩