جودة البيانات وتفسيرها

"إدخال القمامة، القمامة".
— حكمة مبكرة حول البرمجة

أسفل كل نموذج لتعلُّم الآلة، وكل عملية حسابية للارتباط، وكل نموذج يستند إلى البيانات واحدة أو أكثر من مجموعات البيانات الأولية التي ننصح بها بغض النظر عن مدى جمالها أو لافتة للنظر أو مقنعة بالمنتجات النهائية، إذا كانت البيانات الأساسية أو خاطئة أو تم جمعها بشكل سيئ أو منخفضة الجودة، فإن النموذج الناتج كما سيكون التنبؤ أو التصور أو الاستنتاج منخفضة الشطيرة. أي شخص يقوم بتصور النماذج وتحليلها وتدريبها على مجموعات البيانات يجب أن تسأل أسئلة صعبة حول مصدر بياناتهم.

يمكن أن تتعطّل أدوات جمع البيانات أو قد تتم معايرتها بشكل سيئ. يمكن أن يكون البشر الذين يجمعون البيانات مرهقين أو مزعجين أو غير متسقين أو سيئين المدرَّبين. يرتكب الأشخاص الأخطاء، وقد يختلف أيضًا الأشخاص المختلفون بشكل معقول في تصنيف الإشارات الغامضة. نتيجة لذلك، جودة يمكن أن تتأثر صحة البيانات، وقد لا تعكس البيانات الواقع. بن جونز، مؤلف تجنب البيانات الصعاب، تسمي هذا ثغرة في البيانات والواقعية تذكير القارئ: "هذه ليست جريمة، إنها جريمة مبلَّغ عنها". إنه ليس عدد ضربات الشهب، فهو العدد المسجلة لضربات النيزك".

أمثلة على فجوة البيانات في الواقع:

  • الارتفاعات الرسومية لجونز في القياسات الزمنية في فواصل زمنية مدتها 5 دقائق، قياسات الوزن بين فواصل 5 رطل، وليس بسبب وجود مثل هذه الارتفاعات في ولكن نظرًا لأن جامعات البيانات البشرية، على عكس الأدوات، لديهم ميل لتقريب أرقامهما إلى أقرب 0 أو 5.1

  • في عام 1985، عمل كل من جو فارمان وبريان غاردينر وجوناثان شانكلين في دراسة القطب الجنوبي البريطانية (BAS)، أن قياساتها أشارت إلى ثقب موسمي في طبقة الأوزون فوق نصف الكرة الجنوبي. هذا النمط تتعارض مع بيانات وكالة ناسا التي لم تسجل مثل هذا الثقب. ريتشارد عالم الفيزياء في وكالة "ناسا" أجرى ستولارسكي تحقيقًا ووجد أن برنامج معالجة البيانات التابع لوكالة ناسا افتراض أن مستويات الأوزون لا يمكن أبدًا أن تنخفض والقراءات المنخفضة جدًا لدرجة الأوزون التي تم رصدها تلقائيًا على أنّها قيَم شاذة لا معنى لها.2

  • تواجه الآلات الموسيقية مجموعة متنوعة من أوضاع الإخفاق، وأحيانًا عندما تكون ثابتة جمع البيانات. Adam Ringler et al. توفير معرض عن الزلازل القراءات الناتجة عن إخفاقات الأداة (والإخفاقات المقابلة) في ورقة البحث في العام 2021 بعنوان "Why Do My Squiggles Look Funny? "3 والقراءات النموذجية لا تتوافق مع النشاط الزلزالي الفعلي.

بالنسبة إلى ممارسي تعلُّم الآلة، من المهم فهم ما يلي:

  • الجهة التي جمعت البيانات
  • كيفية ووقت جمع البيانات والظروف التي تم جمعها
  • حساسية أدوات القياس وحالةها
  • كيف تبدو إخفاقات الأداة والخطأ البشري في السياق
  • الميول البشرية لتقريب الأعداد وتقديم الإجابات المرغوبة

دائمًا تقريبًا، هناك فرق بسيط بين البيانات والواقع، التي تُعرف أيضًا باسم الحقيقة الواقعية تُعد مراعاة هذا الاختلاف أمرًا أساسيًا لاستخلاص استنتاجات جيدة واتخاذ قرارات سليمة. يتضمن ذلك اتخاذ قرار بشأن:

  • المشكلات التي يمكن وينبغي حلها بواسطة التعلم الآلي.
  • المشكلات التي لا يكون من الأفضل حلها باستخدام التعلم الآلي.
  • المشكلات التي لا تحتوي حتى الآن على ما يكفي من البيانات عالية الجودة لحلها بواسطة التعلم الآلي.

اطرح سؤالاً: ما الذي تنقله البيانات بالمعنى الأكثر صرامة والأكثر حرفية؟ بنفس القدر من الأهمية، ما الذي لا تنقله البيانات؟

بيانات غير مفيدة

بالإضافة إلى التحقيق في شروط جمع البيانات، تتيح لك مجموعة البيانات نفسه يمكن أن يحتوي على أخطاء وأخطاء وقيم صفرية أو غير صالحة (مثل قياسات سلبية للتركيز). يمكن أن تكون البيانات ذات مصادر جماعية فوضوي. يمكن أن يؤدي العمل على مجموعة بيانات ذات جودة غير معروفة إلى نتائج غير دقيقة.

تشمل المشاكل الشائعة ما يلي:

  • الأخطاء الإملائية في قيم السلسلة، مثل أسماء الأماكن أو الأنواع أو أسماء العلامات التجارية
  • إحالات ناجحة لوحدات أو وحدات أو أنواع عناصر غير صحيحة
  • قيم مفقودة
  • تصنيفات خاطئة متسقة أو خطأ في التسمية
  • الأرقام المهمة المتبقية من العمليات الحسابية التي تتجاوز الحساسية الفعلية للأداة

غالبًا ما يتضمن تنظيف مجموعة البيانات خيارات حول القيم الفارغة والمفقودة (سواء لإبقائها فارغة أو إسقاطها أو استبدالها أو استبدال 0)، وتصحيح الأخطاء الإملائية إصدار واحد، وإصلاح الوحدات والإحالات الناجحة، وهكذا. برنامج أكثر تقدمًا هو حساب القيم المفقودة، والموضحة في خصائص البيانات في دورة مكثّفة عن تعلّم الآلة.

أخذ العينات، والتحيز في البقاء على قيد الحياة، ومشكلة نقطة النهاية البديلة

تسمح الإحصاء بالاستنتاج الصحيح والدقيق للنتائج من عينة عشوائية بحتة على أكبر عدد من المجموعة بالكامل. تتيح هشاشة غير محققة وهذا الافتراض، إلى جانب المدخلات التدريبية غير المتوازنة وغير المكتملة، قد إلى حالات إخفاق العديد من تطبيقات تعلُّم الآلة، بما في ذلك النماذج المستخدمة واستئناف المراجعات وإجراءات الشرطة. كما أدى إلى إخفاقات استطلاعات الرأي استنتاجات خاطئة حول المجموعات الديموغرافية. في معظم السياقات خارج بيانات اصطناعية يتم إنشاؤها بواسطة الكمبيوتر، فإن العينات العشوائية البحتة باهظة الثمن ويصعب الحصول عليها. حلول متنوعة وبأسعار معقولة استخدام الخوادم الوكيلة بدلاً من ذلك، والتي تقدم مصادر مختلفة الانحياز

لاستخدام طريقة أخذ العينات الطبقية، على سبيل المثال، عليك معرفة انتشار كل طبقة مأخوذة كعينة في المجموعة الأكبر. إذا افترضت انتشار غير صحيح بالفعل، فستكون نتائجك غير دقيقة. وبالمثل، نادرًا ما يكون الاستطلاع عبر الإنترنت عبارة عن عينة عشوائية من السكان المحليين، ولكن عينة من المجموعة بالكامل المتصلين بالإنترنت (غالبًا من بلدان متعددة) يشاهد الاستطلاع ويرغب في المشاركة فيه ومن المرجح أن تختلف هذه المجموعة عن عينة عشوائية حقيقية. تتطلب الأسئلة في الاستطلاع عينة من الأسئلة المحتملة. الإجابات على أسئلة الاستطلاع هذه هي، وليس عينة عشوائية من المشاركين آراء فعلية، ولكن عينة من الآراء التي لا يمانع المشاركون تقديمها، والتي قد تختلف عن آراء فعلية.

يواجه باحثو الصحة السريرية مشكلة مماثلة تُعرف باسم العلاج البديل نقطة النهاية. لأن الأمر يستغرق وقتًا طويلاً جدًا للتحقق من تأثير الدواء على عمر المريض، يستخدم الباحثون العلامات الحيوية الوكيلة التي يُفترض أن تكون المتعلقة العمر ولكن قد لا تكون كذلك. تُستخدم مستويات الكوليسترول كبديل نقطة نهاية للنوبات القلبية والوفيات الناجمة عن مشاكل القلب والأوعية الدموية: إذا كان هناك دواء بخفض مستويات الكوليسترول، ويُفترض أيضًا أن يقلل من خطر الإصابة بمشاكل القلب. ومع ذلك، فقد تكون سلسلة الارتباط هذه غير صالحة، أو قد يكون ترتيب السببية قد يختلف عما يفترضه الباحث. راجع Weintraub et al., "مخاطر نقاط النهاية البديلة", للاطّلاع على المزيد من الأمثلة والتفاصيل الموقف المكافئ في التعلم الآلي هو تصنيفات الخادم الوكيل

اشتهر عالم الرياضيات أبراهام والد بأن هناك مشكلة في تحليل عينات البيانات معروفة الآن على أنّه انحياز في البقاء على قيد الحياة. عادت طائرات حربية بسبب ثقوب رصاص مواقع معينة وليس في مواقع أخرى. أراد الجيش الأمريكي إضافة المزيد من الدروع إلى الطائرات في المناطق التي تحتوي على أكبر عدد من الثقوب التي تحتوي على ثقوب رصاصة، ولكن راجعت مجموعة والد البحثية وننصح بدلاً من ذلك بإضافة الدروع إلى المناطق بدون ثقوب تعداد نقطي. استنتج بشكل صحيح أن عينة بياناته كانت منحرفة لأن الطائرات انطلقت كانت تلك المناطق متضررة للغاية لدرجة أنهم لم يتمكنوا من العودة إلى قاعدةهم.

مخطط طائرة فيه نقاط حمراء تشير إلى ثقوب تعداد نقطي
رسم بياني افتراضي يوضّح التدمير الناتج عن رصاص قاذفة قنبلة من الحرب العالمية الثانية

هل تم تدريب نموذج يوصي بالدروع فقط استنادًا إلى الرسوم التخطيطية لعودة الدروع الطائرات الحربية، دون رؤية على تحيز البقاء على قيد الحياة في البيانات، كان من الممكن أن يقترح هذا النموذج تدعيم المناطق بمزيد من الثقوب النقطية.

يمكن أن ينشأ الانحياز في الاختيار الذاتي من أشخاص يتطوعون والمشاركة في دراسة. السجناء الذين يدفعون إلى الاشتراك في خطة تخفيف الأثر البرنامج، على سبيل المثال، مجموعة تقل احتمالية التزامهم جرائم مستقبلية من السجن العام. قد يؤدي ذلك إلى تحريف النتائج.4

هناك مشكلة أكثر دقة في أخذ العينات وهي تحيز التذكر، حيث تنطوي على قابلية استخدام المواضيع البشرية الذكريات. في عام 1993، سأل إدوارد جيوفانوتشي عن فئة عمرية مطابقة من النساء، اللواتي تم تشخيص إصابتهن بالسرطان، حول نظامه الغذائي السابق عاداتهم. أجرت نفس النساء استبيانًا حول العادات الغذائية قبل تشخيصات السرطان. ما اكتشفه "جيوفانوتشي" هو أن نساء بلا سرطان سحبت التشخيصات من نظامها الغذائي بدقة، ولكن تم الإبلاغ عن النساء المصابات بسرطان الثدي تناولوا دهونًا أكثر مما كانت تقوله سابقًا - دون وعي تقديم تفسير محتمل (ولكن غير دقيق) لمرض السرطان.5

سؤال:

  • ما المقصود بأخذ العينات من مجموعة البيانات فعليًا؟
  • كم عدد مستويات أخذ العينات الموجودة؟
  • ما التحيز الذي يمكن أن يحدث في كل مستوى من مستويات أخذ العينات؟
  • هل يتم استخدام القياس الوكيل (سواء من خلال علامة حيوية أو استطلاع على الإنترنت أو رمز نقطي) ثقب) يوضح الارتباط الفعلي أو السببية؟
  • ما الذي قد ينقصه العينة وطريقة أخذ العينات؟

وحدة الإنصاف في الدورة التدريبية المكثّفة عن تعلّم الآلة التي تتناول مصادر إضافية للتحيز في مجموعات البيانات الديموغرافية.

التعريفات والترتيبات

حدد المصطلحات بوضوح ودقة، أو اسأل عن تعريفات واضحة ودقيقة. هذا الإجراء ضروري لفهم ميزات البيانات قيد النظر. وما يتم التنبؤ به أو المطالبة به بالضبط. يقدم تشارلز ويلان، في مقالة الإحصاءات المجردة، "صحة الولايات المتحدة التصنيع" كمثال على المصطلح الغامض. سواء كان التصنيع في الولايات المتحدة "سليم" أو لا يعتمد كليًا على كيفية تعريف المصطلح. غريغ إب مقالة آذار (مارس) 2011 في The Economist توضح هذا الغموض. إذا كان مقياس "الصحة" هو "تصنيع المخرجات ثم في عام 2011، تحسَّن التصنيع في الولايات المتحدة. إذا كانت "الصحة" على أنه "وظائف التصنيع"، غير أنّ التصنيع في الولايات المتحدة انخفضت بشكل كبير.6

غالبًا ما تعاني الترتيبات من مشاكل مماثلة، بما في ذلك الأمور المحجوبة أو التي لا معنى لها. والأوزان المعطاة للمكونات المختلفة للتصنيف، والمصنفين والتباين خيارات غير صالحة. يذكر "مالكولم غلادويل" في مجلة The New Yorker أنه رئيس قضاة المحكمة العليا في ولاية ميشيغان، "توماس برينان"، الذي أرسل استطلاعًا إلى ومئة محامٍ يطلب منهم ترتيب عشر كليات محاماة حسب الجودة، وبعضها مشهور والبعض الآخر لا. وقد رتب هؤلاء المحامون كلية الحقوق في ولاية بنسلفانيا بنحو 5 المكان، على الرغم من أنه في وقت إجراء الاستطلاع، لم تكن ولاية بنسلفانيا تمتلك قانونًا المدرسة.7 يتضمن العديد من التصنيفات المعروفة نهجًا ذاتي مشابه المكون السمعة. اسأل عن المكونات التي تدخل في الترتيب، ولماذا أو تم تعيين أوزانها الخاصة.

الأرقام الصغيرة والتأثيرات الكبيرة

ليس من الغريب أن تحصل على 100% وجهود أو رؤوس 100% في حال رمي عملة معدنية مرتين. وليس من المستغرب الحصول على 25% من الرؤوس بعد قلب عملة معدنية أربع مرات، ثم 75٪ يتجهون نحو الانتقالات الأربع التالية، على الرغم من أن هذا يوضح زيادة هائلة (يمكن أن تُعزى عن طريق الخطأ إلى شطيرة تم تناولها بين مجموعات قلب العملات المعدنية، أو أي عامل زائف آخر). ولكن مع زيادة من العملات المعدنية يزداد عددها إلى 1,000 أو 2,000، وهناك نسبة انحراف كبيرة عن فإن نسبة 50٪ المتوقعة يصبح من غير المحتمل أن تتلاشى.

غالبًا ما يُشار إلى عدد القياسات أو المواد التجريبية في دراسة إلى N. من المرجح بشكل كبير أن تؤدي التغييرات التناسبية الكبيرة الناتجة عن الصدفة تحدث في مجموعات البيانات والعيّنات ذات القيمة N المنخفضة.

عند إجراء تحليل أو توثيق مجموعة بيانات في بطاقة بيانات، حدد N، لكي يتمكّن المستخدمون الآخرون من التفكير في تأثير التشويش والعشوائية.

نظرًا لأن جودة النموذج تميل إلى التوسع مع عدد من الأمثلة، فإن مجموعة البيانات ذات ويؤدي انخفاض N إلى إنشاء نماذج منخفضة الجودة.

الانحدار إلى المتوسط

وبالمثل، فإن أي قياس له بعض التأثير من الصدفة يخضع التأثير المعروف باسم الانحدار إلى المتوسط. يصف ذلك كيف أن القياس بعد قياس فائق الدقة هو في المتوسط، من المحتمل أن يكون أقل تطرفًا أو أقرب إلى المتوسط، وذلك بسبب من غير المرجّح أن يحدث القياس الشديد في المقام الأول. تشير رسالة الأشكال البيانية يكون التأثير أكثر وضوحًا إذا كانت مجموعة خاصة فوق المتوسط أو أقل من المتوسط للملاحظة، سواء كانت هذه المجموعة أطول الأشخاص في أو أسوأ الرياضيين في الفريق، أو أولئك الأكثر عرضة للإصابة بالسكتة الدماغية. تشير رسالة الأشكال البيانية من المرجح أن يكون أطفال أطول الأشخاص أقصر من أولياء الأمور، فمن المرجح أن يحقق أسوأ الرياضيين أداءً أفضل بعد الموسم السيئ، ومن المرجح أن يظهر أولئك الأكثر عرضة لخطر السكتة الدماغية بعد أي تدخل أو علاج، وليس بسبب العوامل المسببة ولكن نظرًا لخصائص واحتمالات العشوائية.

أحد الوسائل التخفيف من آثار الانحدار على المتوسط، عند استكشاف التدخلات أو العلاجات لمجموعة أعلى من المتوسط أو أقل من المتوسط، تقسيم الموضوعات إلى مجموعة دراسة ومجموعة مرجعية لعزل السببية. في سياق تقنية تعلُّم الآلة، تشير هذه الظاهرة إلى دفع مبالغ إضافية الانتباه إلى أي نموذج يتنبأ بقيم استثنائية أو استثنائية، مثل:

  • أحوال الطقس القاسية أو درجات الحرارة
  • المتاجر أو الرياضيين الأفضل أداءً
  • الفيديوهات الأكثر رواجًا على موقع إلكتروني

فإذا كانت التنبؤات المستمرة لهذا النموذج لا تتطابق القيم الاستثنائية بمرور الوقت مع الواقع، على سبيل المثال، التنبؤ بأن أن يكون المتجر أو الفيديو الناجح للغاية ناجحًا، في حين أنه في الواقع ليس كذلك، اسأل:

  • هل يمكن أن يتسبب الانحدار إلى متوسط المشكلة؟
  • هل الميزات ذات الأوزان الأعلى في الواقع أكثر تنبؤية من الميزات ذات الأوزان الأقل؟
  • هل جمع البيانات التي لها القيمة المرجعية لتلك الميزات، غالبًا ما تكون صفرًا (مجموعة التحكم بشكل فعال) تغيير تنبؤات النموذج؟

المراجع

هوف، داريل. كيفية التعامل مع الإحصاءات نيويورك: دبليو. دبليو نورتون، 1954.

جونز، بن. تجنُّب مخاطر البيانات: هوبوكين، نيو جيرسي: وايلي، 2020.

أو كونور وكايلين وجيمس أوين ويذرال. عصر المعلومات الخاطئة: نيو هافن: جامعة Yale UP، عام 2019.

"رينغلر" و"آدم" و"ديفيد ماسون" و"غابي لاسكي" و"ماري تمبلتون". "لماذا تبدو الرسوميات المتمايلة مضحكة؟ معرض الإشارات الزلزالية المخترَقة" رسائل الأبحاث الزلازلية 92 رقم 6 تموز (يوليو) 2021. معرِّف الكائن الرقمي: 10.1785/0220210094

وينتروب، وويليام إس، وتوماس إف. و"لوشر" و"ستيوارت بوكوك". "مخاطر نقاط النهاية البديلة". European Heart Journal 36 رقم. 33 (أيلول (سبتمبر) 2015): 2212–2218. معرّف الكائن الرقمي (DOI): 10.1093/eurheartj/ehv164

ويلان، تشارلز. الإحصاءات المجردة: إزالة الخوف من البيانات نيويورك: دبليو. دبليو نورتون، 2013

مرجع الصورة

"تحيز البقاء على قيد الحياة". "مارتن غراندجين" و"ماكجدون" و"كاميرون مول" لعام 2021 CC BY-SA 4.0. المصدر


  1. جونز 25-29.

  2. "أوكونور" و"ويذرال" 22-3.

  3. Ringling et al.

  4. Wheelan 120.

  5. سيدهارتا موخيرجي، "هل الهواتف المحمولة تسبب سرطان الدماغ؟" في The New York Times في 13 نيسان (أبريل) 2011. مذكور في Wheelan 122.

  6. ويلان 39-40.

  7. "مالكولم غلادويل"، "ترتيب الأشياء"، في The New Yorker في 14 فبراير 2011. مذكور في Wheelan 56.