العدالة: التحقق من فهمك

أنواع الانحياز

يُرجى الاطّلاع على الخيارات أدناه.

أيٌّ من توقّعات النموذج التالي تؤثر في الانحياز في الاختيار؟
يستخدم تطبيق الهاتف الذكي للتعرّف على الكتابة بخط اليد باللغة الألمانية نموذجًا يصنّف بشكل متكرر الأحرف غير المرغوب فيها (s) (Eszett) على أنها B، لأنّه تم تدريبها على مجموعة من عيّنات الكتابة بخط اليد الأمريكية، وكانت معظمها مكتوبة باللغة الإنجليزية.
تأثر هذا النموذج بنوع انحياز اختيار يسمى انحياز التغطية: لم تكن بيانات التدريب (الكتابة اليدوية باللغة الإنجليزية الأمريكية) تمثل نوع البيانات التي يقدمها الجمهور المستهدف للنموذج (الكتابة اليدوية الألمانية).
أنشأ المهندسون نموذجًا لتوقّع مدى احتمال الإصابة بمرض السكري من خلال تناول الطعام اليومي. تم تدريب النموذج على 10,000 "مذكّرة وطعام" تم جمعها من مجموعة مختارة عشوائيًا من الأشخاص في جميع أنحاء العالم والتي تمثّل مجموعة متنوعة من الفئات العمرية والخلفيات العرقية والأجناس. ومع ذلك، عندما تم نشر النموذج، كانت درجة الدقة منخفضة للغاية. وقد اكتشف المهندسون في وقت لاحق أنّ المشاركين في يوميات الطعام كانوا مترددين في قبول الحجم الحقيقي للأطعمة غير الصحية التي كانوا يأكلونها، وكانوا أكثر احتمالاً بتوثيق استهلاك الطعام المغذّي بدلاً من الوجبات الخفيفة الصحية.
لا يتوفر انحياز للاختيار في هذا النموذج، فالمشاركون الذين قدّموا بيانات التدريب يمثّلون عيّنات من المستخدمين وتم اختيارهم بشكل عشوائي. وبدلاً من ذلك، تأثر هذا النموذج بالانحياز في إعداد التقارير. وتم الإبلاغ عن نقل الأطعمة غير الصحية بمعدّل أقل بكثير من الواقع.
طوّر المهندسون في الشركة نموذجًا لتوقّع معدلات معدّل ترك الموظفين (النسبة المئوية للموظفين الذين يغادرون وظائفهم كل عام) استنادًا إلى البيانات التي تم جمعها من استطلاع تم إرساله إلى جميع الموظفين. وبعد عدة سنوات من الاستخدام، قرّر المهندسون أنّ النموذج يقلّل من حجم العمل بنسبة تزيد عن 20%. وعند إجراء مقابلات خروج مع الموظفين الذين غادروا الشركة، أدركوا أنّ أكثر من 80% من الأشخاص الذين لم يكونوا راضين عن وظائفهم اختاروا عدم إكمال الاستطلاع، مقارنةً بنسبة الإيقاف على مستوى الشركة والتي تبلغ 15%.
يتأثر هذا النموذج بنوع انحياز اختيار يُسمى الانحياز بدون استجابة. وكان المستخدمون غير الراضين عن وظائفهم أقل تمثيلاً في مجموعة بيانات التدريب لأنهم أوقفوا الاستطلاع على مستوى الشركة بمعدّلات أعلى بكثير من جميع الموظفين.
ويفرض المهندسون على تطوير نظام اقتراحات الأفلام بافتراض أنّ المستخدمين الذين يحبون أفلام الرعب سيحبون أفلام الخيال العلمي. وعندما تدرّبت نموذجًا على 50,000 مستخدم&#39، فقائمة الأسهم لم توضّح أي علاقة بين الخيارات المفضّلة للرعب والخيال العلمي، بل إنها أثبتت وجود علاقة قوية بين الخيارات المفضّلة للرعب والأفلام الوثائقية. بدا الأمر غريبًا بالنسبة إليهم، لذلك أعادوا تدريب النموذج خمس مرات أخرى باستخدام معلَمات Hyper Hyper مختلفة. وقد أظهر النموذج النهائي المدرّب علاقة 70% بين الخيارات المفضّلة للرعب والخيال العلمي، ما أدى إلى إنتاجه بثقة.
ما من دليل على انحياز التحديد، ولكن قد يكون هذا النموذج قد تأثّر بدلاً من ذلك بانحياز المختبِر، حيث واصل المهندسون تكرار نموذجهم حتى يؤكدوا فرضيتهم القائمة مسبقًا.

تقييم الانحياز

تم تدريب نموذج الرصد السخري على 80,000 رسالة نصية: 40,000 رسالة أرسلها البالغين (18 عامًا أو أكثر) و40,000 رسالة أرسلها القاصرين (أقل من 18 عامًا). بعد ذلك، تم تقييم النموذج على مجموعة اختبار مؤلفة من 20,000 رسالة: 10,000 رسالة من البالغين و10,000 رسالة من القاصرين. تعرض مصفوفات الارتباك التالية نتائج كل مجموعة (التوقع الموجّب يشير إلى تصنيف "&ar;sarcastic"; ويعني التوقع السلبي إلى تصنيف لـ "وليس "ساخرًا"&").

الأشخاص البالغون

الإيجابيات الحقيقية (TP): 512 الإيجابيات الخاطئة: 51
النتائج السلبية الخاطئة (FNs): 36 السلبيات الصحيحة (TNs): 9401
$$\text{Precision} = \frac{TP}{TP+FP} = 0.909$$
$$\text{Recall} = \frac{TP}{TP+FN} = 0.934$$

القاصرين

الإيجابيات الحقيقية (TP): 2147 الإيجابيات الخاطئة: 96
النتائج السلبية الخاطئة (FNs): 2177 سالبة سلبية (TN): 5580
$$\text{Precision} = \frac{TP}{TP+FP} = 0.957$$
$$\text{Recall} = \frac{TP}{TP+FN} = 0.497$$

يُرجى الاطّلاع على الخيارات أدناه.

أي من العبارات التالية حول أداء مجموعة الاختبار النموذجية صحيحة؟
وبوجهٍ عام، يحقّق النموذج أداءً أفضل على أمثلة البالغين مقارنةً بأمثلة من القاصرين.

ويحقّق النموذج معدّل دقة وتذكّر يتجاوز 90% عند رصد التطرّف في الرسائل النصية من البالغين.

يحقّق النموذج معدّل دقة أعلى قليلاً للقاصرين مقارنةً بال البالغين، إلا أنّ معدّل تذكُّر المحتوى للقاصرين أقلّ بكثير، ما يؤدي إلى توقّعات أقل موثوقية لهذه المجموعة.

لم يسجّل النموذج نسبة 50% تقريبًا من القاصرين&#39؛ والرسائل الساخرة على أنها &&ar;sarcastic&"
يشير معدّل التذكّر 0.497 للقاصرين إلى أنّ النموذج ينبّه إلى أنّه "لا يمكن الاستدلال عليه" وليس "ساخرًا" أو% 50 تقريبًا من القاصرين&#39، النصية الساخرة.
إنّ% 50 تقريبًا من الرسائل التي يرسلها القاصرين يتم تصنيفها بشكل غير صحيح كـ "sarcastic"
تشير نسبة الدقة 0.957 إلى أنّ أكثر من% 95 من القاصرين&#39؛ والرسائل المصنّفة على أنها "sarcastic" ساخرة فعليًا.
الرسائل التي يبلغ عددها 10,000 والمُرسَلة من قِبل البالغين هي مجموعة بيانات غير متوازنة.
إذا قارنا عدد الرسائل الواردة من البالغين شخصًا ساخرًا (TP+FN = 548) مع عدد الرسائل غير الساخرة (TN + FP = 9452)، نلاحظ أنّ الرؤى ليست ساخرة رقمًا واحدًا، وتكون التصنيفات رقم 1 بمعدّل نسبة 1 تقريبًا.
الرسائل التي يبلغ عددها 10,000 رسالة أرسلها قاصرون هي مجموعة بيانات غير متوازنة.
إذا قارنا عدد الرسائل الواردة من قُصَّر (ساخرة) (TP+FN = 4324) بعدد الرسائل غير الساخرة (TN + FP = 5676)، نلاحظ أنّ هناك نسبة %1.3:1 من علامات اقتباس &sarcastic"""sarcastic" "sarc؟ بما أنّ توزيع التصنيفات بين الصفَّين هو ما يقرب من 50/50، فإنّ هذه المجموعة ليست مجموعة بيانات غير متوازنة.

يُرجى الاطّلاع على الخيارات أدناه.

يعمل المهندسون على إعادة تدريب هذا النموذج للتعامل مع التناقضات في دقة الكشف عن السخرية من خلال الخصائص الديمغرافية العمري، ولكن تم إصدار النموذج في مرحلة الإنتاج. أي من استراتيجيات الفجوة الزمنية التالية ستساعد في الحدّ من الأخطاء في نموذج التوقّعات؟
قصر استخدام النموذج على الرسائل النصية التي يرسلها البالغين.

ويحقّق النموذج أداءً جيدًا في الرسائل النصية الواردة من البالغين (بدقة ومعدّلات تذكُّر أعلى من 90%)، لذا فإنّ تقييد استخدامه على هذه المجموعة يؤدي إلى تجنّب الأخطاء المنهجية في تصنيف القاصرين على الرسائل النصية.

عندما يتوقّع النموذج "وليس& ساخرًا&quot: بالنسبة إلى الرسائل النصية التي يرسلها القاصرين، اضبط الإخراج بحيث يعرض النموذج قيمة "unsure" بدلاً من ذلك.

تُعدّ نسبة دقة الرسائل النصية التي يرسلها القاصرين مرتفعة، ما يعني أنّ النموذج ينبّه دائمًا إلى أن تكون هذه المجموعة صحيحة دائمًا عند توقّع النموذج "و"الاقتباس الساخر".

وتكمن المشكلة في أنّ تذكُّر القاصرين منخفض جدًا، وأنّ النموذج لا يحدّد الطابع الساخر في حوالي% 50 من الأمثلة. بما أنّ التوقّعات عن النموذج السلبي للقاصرين ليست أفضل من التخمينات العشوائية، يمكننا تجنّب هذه الأخطاء من خلال عدم تقديم توقّع في هذه الحالات.

قصر استخدام النموذج على الرسائل النصية التي يرسلها القاصرين.

وتنطبق الأخطاء المنهجية في هذا النموذج على الرسائل النصية التي يرسلها القاصرين. لن يساعد تقييد استخدام النموذج على المجموعة الأكثر عرضة للخطأ في حل المشكلة.

اضبط مخرجات النموذج بحيث تعرض "&ar;sarcastic" لجميع الرسائل النصية التي يرسلها القاصرين، بغض النظر عن ما توقعه النموذج في الأصل.

احرِص دائمًا على أن تتوقّع دائمًا الرسائل النصية الواردة من "القاصرين": يُرجى العِلم بأنّ هذه الزيادة في معدّل تذكُّر الإعلان ستكون على حساب الدقة. سيتم تغيير جميع العناصر السلبية الصحيحة إلى موجبات خاطئة:

الإيجابيات الصحيحة (TP): 4324 الإيجابيات الخاطئة (FP): 5676
النتائج السلبية الخاطئة (FN): 0 صحيح سلبيات (TN): 0

ما سيؤدي إلى خفض معدّل الدقة من 0.957 إلى 0.432. لذا، ستؤدي إضافة هذه المعايرة إلى تغيير نوع الخطأ ولكن لن تقلل حجم الخطأ.