الإنصاف: اختبر معلوماتك

صواب أم خطأ: يحدث التحيز التاريخي عندما يتم تدريب نموذج على بيانات قديمة.

صحيح

خطأ

يدرّب المهندسون نموذج الانحدار على توقُّع محتوى السعرات الحرارية في الوجبات استنادًا إلى مجموعة من بيانات الميزات التي استخلصوها من المواقع الإلكترونية لوصفات الطعام حول العالم، بما في ذلك حجم الوجبة والمكوّنات وأساليب التحضير. أي من مشكلات البيانات التالية هي مصادر محتملة للتحيز يجب التحقيق فيها بشكل أكبر؟

يُرجى اختيار كل ما ينطبق.

كان حوالي 4,000 من إجمالي 40,000 مثال تدريب يفتقد إلى قيمة لميزة "حجم العرض".

احتوى ما يقرب من 5,000 من أمثلة التدريب على قياسات بالوحدات البريطانية (الأونصة، والرطل، وما إلى ذلك)، في حين تحتوي الأمثلة الأخرى البالغ عددها 35,000 على مقاييس بالوحدات المترية (جرام، لتر، وما إلى ذلك).

يحتوي حوالي 100 من إجمالي 40,000 مثال تدريب على قيم مكونات يبدو أنّها غير صحيحة إلى حدّ كبير (على سبيل المثال، 100 قطعة زبدة).

كانت بعض الوجبات الشائعة محدودة التمثيل في بيانات التدريب مقارنة بالوجبات الشائعة الأخرى (على سبيل المثال، كان هناك 200 مثال تدريب على الدوسا، ولكن 10 فقط للبيتزا).

تم تدريب نموذج رصد السخرية على 80,000 رسالة نصية: 40,000 رسالة أرسلها بالغون (18 عامًا أو أكثر) و40,000 رسالة أرسلها قاصرون (أقل من 18 عامًا). ثم تم تقييم النموذج من خلال مجموعة اختبار تتألف من 20,000 رسالة: 10,000 من البالغين و10,000 من القاصرين. توضح مصفوفات الالتباس التالية نتائج كل مجموعة (يشير التنبؤ الإيجابي إلى تصنيف "ساخر"؛ والتنبؤ السلبي يشير إلى تصنيف "غير ساخر"):

الأشخاص البالغون

الإيجابيات الصحيحة (TPs): 512	القيم الإيجابية الكاذبة (FP): 51
الأرقام السلبية الخاطئة: 36	السلبية الصواب (TN): 9401
الدقة = TP/(TP + FP) = 0.909
الاستدعاء = TP/(TP + FN) = 0.934

القاصرون

الإيجابيات الصحيحة (TPs): 2147	القيم الإيجابية الكاذبة (FP): 96
الأرقام السلبية الخاطئة: 2177	المعايير السلبية الصحيحة: 5,580
الدقة = TP/(TP + FP) = 0.957
الاستدعاء = TP/(TP + FN) = 0.497

أي عبارة (عبارات) مما يلي يعد صحيحًا بشأن أداء مجموعة الاختبار للنموذج؟

يُرجى اختيار كل ما ينطبق.

يحقق النموذج أداءً أفضل مع الأمثلة التي يعرضها البالغون مقارنةً بالأمثلة المأخوذة من القاصرين.

الرسائل البالغ عددها 10000 رسالة يرسلها البالغون هي مجموعة بيانات غير متوازنة الفئات.

الرسائل البالغ عددها 10,000 التي يرسلها القاصرون هي مجموعة بيانات غير متوازنة الفئات.

ويتم تصنيف 50% تقريبًا من الرسائل التي يرسلها القاصرون على أنها "تهجية" بشكل غير صحيح.

ولا يصنّف النموذج ما يقرب من% 50 من الرسائل الساخرة للقاصرين على أنّها "اسخرية".

أي من الفرضيات التالية يمكن أن يفسر التناقضات في أداء المجموعة الفرعية في مجموعة الاختبار لنموذج الكشف عن السخرية أعلاه؟

يُرجى اختيار كل ما ينطبق.

يخطئ النموذج كثيرًا في جانب التنبؤ بعبارات "ساخرة". ونتيجة لذلك، فإنها تحدث أخطاء أكثر عند تصنيف القاصرين لأن هناك رسائل ساخرة أكثر من القاصرين في مجموعة الاختبار.

وتم تقييم النموذج بالاستناد إلى أمثلة سلبية (غير ساخرة) من القاصرين مقارنةً بالبالغين، ما يؤدي إلى حدوث عدد أكبر من الأخطاء للقاصرين.

كانت السخرية في الرسائل النصية للقاصرين أكثر دقة، وبالتالي من غير المرجّح أن يبلّغ عنها النموذج.

يقل عدد الرسائل الساخرة الفعلية من البالغين أقل بكثير من القاصرين. وإذا تم تقييم النموذج على مجموعة أكثر توازنًا في فئته من رسائل البالغين، فقد ينخفض تذكُّره لتلك المجموعة الفرعية.

يعمل المهندسون على إعادة تدريب نموذج السخرية أعلاه لمعالجة التناقضات في دقة اكتشاف السخرية عبر الفئات الديموغرافية للأعمار، ولكن تم طرح النموذج بالفعل في مرحلة الإنتاج. أي من الإستراتيجيات المؤقتة التالية ستساعد في التخفيف من الأخطاء في تنبؤات النموذج؟

يمكنك حصر استخدام النموذج على الرسائل النصيّة التي يرسلها القاصرون.

اضبط إخراج النموذج بحيث يعرض "ساخرًا" لجميع الرسائل النصية التي يرسلها القُصّر، بغض النظر عما توقعه النموذج في الأصل.

عندما يتنبأ النموذج بـ "غير ساخر" للرسائل النصية التي يرسلها القاصرون، اضبط الناتج بحيث يعرض النموذج القيمة "غير ساخر" بدلاً من ذلك.