مجموعات البيانات: مجموعات البيانات غير المتوازنة

ضع في الاعتبار مجموعة بيانات تحتوي على تصنيف فئوي تكون قيمته إما إيجابي أو سلبي. في مجموعة البيانات المتوازنة، يكون عدد التصنيفات موجبة وسالبة متساوٍ تقريبًا. ومع ذلك، إذا كان أحد التصنيفات أكثر شيوعًا من التصنيف الآخر، تكون مجموعة البيانات غير متوازنة. يُطلق على التسمية السائدة في أي مجموعة بيانات غير متوازنة اسم الدرجة الأكبر؛ يسمى التصنيف الأقل شيوعًا فئة القاصرين.

يقدم الجدول التالي الأسماء والنطاقات المقبولة بشكل عام درجات مختلفة من عدم التوازن:

النسبة المئوية للبيانات التي تنتمي إلى فئة الأقلية درجة عدم التوازن
20-40% من مجموعة البيانات معتدل
من 1 إلى% 20 من مجموعة البيانات معقول
<1% من مجموعة البيانات قصوى

على سبيل المثال، نأخذ مجموعة بيانات لرصد الفيروسات التي تمثل فيها الفئة الأقل تمثيلاً %0.5 من مجموعة البيانات والفئة الأكثر تمثيلاً %99.5. تُعد مجموعات البيانات غير المتوازنة للغاية مثل هذه المجموعة شائعة في الطب نظرًا فلن يكون لدى معظم الأفراد الفيروس الفيروس.

الشكل 5.  رسم بياني شريطي يتضمّن شريطين يعرض أحد الأشرطة حوالي 200
            فئة سلبية، ويعرض الشريط الآخر فئة إيجابية واحدة.
الشكل 5. مجموعة بيانات غير متوازنة للغاية

 

في بعض الأحيان، لا تحتوي مجموعات البيانات غير المتوازنة على أمثلة كافية للفئة الأقلية لتدريب نموذج بشكل صحيح. وهذا يعني أنّه مع قلة التصنيفات الإيجابية، يتم تدريب النموذج بشكل أساسي على التصنيفات السلبية ولا يمكنه تعلُّم ما يكفي عن التصنيفات الإيجابية. على سبيل المثال: إذا كان حجم الدفعة هو 50، فلن تحتوي العديد من الدفعات على أي تصنيفات موجبة.

في أغلب الأحيان، لا يشكّل عدم التوازن مشكلة، خاصةً في مجموعات البيانات التي تتسم بعدم التوازن بشكلٍ بسيط أو معتدل. لذا، يجب أن تحاول أولاً على مجموعة البيانات الأصلية إذا كان النموذج يعمل بشكل جيد، يعني هذا أنّك انتهيت من الخطوات. وإذا لم يكن الأمر كذلك، يقدّم النموذج غير الأمثل على الأقل مرجعًا جيدًا للتجارب المستقبلية. بعد ذلك، يمكنك تجربة الأساليب التالية للتغلب على المشاكل التي تسبّبها مجموعات البيانات غير المتوازنة.

تصغير نطاق العيّنات وزيادة الترجيح

تتمثل إحدى طرق التعامل مع مجموعة بيانات غير متوازنة في تقليل عيّنات الفئة الأكثر تمثيلاً وزيادة وزنها. في ما يلي تعريفات هذين المصطلحين الجديدين:

  • تقليل العيّنات (في هذا السياق) يعني التدريب على مجموعة فرعية منخفضة بشكل غير متناسب من فئة الأغلبية الأمثلة.
  • زيادة الترجيح يُقصد بها إضافة مثال الوزن للفئة المستندة إلى عينة متناسبة مع العامل الذي وأخذ عينة.

الخطوة 1: تقليل عدد عيّنات الفئة الأكثر شيوعًا فكِّر في مجموعة بيانات الفيروسات الموضّحة في الشكل 5 التي تحتوي على نسبة تصنيف إيجابي واحد لكل 200 تصنيف سلبي. يؤدي تقليل العيّنات بعامل 10 إلى تحسين الرصيد إلى 1 موجب إلى 20. السلبيات (5%). على الرغم من أنّ مجموعة التدريب الناتجة لا تزال متوازنة بدرجة معتدلة، فإنّ نسبة الإيجابيات إلى السلبية أفضل بكثير من النسبة الأصلية غير المتوازنة للغاية (0.5%).

الشكل 6. رسم بياني شريطي يتضمّن شريطين يعرض أحد الأشرطة 20 فئة
            سالبة، ويعرض الشريط الآخر فئة إيجابية واحدة.
الشكل 6. تصغير نطاق العيّنات

 

الخطوة 2: زيادة ترجيح الفئة التي تم أخذ عينات منها: إضافة مثال القيم المرجحة للفئة المتراجعة من عينة. بعد تخفيض العيّنات بعامل 10، الوزن المثالي هو 10. (نعم، قد يبدو هذا مخالفًا للمعتقدات البديهية، لكننا واشرح السبب لاحقًا).

الشكل 7. رسم بياني من خطوتَين لتقليل العينة وزيادة الوزن
            الخطوة 1: تستخرج ميزة &quot;تقليل العينة&quot; أمثلة عشوائية من فئة
            الأغلبية. الخطوة 2: تؤدي زيادة الوزن إلى زيادة أهمية الأمثلة التي تم تقليل عيّنتها.
الشكل 7. زيادة الوزن.

 

لا يشير مصطلح weight إلى مَعلمات النموذج (مثل w1 أو w2). هنا، تشير الوزن إلى أمثلة على الترجيحات، ما يزيد من أهمية مثال فردي أثناء التدريب. يعني مثال الوزن 10 أن النموذج يتعامل مع المثال على أنه 10 أضعاف الأهمية (عند خسارة الحوسبة) مما هو مثال على الوزن 1.

يجب أن يكون الوزن مساويًا للعامل الذي استخدمته لتقليل العينة:

\[\text{ \{example weight\} = \{original example weight\} × \{downsampling factor\} }\]

قد يبدو من الغريب إضافة نماذج ترجيحات بعد تقليل العيّنات. بعد كل شيء، أن نجعل النموذج يتحسن مع فئة الأقليات، فلماذا يجب تحسين فئة الأغلبية؟ في الواقع، تميل زيادة ترجيح فئة الأغلبية إلى تقليل الانحياز في التوقّعات: وهذا يعني أنّ الزيادة في الوزن بعد تقليل العينة تميل إلى تقليل الفرق بين متوسط توقّعات النموذج ومتوسط تصنيفات مجموعة البيانات.

نِسب إعادة التوازن

ما مقدار ما يجب عليك تقليل عينته وزيادة وزنه لإعادة توازن مجموعة البيانات؟ لتحديد الإجابة، يجب عليك تجربة نسبة إعادة الموازنة، تمامًا كما تجرب مع المعلَمات الفائقة: مع ذلك، تعتمد الإجابة في النهاية على العوامل التالية:

  • حجم الدفعة
  • نسبة عدم التوازن
  • عدد الأمثلة في مجموعة التدريب

ومن الناحية المثالية، يجب أن تحتوي كل دفعة على أمثلة متعددة لفئات الأقليات. وسيتم تدريب المجموعات التي لا تحتوي على فئات أقليات كافية بشكل سيئ للغاية. يجب أن يكون حجم الدفعة أكبر عدّة مرات من نسبة عدم التوازن. على سبيل المثال، إذا كانت نسبة عدم التوازن هي 100:1، يجب أن يكون حجم الحزمة 500 على الأقل.

تمرين: التحقق من فهمك

ضع في اعتبارك الحالة التالية:

  • تحتوي مجموعة التدريب على أكثر من مليار مثال بقليل.
  • حجم الدفعة هو 128.
  • نسبة عدم التوازن هي 100:1، لذا يتم تقسيم مجموعة التدريب على النحو التالي:
    • ما يقرب من مليار مثال لفئات الأغلبية.
    • حوالي 10 ملايين مثال على فئات الأقليات.
أي من العبارات التالية صحيحة؟
ستؤدي زيادة حجم الدفعة إلى 1024 إلى تحسين النتائج الأمثل.
عند ضبط حجم الحزمة على 1,024، سيتضمّن كلّ منها ما يقارب 10 أمثلة على فئة الأقلية، ما من شأنه المساعدة في تدريب أفضل بكثير.
سيؤدي إبقاء حجم الحزمة على 128 ولكن تقليل العينة (وزيادة الوزن) إلى 20:1 إلى تحسين النموذج الناتج.
وبفضل عملية تقليل العيّنات، ستبلغ كل دفعة مكوّنة من 128 دُفعة تبلغ حوالي 21. الأمثلة على فئات الأقليات، والتي يجب أن تكون كافية للتدريب نموذجًا مفيدًا. لاحظ أن تقليل حجم العيّنات يقلل من عدد الأمثلة في مجموعة التدريب من أكثر بقليل من مليار إلى حوالي 60 مليونًا.
المعلمات الفائقة الحالية جيدة.
عند ضبط حجم الحزمة على 128، سيتضمّن كل دفعة في المتوسّط مثالاً واحدًا على الأقل من فئة الأقلية ، ما قد لا يكون كافيًا لتدريب نموذج مفعّل .