مجموعات البيانات: مجموعات البيانات غير المتوازنة

لنفترض أنّ مجموعة البيانات تحتوي على تصنيف فئوي تكون قيمته إما موجب أو سالب. في مجموعة البيانات المتوازنة، يكون عدد التصنيفات موجبة وسالبة متساوٍ تقريبًا. ومع ذلك، إذا كان أحد التصنيفات أكثر شيوعًا من التصنيف الآخر، تكون مجموعة البيانات غير متوازنة. يُطلق على التصنيف السائد في مجموعة بيانات غير متوازنة اسم الفئة الأكثر تمثيلاً، ويُطلق على التصنيف الأقل شيوعًا اسم الفئة الأقل تمثيلاً.

يقدّم الجدول التالي أسماء ونطاقات مقبولة بشكل عام لقياس درجات عدم التوازن المختلفة:

النسبة المئوية للبيانات التي تنتمي إلى فئة الأقلية درجة عدم التوازن
من %20 إلى %40 من مجموعة البيانات معتدل
من %1 إلى %20 من مجموعة البيانات متوسط
أقل من% 1 من مجموعة البيانات قصوى

على سبيل المثال، نأخذ مجموعة بيانات لرصد الفيروسات التي تمثل فيها الفئة الأقل تمثيلاً% 0.5 من مجموعة البيانات والفئة الأكثر تمثيلاً %99.5. إنّ مجموعات البيانات غير المتوازنة للغاية مثل هذه المجموعة شائعة في المجال الطبي لأنّه لن يصاب بالفيروس سوى القليل من الأشخاص.

الشكل 5.  رسم بياني شريطي يضم شريطين يعرض أحد الأشرطة حوالي 200
            صفًّا سلبيًا، ويعرض الشريط الآخر صفًا موجبًا واحدًا.
الشكل 5. مجموعة بيانات غير متوازنة للغاية

 

في بعض الأحيان، لا تحتوي مجموعات البيانات غير المتوازنة على أمثلة كافية للفئة الأقلية لتدريب نموذج بشكل صحيح. وهذا يعني أنّه مع قلة التصنيفات الإيجابية، يتم تدريب النموذج بشكل أساسي على التصنيفات السلبية ولا يمكنه تعلُّم ما يكفي عن التصنيفات الإيجابية. على سبيل المثال، إذا كان حجم المجموعة 50، لن تحتوي العديد من المجموعات على تصنيفات إيجابية.

في أغلب الأحيان، لا يشكّل عدم التوازن مشكلة، خاصةً في مجموعات البيانات التي تتسم بعدم التوازن بشكلٍ بسيط أو معتدل. لذا، عليك محاولة أولاً إجراء التدريب على مجموعة البيانات الأصلية. إذا كان النموذج يعمل بشكل جيد، يعني هذا أنّك انتهيت. وإذا لم يكن الأمر كذلك، يقدّم النموذج غير الأمثل على الأقل مرجعًا جيدًا للتجارب المستقبلية. بعد ذلك، يمكنك تجربة الأساليب التالية للتغلب على المشاكل التي تسبّبها مجموعات البيانات غير المتوازنة.

تصغير نطاق العيّنات وزيادة الوزن

تتمثل إحدى طرق التعامل مع مجموعة بيانات غير متوازنة في تقليل عيّنات الفئة الأكثر تمثيلاً وزيادة وزنها. في ما يلي تعريفات هذين المصطلحين الجديدين:

  • التصغير (في هذا السياق) يعني التدريب على مجموعة فرعية منخفضة بشكل غير متناسب من نماذج الفئة الأكثر شيوعًا.
  • زيادة الترجيح تعني إضافة ترجيح مثال إلى الفئة التي تمّت خفض عيّنتها بمقدار يساوي العامل الذي تمّت خفض عيّنتها به.

الخطوة 1: خفض عدد عيّنات فئة الأغلبية فكِّر في مجموعة بيانات الفيروسات الموضّحة في الشكل 5 التي تحتوي على نسبة تصنيف إيجابي واحد لكل 200 تصنيف سلبي. يؤدي تقليل العينة بمقدار 10 إلى تحسين التوازن إلى 1 موجب مقابل 20 سالبًا (%5). على الرغم من أنّ مجموعة التدريب الناتجة لا تزال متوازنة بدرجة معتدلة، فإنّ نسبة الإيجابيات إلى السلبية أفضل بكثير من النسبة الأصلية غير المتوازنة للغاية (0.5%).

الشكل 6 رسم بياني شريطي يضم شريطين يعرض أحد الأشرطة 20 فئة
            سالبة، ويعرض الشريط الآخر فئة إيجابية واحدة.
الشكل 6. تصغير نطاق العيّنات

 

الخطوة 2: زيادة وزن الفئة التي تمّ تقليل عيّنتها: أضِف مثالاً على الأوزان إلى الفئة التي تمّ تقليل عيّنتها. بعد تقليل العينة بمقدار 10، يجب أن يكون وزن المثال 10. (قد يبدو هذا الأمر غير منطقي، ولكن سنشرح سبب ذلك في وقت لاحق).

الشكل 7 رسم بياني من خطوتَين لخفض العينة وزيادة الوزن
            الخطوة 1: تستخرج ميزة "تقليل العينة" أمثلة عشوائية من فئة
            الأغلبية. الخطوة 2: تؤدي زيادة الوزن إلى زيادة أهمية الأمثلة التي تم تقليل عيّنتها.
الشكل 7. زيادة الوزن

 

لا يشير مصطلح weight إلى مَعلمات النموذج (مثل w1 أو w2). يشير الوزن هنا إلى أمثلة على الأوزان، ما يزيد من أهمية مثال فردي أثناء التدريب. إذا كان مثال الوزن هو 10، يعني ذلك أنّ النموذج يتعامل مع المثال على أنّه أهم 10 مرات (عند احتساب الخسارة) مقارنةً بمثال الوزن 1.

يجب أن يكون الوزن مساويًا للعامل الذي استخدمته لتقليل العينة:

 {example weight} = {original example weight} ×{downsampling factor} 

قد يبدو من الغريب إضافة أمثلة على الأوزان بعد تقليل العينة. بعد كلّ شيء، أنت تحاول تحسين أداء النموذج في فئة الأقلية، فلماذا تزيد من أهمية فئة الأغلبية؟ في الواقع، تؤدي زيادة وزن الفئة الأكثر تمثيلاً إلى تقليل التحيز في التنبؤ. وهذا يعني أنّ الزيادة في الوزن بعد تقليل العينة تميل إلى تقليل الفرق بين متوسط توقّعات النموذج ومتوسط تصنيفات مجموعة البيانات.

قد تتساءل أيضًا عما إذا كان تضخيم القيمة يلغى تأثير تقليل العينة. نعم، إلى حدٍّ ما. ومع ذلك، فإنّ الجمع بين زيادة الوزن وخفض العينة يسمح للمجموعات الصغيرة باحتواء فئات أقلية كافية لتدريب نموذج فعّال.

عادةً ما يكون من الأسهل تنفيذ زيادة وزن الفئة الأقل عددًا بحد ذاتها مقارنةً بتقليل العينة وزيادة وزن الفئة الأكثر عددًا. ومع ذلك، فإنّ زيادة وزن الفئة الأقل تمثيلاً يميل إلى زيادة التحيز في التنبؤ.

توفّر خفض عيّنات فئة الأغلبية المزايا التالية:

  • الاقتراب بشكل أسرع من الحلّ: أثناء التدريب، يصادف النموذج فئة الأقلية بشكلٍ متكرّر، ما يساعد النموذج على الاقتراب من الحلّ بشكلٍ أسرع.
  • مساحة أقل على القرص: من خلال دمج فئة الأغلبية في نماذج أقل عددًا ذات أوزان أكبر، يستخدم النموذج مساحة أقل على القرص لتخزين تلك الأوزان. تسمح هذه المساحة المحفوظة بتوفير مساحة أكبر على القرص لفئة الأقلية، وبالتالي يمكن للنموذج جمع عدد أكبر ومجموعة أوسع من الأمثلة من تلك الفئة.

في العادة، يجب تقليل عيّنة فئة الأغلبية يدويًا، ما يمكن أن يستغرق وقتًا طويلاً أثناء تدريب التجارب، لا سيما بالنسبة إلى مجموعات البيانات الكبيرة جدًا.

نسب إعادة التوازن

ما هو مقدار تقليل العينة وزيادة الوزن المطلوبَين لإعادة التوازن في مجموعة البيانات؟ لتحديد الإجابة، عليك تجربة نسبة إعادة التوازن، تمامًا كما تُجري تجربة على المَعلمات الفائقة الأخرى. ومع ذلك، تعتمد الإجابة في النهاية على العوامل التالية:

  • حجم الدفعة
  • نسبة عدم التوازن
  • عدد الأمثلة في مجموعة التدريب

من الأفضل أن تحتوي كل دفعة على أمثلة متعددة لفئة الأقلية. إنّ الدفعات التي لا تحتوي على فئات أقليات كافية ستتدرب بشكلٍ سيئ جدًا. يجب أن يكون حجم الحزمة أكبر بعدة مرات من نسبة عدم التوازن. على سبيل المثال، إذا كانت نسبة عدم التوازن هي 100:1، يجب أن يكون حجم الحزمة 500 على الأقل.

تمرين: التحقّق من فهمك

إليك الموقف التالي:

  • تحتوي مجموعة التدريب على ما يزيد قليلاً عن مليار مثال.
  • حجم الدفعة هو 128.
  • نسبة عدم التوازن هي 100:1، لذا يتم تقسيم مجموعة التدريب على النحو التالي:
    • حوالي مليار مثال على فئة الأغلبية
    • 10 مليون مثال تقريبًا لفئة الأقليات
أيّ من العبارات التالية صحيحة؟
سيؤدي إبقاء حجم الحزمة عند 128 ولكن تقليل العينة (وزيادة الوزن) إلى 20:1 إلى تحسين النموذج الناتج.
إنّ المَعلمات الفائقة الحالية جيدة.
ستؤدي زيادة حجم الحزمة إلى 1,024 إلى تحسين النموذج resulting.