مجموعات البيانات: مجموعات البيانات غير المتوازنة

ضع في الاعتبار مجموعة بيانات تحتوي على تصنيف فئوي تكون قيمته إما إيجابي أو سلبي. في إحدى مجموعات البيانات المتوازنة، يكون العدد موجب والتسميات السالبة متساوية تقريبًا. ومع ذلك، إذا كان تصنيف واحد أكثر شيوعًا من التسمية الأخرى، فإن مجموعة البيانات غير متوازن. يُطلق على التسمية السائدة في أي مجموعة بيانات غير متوازنة اسم فئة الأغلبية يسمى التصنيف الأقل شيوعًا فئة القاصرين.

يقدم الجدول التالي الأسماء والنطاقات المقبولة بشكل عام درجات مختلفة من عدم التوازن:

النسبة المئوية للبيانات التي تنتمي إلى فئة الأقليات درجة عدم التوازن
20-40% من مجموعة البيانات معتدل
من 1 إلى% 20 من مجموعة البيانات معقول
<1% من مجموعة البيانات التوفير العالي

فعلى سبيل المثال، بالنظر إلى مجموعة بيانات لاكتشاف الفيروسات كانت فيها فئة الأقلية يمثل 0.5٪ من مجموعة البيانات وتمثل فئة الغالبية 99.5٪. تُعد مجموعات البيانات غير المتوازنة للغاية مثل هذه المجموعة شائعة في الطب نظرًا فلن يكون لدى معظم الأفراد الفيروس الفيروس.

الشكل 5.  رسم بياني شريطي مع شريطين. شريط واحد يعرض حوالي 200
            فئات سلبية ويعرض الشريط الآخر فئة موجبة.
الشكل 5. مجموعة بيانات غير متوازنة للغاية.

 

مجموعات البيانات غير المتوازنة لا تحتوي أحيانًا على فئة أقلية كافية أمثلة لتدريب النموذج بشكل صحيح. أي، مع وجود عدد قليل جدًا من التسميات الإيجابية، فإن النموذج يتدرب بشكل حصري تقريبًا على التصنيفات السلبية ولا يمكنه معرفة ما يكفي عن التسميات الإيجابية. على سبيل المثال: إذا كان حجم الدفعة هو 50، فلن تحتوي العديد من الدفعات على أي تصنيفات موجبة.

غالبًا، خاصة بالنسبة إلى شخص غير متوازن بدرجة طفيفة وبعضها غير متوازن نوعًا ما لمجموعات البيانات، فإن عدم التوازن ليس مشكلة. لذا، يجب أن تحاول أولاً على مجموعة البيانات الأصلية إذا كان النموذج جيدًا، فقد انتهيت. وإذا لم يكن كذلك، فعلى الأقل أن النموذج دون الأمثل يقدم المرجع للتجارب المستقبلية. بعد ذلك، يمكنك تجربة الأساليب التالية للتغلب على المشكلات. ناجمة عن مجموعات البيانات غير المتوازنة.

تصغير نطاق العيّنات وزيادة الترجيح

تتمثل إحدى طرق التعامل مع مجموعة بيانات غير متوازنة في خفض عيّنات البيانات وزيادة ترجيحها فئة الأغلبية. في ما يلي تعريفات هذين المصطلحين الجديدين:

  • تقليل العيّنات (في هذا السياق) يعني التدريب على مجموعة فرعية منخفضة بشكل غير متناسب من فئة الأغلبية الأمثلة.
  • زيادة الترجيح يُقصد بها إضافة مثال الوزن للفئة المستندة إلى عينة متناسبة مع العامل الذي وأخذ عينة.

الخطوة 1: تقليل عيّنة النتائج لصف أغلبية الجمهور ضع في اعتبارك أن مجموعة بيانات فيروس لها نسبة تصنيف موجب واحد لكل 200 تصنيف سالب الفعلية. اختزال العيّنات بعامل يحسِّن الرقم 20 الرصيد إلى 1 موجب إلى 10 سلبيات (10%). وعلى الرغم من أن فإن مجموعة التدريب الناتجة لا تزال غير متوازنة إلى حدٍ ما، فإن نسبة الإيجابية على الجوانب السلبية أفضل بكثير من العنصر الأصلي غير المتوازن للغاية التناسب (0.5٪).

الشكل 6. رسم بياني شريطي مع شريطين. يعرض شريط واحد 20 قيمة سلبية.
             ويعرض الشريط الآخر فئة موجبة.
الشكل 6. تصغير نطاق العيّنات

 

الخطوة 2: زيادة أهمية الفئة التي تم تقديم عيّنات إليها: إضافة مثال القيم المرجحة للفئة المستندة إلى عينة مخفضة. بعد تخفيض العيّنات بمعامل 20، الوزن المثالي هو 20. (نعم، قد يبدو هذا مخالفًا للمعتقدات البديهية، لكننا واشرح السبب لاحقًا).

الشكل 7. رسم تخطيطي من خطوتين لتصغير العيّنات وزيادة الوزن.
            الخطوة 1: يستخلص الاختزال أمثلة عشوائية من الأغلبية
            الصف. الخطوة 2: زيادة الوزن تضيف ترجيحًا إلى العينة التي يتم أخذها في الاعتبار
            الأمثلة.
الشكل 7. زيادة الوزن.

 

لا يشير مصطلح weight إلى معلَمات النموذج (مثل w1 أو مع 2). هنا، تشير الوزن إلى أمثلة على الترجيحات، ما يزيد من أهمية مثال فردي أثناء التدريب. يعني مثال الوزن 10 أن النموذج يتعامل مع المثال على أنه 10 أضعاف الأهمية (عند خسارة الحوسبة) مما هو مثال على الوزن 1.

يجب أن يكون الوزن مساويًا للعامل الذي استخدمته لتقليل العينة:

\[\text{ \{example weight\} = \{original example weight\} × \{downsampling factor\} }\]

قد يبدو من الغريب إضافة نماذج ترجيحات بعد تقليل العيّنات. بعد كل شيء، أن نجعل النموذج يتحسن مع فئة الأقليات، فلماذا يجب تحسين فئة الأغلبية؟ في الواقع، تميل زيادة ترجيح فئة الأغلبية إلى تقليل الانحياز في التوقّعات: أي، ويميل الارتفاع الترجيحي بعد تخفيض العيّنات إلى تقليل الدلالة بين متوسط تنبؤات النموذج ومتوسط تصنيفات مجموعة البيانات.

نِسب إعادة التوازن

ما مقدار ما يجب عليك تقليل عينته وزيادة وزنه لإعادة توازن مجموعة البيانات؟ لتحديد الإجابة، يجب عليك تجربة نسبة إعادة الموازنة، تمامًا كما تجرب مع المعلَمات الفائقة: مع ذلك، تعتمد الإجابة في النهاية على العوامل التالية:

  • حجم الدفعة
  • نسبة عدم التوازن
  • عدد الأمثلة في مجموعة التطبيق

ومن الناحية المثالية، يجب أن تحتوي كل دفعة على أمثلة متعددة لفئات الأقليات. وسيتم تدريب المجموعات التي لا تحتوي على فئات أقليات كافية بشكل سيئ للغاية. يجب أن يكون حجم الدفعة أكبر عدّة مرات من نسبة عدم التوازن. على سبيل المثال، إذا كانت نسبة عدم التوازن 100:1، يجب أن يكون حجم الدُفعة على الأقل 500.

تمرين: التحقق من فهمك

ضع في اعتبارك الحالة التالية:

  • حجم الدفعة هو 128.
  • نسبة عدم التوازن هي 100:1.
  • تحتوي مجموعة التدريب على مليار مثال.
أي من العبارات التالية صحيحة؟
ستؤدي زيادة حجم الدفعة إلى 1024 إلى تحسين النتائج الأمثل.
يجب أن يكون حجم الدُفعة 1,024، ويبلغ متوسط قيمة كل دفعة 10 الأقليات التي يجب أن تكون كافية للتدريب. بدون تقليل العيّنات، لا تزال مجموعة التدريب تحتوي على مجموعة مليارات الأمثلة.
تقليل حجم العيّنات (وزيادة ترجيحها) إلى نسبة 20:1 مع الحفاظ على حجم الدُفعة عند 128 إلى تحسين النموذج الناتج.
وستبلغ كل مجموعة في المتوسط حوالي 9 أمثلة من فئات الأقليات، والتي يجب كافية للتدريب. يؤدي تقليل حجم العينات بشكل فعّال عدد الأمثلة في مجموعة التطبيق من مليار إلى 40 مليونًا.
الوضع الحالي جيد.
فمعظم الدفعات لن تحتوي على فئات أقليات كافية لتدريب الأمثل.