بيانات غير متوازنة

تُعرف مجموعة بيانات التصنيف وفق نِسب الصف المائل باسم غير متوازن. يُطلق على الصفوف التي تشكّل نسبة كبيرة من مجموعة البيانات اسم الفئات ذات الأولوية العالية. أمّا تلك التي تشكّل نسبة أصغر، فهي فئات الأقليات.

ما الذي يُعتبر غير متوازن؟ يمكن أن تتراوح الإجابة بين بسيطة وعالية، كما هو موضّح في الجدول أدناه.

درجة عدم التوازن نسبة فئة الأقليات
معتدل 20% إلى %40 من مجموعة البيانات
معتدلة 1% إلى %20 من مجموعة البيانات
التوفير العالي أقل من 1% من مجموعة البيانات

لماذا يجب الانتباه إلى البيانات غير المتوازنة؟ وقد تحتاج إلى تطبيق أسلوب معيّن لأخذ عينات إذا كانت لديك مهمة تصنيف تتضمّن مجموعة بيانات متوازنة.

يمكنك مراجعة المثال التالي من النموذج الذي يرصد الاحتيال. تحدث حالات الاحتيال مرة واحدة لكل 200 معاملة في مجموعة البيانات هذه، لذا في التوزيع الحقيقي، هناك حوالي 0.5% من البيانات إيجابية.

رسم بياني شريطي مع شريطين يعرض الشريط الأول 200 معاملة سلبية تقريبًا، بينما يعرض الشريط الآخر معاملة إيجابية واحدة.

ما هو سبب المشكلة؟ مع القليل من الإيجابيات مقارنةً بالسلوكيات السلبية، سيمضي نموذج التدريب معظم وقته في الأمثلة السلبية وليس التعلّم بشكلٍ كافٍ من الأمثلة الإيجابية. على سبيل المثال، إذا كان حجم دُفعة المجموعة 128، لن يتضمّن العديد من المجموعات أي أمثلة إيجابية، وبالتالي ستكون التدرّجات أقل دقّة.

إذا كانت لديك مجموعة بيانات غير متوازنة، جرِّب أولاً التدريب على التوزيع الصحيح. إذا كان النموذج جيدًا ويعمل بشكل عام، تكون بذلك قد انتهيت. أما إذا لم تكن تستخدم أيًا من هذه الأنواع، جرِّب الأسلوب التالي لأخذ العينات أو رفعها.

تقليل حجم المحتوى وزيادة وزنه

هناك طريقة فعّالة للتعامل مع البيانات غير المتوازنة وهي تقليل حجم الفئة العمرية ورفع قيمتها. لنبدأ بتحديد هاتين العبارتين الجديدتين:

  • التقليل من المحتوى (في هذا السياق) يعني التدريب على مجموعة فرعية غير متناسبة من أمثلة معظم الصفوف.
  • زيادة الوزن تعني إضافة مثال وزن إلى الفئة التي لا تعتمد على عينات عينات يساوي عامل التشغيل الذي أخفضت فيه عينات البيانات.

الخطوة 1: تقليل حجم الصف غالبًا. فكِّر مرّة أخرى في مثال مجموعة البيانات الاحتيالية، مع موجب واحد سلبي إلى 200 سلبي. إنّ تخفيض معدّل العينات من خلال عامل 10 يحسِّن الرصيد من 1 إلى 20 سلبيًا (5%). على الرغم من أنّ مجموعة التدريب الناتج لا تزال غير متوازنة بشكل معتدل، تكون نسبة النتائج الإيجابية إلى السلبيات أفضل بكثير من النسبة الأصلية المعتدلة للغاية (0.5%).

رسم بياني شريطي مع شريطين يعرض شريط واحد 20 معاملة سلبية، بينما يعرض الشريط الآخر معاملة إيجابية واحدة.

الخطوة الثانية: زيادة حجم الصف الذي لا يستند إلى عينات: الخطوة الأخيرة هي إضافة أمثلة بالأوزان إلى الصف الذي لا يستند إلى عينات. وبما أنّنا أخذنا عيّنة من البيانات من العامل العشري، يجب أن يكون وزن المثال 10.

يشير هذا المصطلح إلى رسم بياني للمفاهيم التي تهدف إلى أخذ العيّنات أو زيادة الوزن. الخطوة الأولى، أخذ العينات،
سحب نموذجًا تم اختياره عشوائيًا من مجموعة تمثّل مجموعة بيانات
الأغلبية. الخطوة 2: زيادة الترجيح، تضيف قيمة إلى كل مثال يتم اختياره عشوائيًا.

قد يتم استخدامها لسماع عبارة الوزن عندما تشير إلى معلمات النماذج، مثل الاتصالات في شبكة عصبونية. نتحدث عن أمثلة على الأوزان، ما يعني احتساب مثال فردي أكثر أهمية أثناء التدريب. يعني المثال 10 أنّ النموذج يعتبِر المثال 10 أضعاف الأهمية (عند فقدان الحوسبة) مثلما يُعتبَر مثالاً على الوزن 1.

يجب أن يكون الوزن مساويًا للعامل الذي استخدمته لتقليل العينات:

\[\text{ \{example weight\} = \{original example weight\} × \{downsampling factor\} }\]

ما أهمية استخدام مقياس "تقليل العيّنات" و"زيادة الوزن"؟

وقد يبدو غريبًا إضافة أمثلة أوزان بعد أخذ العينات. ونسعى إلى تحسين نموذجنا على فئة الأقليات، فلماذا نحسّن غالبية الرجال؟ في ما يلي التغييرات التي تم إجراؤها:

  • تقارب أسرع: خلال التدريبات، نلاحظ زيادة في عدد الفئات الأقل تكرارًا، ما سيساعد على تقارب النموذج بشكل أسرع.
  • مساحة القرص: من خلال دمج فئة الغالبية في أمثلة أقل بوزن أكبر، نستهلك مساحة أقل من القرص لتخزينها. وتوفّر مدّخرات الطلاب المزيد من مساحة القرص لصفّ الأقليات، وبالتالي يمكننا جمع عدد أكبر ومجموعة أكبر من الأمثلة من هذه الفئة.
  • المعايرة: تضمن زيادة الوزن أنّ نموذجنا لا يزال مستمرًا، ويمكن تفسير النتائج على أنها احتمالية.