مجموعات البيانات: مجموعات البيانات غير المتوازنة الفئات

يتناول هذا القسم الأسئلة الثلاثة التالية:

ما الفرق بين مجموعات البيانات المتوازنة الفئات ومجموعات البيانات غير المتوازنة الفئات؟
لماذا يصعب تدريب مجموعة بيانات غير متوازنة؟
كيف يمكن التغلّب على مشاكل تدريب مجموعات البيانات غير المتوازنة؟

مجموعات البيانات المتوازنة الفئات مقابل مجموعات البيانات غير المتوازنة الفئات

لنفترض مجموعة بيانات تحتوي على تصنيف فئوي تكون قيمته إما الفئة الموجبة أو الفئة السالبة. في مجموعة بيانات متوازنة الفئات، يكون عدد الفئات الإيجابية والفئات السلبية متساويًا تقريبًا. على سبيل المثال، مجموعة البيانات التي تحتوي على 235 فئة إيجابية و247 فئة سلبية هي مجموعة بيانات متوازنة.

في مجموعة البيانات غير المتوازنة الفئات، يكون أحد التصنيفات أكثر شيوعًا من التصنيف الآخر. في العالم الواقعي، تكون مجموعات البيانات غير المتوازنة الفئات أكثر شيوعًا من مجموعات البيانات المتوازنة الفئات. على سبيل المثال، في مجموعة بيانات خاصة بمعاملات بطاقات الائتمان، قد تشكّل عمليات الشراء الاحتيالية أقل من% 0.1 من الأمثلة. وبالمثل، في مجموعة بيانات خاصة بالتشخيص الطبي، قد يكون عدد المرضى المصابين بفيروس نادر أقل من 0.01% من إجمالي الأمثلة. في مجموعة بيانات غير متوازنة الفئات:

يُطلق على التصنيف الأكثر شيوعًا أكثر شيوعًا اسم فئة الأغلبية.
يُطلق على التصنيف الأقل شيوعًا اسم الفئة الأقلية.

صعوبة تدريب مجموعات البيانات غير المتوازنة الفئات بشكلٍ كبير

يهدف التدريب إلى إنشاء نموذج يميّز الفئة الإيجابية عن الفئة السلبية بنجاح. لإجراء ذلك، تحتاج الدفعات إلى عدد كافٍ من كل من الفئات الإيجابية والفئات السلبية. لا يشكّل ذلك مشكلة عند التدريب على مجموعة بيانات غير متوازنة بشكل طفيف، لأنّ الدُفعات الصغيرة عادةً ما تحتوي على أمثلة كافية لكل من الفئة الإيجابية والفئة السلبية. ومع ذلك، قد لا تحتوي مجموعة البيانات غير المتوازنة الفئات بشكل كبير على أمثلة كافية من الفئة الأقلية للتدريب المناسب.

على سبيل المثال، لنأخذ مجموعة البيانات غير المتوازنة الفئات الموضّحة في الشكل 6، حيث:

هناك 200 تصنيف في الفئة الأكبر.
هناك تصنيفان في الفئة الأقلية.

الشكل 6. مجموعة بيانات تتضمّن 202 مثال. يحتوي 200 مثال على تصنيف
عباد الشمس، ويحتوي مثالان على تصنيف
الوردة. — **الشكل 6.** مجموعة بيانات زهور غير متوازنة بشكل كبير تحتوي على عدد أكبر بكثير من زهور عباد الشمس مقارنةً بالورود

إذا كان حجم الدفعة 20، لن تحتوي معظم الدفعات على أي أمثلة للفئة الأقلية. إذا كان حجم الدفعة 100، ستحتوي كل دفعة على مثال واحد فقط من الفئة الأقل تمثيلاً في المتوسط، وهو ما لا يكفي للتدريب السليم. وحتى إذا كان حجم الدفعة أكبر بكثير، سيظلّ ينتج نسبة غير متوازنة، ما قد يؤدي إلى عدم تدريب النموذج بشكل صحيح.

تدريب مجموعة بيانات غير متوازنة الفئات

أثناء التدريب، يجب أن يتعلّم النموذج أمرين:

شكل كل فئة، أي قيم السمات التي تتوافق مع الفئة
مدى شيوع كل فئة، أي التوزيع النسبي للفئات

يجمع التدريب العادي بين هذين الهدفين، في حين أنّ الأسلوب التالي المكوّن من خطوتَين، والذي يُطلق عليه اسم تقليل عدد العيّنات وزيادة وزن الفئة الأكبر، يفصل بين هذين الهدفين، ما يتيح للنموذج تحقيق كلا الهدفين.

الخطوة 1: تقليل عدد عيّنات الفئة الأكبر

تقليل عدد العيّنات يعني التدريب على نسبة منخفضة بشكل غير متناسب من أمثلة الفئة الأكثر تمثيلاً. أي أنّك تجبر مجموعة البيانات غير المتوازنة الفئات بشكل مصطنع على أن تصبح أكثر توازنًا إلى حد ما من خلال حذف العديد من أمثلة الفئة الأكثر تمثيلاً من التدريب. تزيد عملية تقليل عدد العينات بشكل كبير من احتمالية احتواء كل مجموعة على عدد كافٍ من أمثلة الفئة الأقلية لتدريب النموذج بشكل صحيح وفعّال.

على سبيل المثال، تتألف مجموعة البيانات غير المتوازنة المعروضة في الشكل 6 من 99% من أمثلة الفئة الأكثر تمثيلاً و1% من أمثلة الفئة الأقل تمثيلاً. يؤدي تقليل عدد عيّنات الفئة الأكثر تمثيلاً بمقدار 25 مرة إلى إنشاء مجموعة تدريب أكثر توازنًا بشكل مصطنع (80% من الفئة الأكثر تمثيلاً إلى 20% من الفئة الأقل تمثيلاً) كما هو موضّح في الشكل 7:

الشكل 7. 10 أمثلة، 8 منها لزهور عباد الشمس و2 منها لزهور الورد — **الشكل 7.** تقليل عدد عيّنات الفئة الأكبر بمقدار 25 مرة

الخطوة 2: زيادة وزن الفئة التي تم تصغير حجمها

يؤدي تقليل عدد العيّنات إلى حدوث تحيّز في التوقّعات من خلال عرض عالم اصطناعي على النموذج تكون فيه الفئات أكثر توازنًا مقارنةً بالعالم الحقيقي. لتصحيح هذا التحيز، عليك "زيادة وزن" الفئات الأكبر بمقدار عامل تقليل عدد العينات. يشير ذلك إلى التعامل مع خسارة مثال من الفئة الأكثر تمثيلاً بشكل أكثر صرامة من خسارة مثال من الفئة الأقل تمثيلاً.

على سبيل المثال، خفّضنا عدد عيّنات الفئة الأكبر بمقدار 25 مرة، لذا يجب أن نزيد وزن الفئة الأكبر بمقدار 25 مرة. أي عندما يتوقّع النموذج بشكل خاطئ الفئة الأكبر، يتم التعامل مع الخسارة كما لو كانت 25 خطأً (يتم ضرب الخسارة العادية في 25).

الشكل 8. ويتم التعامل مع الخسارة الناتجة عن التوقّع الخاطئ للفئة الأقلية بشكل طبيعي. ومع ذلك، يتم التعامل مع الخسارة الناتجة عن التوقّع الخاطئ للفئة الأكثر تمثيلاً بشكل أكثر صرامة بمقدار 25 مرة. — **الشكل 8.** زيادة وزن الفئة الأكبر بمقدار 25 مرة

ما هو مقدار خفض العيّنات وزيادة الأهمية الذي يجب تطبيقه لإعادة موازنة مجموعة البيانات؟ لتحديد الإجابة، عليك تجربة عوامل مختلفة لتقليل عدد العيّنات وزيادة الوزن، تمامًا كما تفعل عند تجربة المَعلمات الفائقة الأخرى.

مزايا هذه التقنية

يؤدي تقليل عدد العيّنات وزيادة وزن الفئة الأكبر إلى تحقيق المزايا التالية:

النموذج الأفضل: "يعرف" النموذج الناتج ما يلي:
- العلاقة بين الميزات والتصنيفات
- التوزيع الفعلي للفئات
التقارب الأسرع: أثناء التدريب، يرى النموذج الفئة الأقل تمثيلاً بشكل متكرّر، ما يساعد النموذج على التقارب بشكل أسرع.

التصنيفات (10 دقائق)

تقسيم مجموعة البيانات الأصلية (10 دقائق)