أخذ العينات والتقسيم: التحقق من فهمك

بالنسبة إلى الأسئلة التالية، انقر على السهم المطلوب للتحقق من إجابتك:

لنفترض أنّ لديك مجموعة بيانات بنسبة سالبة موجبة تبلغ 1:1000. للأسف، يتوقّع النموذج دائمًا فئة النسبة الأكبر. ما الأسلوب الذي قد يساعدك في التعامل مع هذه المشكلة على أفضل نحو؟ تجدر الإشارة إلى أنك تريد أن يسجّل النموذج احتمال المعايرة.
ما عليك سوى تقليل الأمثلة السلبية.
بداية جيدة، ولكن سيغيّر السعر الأساسي للنموذج، ولن تتم معايرته.
تقليل استخدام الأمثلة السلبية (فئة الأغلبية). بعد ذلك، عليك زيادة درجة العينة المستندة إلى عينات باستخدام العامل نفسه.
وهذه طريقة فعّالة للتعامل مع البيانات غير المتوازنة ومواصلة الحصول على التوزيع الحقيقي للتصنيفات. ويُرجى العِلم بأنّه من المهم تحديد ما إذا كان النموذج يبلّغ عن احتمالية المعايرة أو لا. إذا لم تكن بحاجة إلى المعايرة، لا داعي للقلق بشأن تغيير السعر الأساسي.
ما الأساليب التي تفقد البيانات من ذيل مجموعة بيانات؟ حدّد كل ما ينطبق.
فلترة معلومات تحديد الهوية الشخصية
يمكن أن تؤدي فلترة معلومات تحديد الهوية الشخصية من بياناتك إلى إزالة المعلومات في الذيل، ما يؤدي إلى تغيُّر التوزيع.
الترجيح
يغيّر مثال الترجيح أهمية الأمثلة المختلفة، ولكنه لا يفقد أي معلومات. في الواقع، يمكن أن تساعد إضافة وزن إلى الذنَب في مساعدة النموذج على معرفة السلوك حول الذيل.
إزالة العينات
سيفقد طرف توزيع التوزيعات المعلومات المتعلقة بالعينات. وبما أننا نصنّف عادةً فئة الأغلبية، لا تكون هذه الخسارة مشكلة كبيرة عادةً.
تسوية
يعمل التسوية على أمثلة فردية، لذلك لا يؤدي إلى انحياز في جمع العيّنات.
أنت تعمل على حلّ مشكلة تصنيف، وقسّمت البيانات بشكل عشوائي إلى مجموعات تدريب، وتقييم، واختبار. تبدو أداة التصنيف تعمل على النحو المطلوب. ولكن في مرحلة الإنتاج، فإن المصنِّف هو إجمالي الإخفاق. اكتشفت لاحقًا أنّ المشكلة ناتجة عن التقسيم العشوائي. ما أنواع البيانات عرضة لهذه المشكلة؟
بيانات السلسلة الزمنية
يؤدي التقسيم العشوائي إلى تقسيم كل مجموعة على مستوى الاختبار/القطار، ما يوفر "معاينة سريعة" للنموذج الذي لن يكون متاحًا في الإنتاج.
البيانات التي لا تتغيّر كثيرًا بمرور الوقت
وإذا لم تتغير بياناتك بمرور الوقت، ستتاح لك فرص أفضل من خلال تقسيم عشوائي. على سبيل المثال، قد تحتاج إلى تحديد سلالة الكلاب في الصور أو توقع الأشخاص المعرّضين لخطر عيوب القلب بناءً على البيانات السابقة للمقاييس الحيوية. وفي كلتا الحالتين، لا تتغيّر البيانات بشكل عام بمرور الوقت، لذلك من المفترض ألا يتسبب التقسيم العشوائي في حدوث مشكلة.
تجميعات البيانات
وستكون مجموعة الاختبارات مشابهة جدًا لمجموعة التدريب لأن مجموعات البيانات المتشابهة في كلتا المجموعتين. وسيتضمّن النموذج قدرة على التوقّع أفضل من النموذج.
البيانات التي تتضمّن مجموعات متسلسلة (البيانات التي تصل إلى مجموعات متقطعة بدلاً من البث المستمر)
ستظهر مجموعات من البيانات المشابهة (اللقطات المتسلسلة) في كل من التدريب والاختبار. وسيقدّم النموذج توقّعات أفضل في الاختبار مقارنةً بالبيانات الجديدة.