أخذ العينات وتقسيم البيانات

مقدمة حول أخذ العينات

غالبًا ما يكون من الصعب جمع بيانات كافية لتنفيذ مشروع تعلُّم الآلة. في بعض الأحيان، تكون هناك بيانات كثيرة، ويجب اختيار مجموعة فرعية من الأمثلة للتدريب.

كيف يتم اختيار هذه المجموعة الفرعية؟ ولنأخذ مثالاً على "بحث Google". إلى أي مدى الدقة، يمكنك أخذ كمية هائلة من البيانات؟ هل تستخدم طلبات بحث عشوائية؟ هل الجلسات عشوائية؟ المستخدمون العشوائيون؟

في النهاية، تعتمد الإجابة على المشكلة: ما الذي نريد توقّعه وما الميزات التي نريدها؟

  • لاستخدام هذه الميزة طلب بحث سابق، تحتاج إلى عيّنة على مستوى الجلسة، لأن الجلسات تحتوي على تسلسل من طلبات البحث.
  • لاستخدام ميزة سلوك المستخدم من الأيام السابقة، عليك أخذ العيّنة على مستوى المستخدم.

الفلترة للوصول إلى معلومات تحديد الهوية الشخصية (PII)

إذا كانت بياناتك تتضمّن معلومات تحديد الهوية الشخصية، قد تحتاج إلى فلترتها من بياناتك. قد تتطلّب السياسة مثلاً إزالة الميزات غير المتكرّرة.

ستؤدي هذه الفلترة إلى تحريف التوزيع. ستفقد المعلومات في التذييل (جزء التوزيع الذي يتضمن قيمًا منخفضة جدًا، بعيدة عن الوسيط).

ويُعدّ هذا الفلتر مفيدًا لأنه من الصعب جدًا تعلّم الميزات المتكرّرة جدًا. ولكن من المهم إدراك أن مجموعة بياناتك متحيزة نحو طلبات البحث الرئيسية. في وقت العرض، يمكنك توقع أن تكون أسوأ في عرض الأمثلة من ذيلك، لأن هذه كانت الأمثلة التي تمت فلترتها من بيانات التدريب. على الرغم من أنه لا يمكن تجنُّب هذا الانحراف، يُرجى الانتباه إليه أثناء التحليل.