التوزيع العشوائي

اعتبارات عملية

اجعل مسار إنشاء البيانات قابلاً للتكرار. لنفترض أنك تريد إضافة ميزة لمعرفة مدى تأثيرها في جودة النموذج. لإجراء تجربة عادلة، يجب أن تكون مجموعات البيانات متطابقة باستثناء هذه الميزة الجديدة. إذا كانت عمليات إنشاء البيانات غير قابلة للتكرار، لا يمكنك إنشاء مجموعات البيانات هذه.

ومن هذا المنطلق، تأكّد من أنّ توفير أي توزيع عشوائي في إنشاء البيانات يمكن تحديده:

  • إنشاء مولّدات الأرقام العشوائية (RNG): ويضمن التصنيف الأساسي أن قيمة RNG تعرض القيم نفسها بالترتيب نفسه في كل مرة تشغِّلها فيها، ما يؤدي إلى إعادة إنشاء مجموعة البيانات.
  • استخدام مفاتيح التجزئة الثابتة تُعدّ التجزئة طريقة شائعة لتقسيم البيانات أو أخذ عيّنة منها. يمكنك تجزئة كل مثال واستخدام العدد الصحيح الناتج لتحديد التقسيم الذي سيتم عرض المثال فيه. يجب ألا تتغير المدخلات إلى دالة التجزئة في كل مرة يتم فيها تشغيل برنامج إنشاء البيانات. لا تستخدم الوقت الحالي أو رقمًا عشوائيًا في التجزئة، إذا كنت تريد مثلاً إعادة إنشاء علامات التجزئة عند الطلب.

وتسري الأساليب السابقة على أخذ عينات بياناتك وتقسيمها.

اعتبارات التجزئة

لنفترض أنّك كنت تجمع طلبات البحث وتستخدِم التجزئة لتضمين طلبات البحث أو استبعادها. وإذا استخدَم مفتاح التجزئة طلب البحث فقط، خلال أيام متعددة من البيانات، يمكنك دائمًا تضمين طلب البحث هذا أو استبعاده دائمًا. إنّ تضمين طلب بحث أو استبعاده دائمًا يكون سيئًا للأسباب التالية:

  • ستظهر مجموعة التدريب الخاصة بك في مجموعة أقل من طلبات البحث.
  • ستكون مجموعات التقييم صعبة بشكل مصطنع، لأنها لن تتداخل مع بيانات التدريب. في الواقع، عند عرض الإعلانات، سترى بعض الزيارات المباشرة في بيانات التدريب، لذلك يجب أن يعكس تقييمك ذلك.

وبدلاً من ذلك، يمكنك التجزئة حسب الطلب + التاريخ، ما يؤدي إلى تجزئة مختلفة كل يوم.

 

تمثيل بصري متحرّك يوضّح كيف تؤدي التجزئة في طلب البحث فقط إلى نقل البيانات إلى الحزمة نفسها كل يوم، ولكن تؤدي تجزئة طلب البحث بالإضافة إلى وقت طلب البحث إلى نقل البيانات إلى مجموعات بيانات مختلفة كل يوم الحِزم الثلاث هي "التدريب"
و"التقييم" و"تم التجاهل".