تجميع سجلات البيانات

عند تجميع مجموعة تدريب، يجب في بعض الأحيان دمج مصادر بيانات متعددة.

أنواع السجلات

يمكنك استخدام أي من أنواع البيانات التالية التي يتم إدخالها:

  • سجلّات المعاملات
  • بيانات السمة
  • إحصاءات مجمّعة

تسجِّل سجلات المعاملات حدثًا محدّدًا. على سبيل المثال، قد يسجّل سجلّ المعاملات عنوان IP يقدّم طلب بحث وتاريخ إجراء طلب البحث. تتوافق أحداث المعاملات مع حدث معيّن.

تتضمّن بيانات السمات نبذة عن المعلومات. مثلاً:

  • الخصائص الديمغرافية للمستخدمين
  • سجلّ البحث في وقت طلب البحث

لا تكون بيانات السمات خاصة بحدث أو لحظة معيّنة، ولكنها يمكن أن تكون مفيدة لإجراء توقعات. بالنسبة إلى مهام التوقع التي لا ترتبط بحدث محدد (على سبيل المثال، توقع إيقاف استخدام المستخدم، الذي يتطلب نطاقًا من الوقت بدلاً من لحظة فردية)، قد تكون بيانات السمة هي النوع الوحيد من البيانات.

ترتبط بيانات السمات وسجلّات المعاملات. على سبيل المثال، يمكنك إنشاء نوع من بيانات السمات من خلال تجميع سجلات سجلّات متعددة، ما يؤدي إلى إنشاء إحصاءات مجمّعة. في هذه الحالة، يمكنك الاطّلاع على العديد من سجلّات المعاملات لإنشاء سمة واحدة لمستخدم.

تنشئ الإحصاءات المجمّعة سمة من سجلات معاملات متعددة. مثلاً:

  • معدل تكرار طلبات بحث المستخدمين
  • متوسط معدل النقرات على إعلان معيّن

انضمام مصادر السجلّ

وغالبًا ما يكون كل نوع من السجلّات في موقع مختلف. عند جمع البيانات لنموذج تعلُّم الآلة، عليك دمج مصادر مختلفة لإنشاء مجموعة بياناتك. إليك بعض الأمثلة:

  • يمكنك الاستفادة من رقم تعريف المستخدم والطابع الزمني في سجلات المعاملات للبحث عن سمات المستخدم في وقت الحدث.
  • يمكنك استخدام الطابع الزمني للمعاملة لاختيار سجلّ البحث في وقت الطلب.

مصادر بيانات التوقّعات: على الإنترنت مقابل خارج إطار الإنترنت

في الدورة التدريبية لتعلّم الآلة، تعرّفت على طريقة العرض على الإنترنت مقابل العرض بلا إنترنت. يؤثّر الاختيار في طريقة جمع النظام للبيانات على النحو التالي:

  • على الإنترنت: يُعدّ وقت الاستجابة مصدر قلق، لذلك يجب أن ينشئ نظامك إدخالات سريعة.
  • بلا اتصال بالإنترنت: من المحتمل أنه ليس لديك أي قيود حوسبة، لذلك يمكن تنفيذ عمليات معقدة بشكلٍ مماثل مثل إنشاء بيانات التدريب.

على سبيل المثال، كثيرًا ما يجب البحث عن بيانات السمات من بعض الأنظمة الأخرى، ما قد يؤدي إلى مشاكل تتعلّق بوقت الاستجابة. وبالمثل، قد تكون الإحصاءات المجمّعة مكلفة لحسابها بسرعة. وإذا كان وقت الاستجابة ممنوعًا، فثمة احتمال واحد وهو حساب هذه الإحصاءات.