يجب أن تكون البيانات الأولية مصمّمة من حيث الميزات (محوَّلة). متى يجب تحويل البيانات؟ بشكل عام، يمكنك إجراء هندسة الميزات خلال أي من الفترةَين التاليتَين:
- قبل تدريب النموذج
- أثناء تدريب النموذج
تحويل البيانات قبل التدريب
في هذا النهج، تتّبع خطوتَين:
- اكتب رمزًا أو استخدِم أدوات متخصّصة لتحويل البيانات الأولية.
- تخزين البيانات المحوَّلة في مكان يمكن للنموذج نقلها إليه، مثل على القرص
المزايا
- يحوّل النظام البيانات الأولية مرة واحدة فقط.
- يمكن للنظام تحليل مجموعة البيانات بأكملها لتحديد أفضل استراتيجية للتحويل.
السلبيات
- يجب إعادة إنشاء عمليات التحويل في وقت التنبؤ. توخّي الحذر من الانحراف في مرحلة التدريب والتقديم.
يكون الانحراف في مرحلة التدريب أكثر خطورة عندما يُجري نظامك استنتاجًا ديناميكيًا (على الإنترنت). في النظام الذي يستخدم الاستنتاج الديناميكي، يختلف البرنامج الذي يحوّل مجموعة البيانات الأولية عادةً عن البرنامج الذي يعرض التوقّعات، ما قد يؤدي إلى حدوث انحراف في عملية التدريب. في المقابل، يمكن أن تستخدم الأنظمة التي تستخدِم الاستنتاج الثابت (بلا اتصال بالإنترنت) في بعض الأحيان البرنامج نفسه.
تحويل البيانات أثناء التدريب
في هذا النهج، يكون التحويل جزءًا من رمز النموذج. ينقل النموذج البيانات الأولية ويحوّلها.
المزايا
- سيظل بإمكانك استخدام ملفات البيانات الأوّلية نفسها في حال تغيير عمليات التحويل.
- يتم ضمان إجراء عمليات التحويل نفسها في وقت التدريب والتنبؤ.
السلبيات
- يمكن أن تزيد عمليات التحويل المعقّدة من وقت استجابة النموذج.
- تحدث عمليات التحويل لكل دفعة.
قد يكون تحويل البيانات لكل دفعة أمرًا صعبًا. على سبيل المثال، لنفترض أنّك تريد استخدام تسويّة القيمة المعيارية للدرجة المعيارية Z لتحويل البيانات الرقمية الأولية. تتطلّب تسوية النتيجة المعيارية لـ Z معرفة متوسّط الميزة وانحرافها المعياري. ومع ذلك، تعني عمليات التحويل لكل دفعة أنّه لن يتوفّر لك سوى دفعة واحدة من البيانات، وليس مجموعة البيانات الكاملة. وبالتالي، إذا كانت الحِزم متنوعة بشكلٍ كبير، لن يكون لمعدّل Z الذي يبلغ مثلاً -2.5 في حزمة معيّنة المعنى نفسه الذي يمثّله -2.5 في حزمة أخرى. كحل بديل، يمكن لنظامك احتساب المتوسط والانحراف المعياري مسبقًا في مجموعة البيانات بأكملها ثم استخدامهما كثوابت في النموذج.