تمت ترجمة هذه الصفحة بواسطة Cloud Translation API‏.

أنظمة تعلُّم الآلة للإنتاج: متى يتم تحويل البيانات؟

يجب أن يتم تعديل (تحويل) البيانات الأولية. متى يجب التحويل البيانات؟ بشكل عام، يمكنك إجراء هندسة الميزات خلال أي من الفترتين التاليتين:

قبل تدريب النموذج.
أثناء تدريب النموذج.

تحويل البيانات قبل التدريب

في هذا النهج، يمكنك اتباع خطوتين:

اكتب رمزًا برمجيًا أو استخدِم أدوات متخصّصة على تحويل البيانات الأولية.
تخزين البيانات التي تم تحويلها في مكان ما يمكن للنموذج استيعابه، مثل كما هو الحال على القرص.

المزايا

يحوّل النظام البيانات الأولية مرة واحدة فقط.
يمكن للنظام تحليل مجموعة البيانات بأكملها لتحديد أفضل مجموعة استراتيجية التحويل.

العيوب

يجب إعادة إنشاء عمليات التحويل في وقت التنبؤ. احترس من انحراف عرض التدريب:

يكون انحراف عرض التدريب أكثر خطورة عندما ينفذ النظام ديناميكيًا. (عبر الإنترنت). في أي نظام يستخدم الاستنتاج الديناميكي، فإن البرنامج الذي يحول عادة ما تختلف مجموعة البيانات الأولية عن البرنامج الذي يقدم التنبؤات، مما قد يؤدي إلى انحراف في عرض التدريب في المقابل، يمكن أحيانًا أن تستخدم الأنظمة التي تستخدم الاستنتاج الثابت (بلا اتصال بالإنترنت) يستخدمون نفس البرنامج.

تحويل البيانات أثناء التدريب

وفي هذا المنهج، يكون التحويل جزءًا من رمز النموذج. النموذج استيعاب البيانات الأولية وتحويلها.

المزايا

وسيظل بإمكانك استخدام ملفات البيانات الأولية نفسها في حال تغيير عمليات التحويل.
يمكنك ضمان إجراء التغييرات نفسها في وقت التدريب والتوقّع.

العيوب

يمكن أن تؤدي التحويلات المعقّدة إلى زيادة وقت استجابة النموذج.
تحدث عمليات التحويل لكل دفعة.

قد يكون تحويل البيانات لكل دفعة أمرًا صعبًا. على سبيل المثال، لنفترض أنك تريد استخدام تسوية الدرجة المعيارية لتحويل البيانات الرقمية الأولية. تتطلب تسوية الدرجة المعيارية متوسط الانحراف المعياري للخاصية. مع ذلك، تعني عمليات التحويل لكل دفعة أنّك لن تتمكّن من الوصول إلى دفعة واحدة من البيانات، وليس مجموعة البيانات الكاملة. لذلك، إذا كانت الدفعات كبيرة فإن الدرجة المعيارية التي تبلغ -2.5 في دفعة واحدة لن تحمل المعنى نفسه كـ -2.5 في دفعة أخرى. وكحل بديل، يمكن أن يقوم نظامك بحساب مسبق للانحراف المتوسط والانحراف المعياري عبر مجموعة البيانات بالكامل ثم استخدامها كثوابت في النموذج.

الاستنتاج الثابت مقابل الاستنتاج الديناميكي (10 دقائق)

اختبار النشر (5 دقائق)