مقدمة عن تحويل البيانات

هندسة الميزات هي عملية تحديد الميزات التي قد تكون مفيدة في تدريب نموذج، ثم إنشاء تلك الميزات من خلال تحويل البيانات الأولية الواردة في ملفات السجل والمصادر الأخرى. سنركّز في هذا القسم على الحالات التي يتم فيها تحويل البيانات الرقمية والتصنيفية وكيفية مفاضلة النهج المتّبع مع الأساليب المختلفة.

أسباب نقل البيانات

إننا نعمل على تحويل الميزات بشكل أساسي للأسباب التالية:

  1. الإحالات الناجحة الإلزامية للتحقّق من توافق البيانات تشمل الأمثلة ما يلي:

    • تحويل العناصر غير الرقمية إلى رقمية لا يمكنك ضرب المصفوفة في سلسلة، لذلك يجب تحويل السلسلة إلى تمثيل رقمي.
    • تغيير حجم الإدخالات إلى حجم ثابت تتضمّن النماذج الخطية والشبكات العصبونية للأمام عددًا ثابتًا من عُقد الإدخال، لذلك يجب أن تكون بيانات الإدخال دائمًا بالحجم نفسه. على سبيل المثال، تحتاج نماذج الصور إلى إعادة تشكيل الصور في مجموعة البيانات إلى حجم ثابت.
  2. إحالات ناجحة اختيارية للجودة قد تساعد على تحسين أداء النموذج. تشمل الأمثلة ما يلي:

    • الرموز المميّزة أو حالة الأحرف الصغيرة في الميزات النصية
    • ميزات رقمية تمت تسويتها (تُحقِّق معظم النماذج أداءً أفضل بعد ذلك).
    • السماح للنماذج الخطية بتعريف الأنواع غير الخطية في مساحة الميزات

بصرامة، ليس من الضروري تحويل الجودة، إذ يمكن أن يستمر تشغيل النموذج بدونها. ولكن استخدام هذه الأساليب قد يُتيح النموذج لتقديم نتائج أفضل.

أين يمكنني إجراء التحوّل؟

يمكنك تطبيق الإحالات الناجحة أثناء إنشاء البيانات على القرص أو ضمن النموذج.

الانتقال إلى مرحلة ما قبل التدريب

في هذا المنهج، نُجري عملية التحوّل قبل التدريب. يتم استخدام هذا الرمز بشكل منفصل عن نموذج تعلُّم الآلة الخاص بك.

الإيجابيات

  • يتم تنفيذ العملية الحسابية مرة واحدة فقط.
  • يمكن أن تراجع الحوسبة مجموعة البيانات بأكملها لتحديد عملية التحوّل.

السلبيات

  • يجب إعادة إنشاء الإحالات الناجحة في وقت التوقّع. احترِس،
  • تتطلب أي تغييرات في التحويل إعادة إنشاء البيانات، ما يؤدي إلى تكرارات أقل.

تزداد أهمية Skew في الحالات التي تشمل عرضًا على الإنترنت. في وضع العرض بلا اتصال بالإنترنت، قد تتمكن من إعادة استخدام الرمز الذي ينشئ بيانات التدريب. في العرض على الإنترنت، يكون الرمز الذي ينشئ مجموعة البيانات والرمز المستخدَم للتعامل مع الزيارات المباشرة مختلفًا تقريبًا، ما يسهّل تقديم انحراف.

التغيير في النموذج

ويُعدّ هذا المنهج جزءًا من رمز النموذج. يأخذ النموذج البيانات غير المحوّلة كإدخال ويحوّلها داخل النموذج.

الإيجابيات

  • التكرارات السهلة: إذا غيّرت التحويلات، سيظل بإمكانك استخدام ملفات البيانات نفسها.
  • تضمن لك هذه التغييرات التحولات في وقت التدريب والتوقع.

السلبيات

  • التحولات باهظة الثمن يمكن أن تؤدي إلى زيادة وقت استجابة النموذج.
  • الإحالات الناجحة لكل مجموعة.

هناك العديد من الاعتبارات للتبديل إلى كل مجموعة. لنفترض أنك تريد الحفاظ على صحة ميزة حسب متوسط قيمتها، أي أنك تريد تغيير قيم الميزات لتتطابق مع 0 والانحراف المعياري 1. وعند التبديل داخل النموذج، ستتمكّن هذه التسوية من الوصول إلى مجموعة واحدة فقط من البيانات، وليس مجموعة البيانات الكاملة. يمكنك إما تسوية متوسط القيمة ضمن دُفعة (خطير إذا كانت المجموعات متغيّرة بشكل كبير)، أو حساب القيمة المتوسطة وحلّها كثابت في النموذج. وسنتعرّف على التسوية في القسم التالي.

استكشاف بياناتك وتنظيفها وتمثيلها مرئيًا

استكشاف بياناتك وتنقيحها قبل إجراء أي تغييرات عليها. من المحتمل أنّك نفّذت بعض المهام التالية التي جمعتها وأنشئت مجموعة بيانات:

  • افحص عدة صفوف من البيانات.
  • مراجعة الإحصاءات الأساسية
  • حلّ مشكلة الإدخالات الرقمية غير المتوفّرة

عرض بياناتك بشكل متكرر. يمكن أن تساعد الرسومات البيانية في العثور على القيم الشاذة أو الأنماط التي لا تكون واضحة من الإحصاءات الرقمية. لذلك، قبل التعمّق في تحليل البيانات، راجِع بياناتك بيانيًا، إما من خلال مخططات التبعثر أو المخططات التكرارية. يمكنك عرض الرسومات البيانية في بداية مسار التعلّم، ولكن أيضًا في مرحلة النقل. ستساعدك التمثيل البصري على التحقّق من الافتراضات بشكل متواصل ومعرفة تأثيرات أي تغييرات رئيسية.