AutoML: البدء

إذا كنت تفكر في استخدام AutoML، قد يكون لديك أسئلة حول كيفية استخدام والخطوات التي يجب عليك اتخاذها للبدء. هذا القسم أكثر تفصيلاً إلى أنماط AutoML الشائعة، وتستكشف آلية عمل AutoML، وتفحص الخطوات التي قد تحتاج إلى اتخاذها قبل البدء في استخدام AutoML لمشروعك.

أدوات AutoML

تندرج أدوات AutoML ضمن فئتَين رئيسيتَين:

  • الأدوات التي لا تتطلب ترميزًا تأخذ عادةً شكل تطبيقات الويب تتيح لك إعداد التجارب وتنفيذها من خلال واجهة مستخدِم للعثور على أفضل نموذج لبياناتك دون كتابة أي تعليمة برمجية.
  • أدوات واجهة برمجة التطبيقات وواجهة سطر الأوامر توفر ميزات مبرمَجة متقدمة، ولكنها تتطلب المزيد (وفي بعض الأحيان أكثر) خبرة في البرمجة وتعلُّم الآلة.

يمكن أن تكون أدوات AutoML التي تتطلب ترميز أكثر قوة ومرونة من ولكن قد تكون أيضًا أكثر صعوبة في الاستخدام. تركز هذه الوحدة حول الخيارات المتاحة بدون استخدام رموز برمجية لتطوير النموذج، ولكن يجب أن تعلم أنّ واجهة برمجة التطبيقات وواجهة سطر الأوامر إذا كنت بحاجة إلى عملية تشغيل آلي مخصّصة

سير عمل AutoML

دعونا نتعرف على سير العمل النموذجي لتعلم الآلة ونرى كيف تعمل الأشياء عند استخدام AutoML. الخطوات عالية المستوى في سير العمل هي نفسها الخطوات التي تستخدمها التدريب المخصّص يتمثل الاختلاف الرئيسي في أن AutoML تعالج بعض المهام نيابةً عنك.

تعريف المشكلة

تتمثل الخطوة الأولى في أي سير عمل لتعلُّم الآلة في تحديد مشكلتك. عند استخدام AutoML، تأكد من أن الأداة التي تختارها يمكنها أن تدعم وأهداف مشروع التعلم الآلي لديك. تتوافق معظم أدوات AutoML مع مجموعة متنوعة من الأجهزة الخاضعة للإشراف خوارزميات التعلم الآلي وأنواع بيانات الإدخال.

لمزيد من المعلومات حول تأطير المشكلة، ألق نظرة على الوحدة على مقدّمة عن تأطير مشاكل تعلُّم الآلة.

جمع البيانات

قبل بدء العمل باستخدام إحدى أدوات AutoML، تحتاج إلى جمع بياناتك في مصدر بيانات واحد. راجِع مستندات المنتج للتأكّد من تدعمه أداتك: مصدر البيانات، وأنواع البيانات في مجموعة البيانات، وحجم مجموعة البيانات لديك.

إعداد البيانات

يعد إعداد البيانات مجالاً يمكن أن تساعدك فيه أدوات AutoML، ولكن لا الأداة يمكنها القيام بكل شيء تلقائيًا، لذا توقع القيام ببعض الإجراءات قبل استيراد بياناتك إلى الأداة. يشبه إعداد البيانات لـ AutoML ما تحتاج إلى القيام به لتدريب أي نموذج يدويًا. إذا كنت بحاجة إلى معرفة المزيد حول كيفية تحضير بياناتك للتدريب، ألق نظرة على إعداد البيانات .

لمزيد من المعلومات حول إعداد البيانات، راجع العمل باستخدام البيانات الرقمية أو العمل باستخدام البيانات الفئوية الوحدات.

قبل استيراد بياناتك للتدريب على استخدام ميزة AutoML، عليك إكمال الخطوات:

  • تصنيف بياناتك

    يحتاج كل مثال في مجموعة البيانات الخاصة بك إلى تصنيف.

  • تنظيف البيانات وتنسيقها

    تميل البيانات الواقعية إلى أن تكون فوضوية، لذلك توقع تنظيف بياناتك قبل استخدامها بها. حتى مع AutoML، تحتاج إلى تحديد أفضل علاجات مجموعة بيانات ومشكلة معينة. قد يتطلب هذا بعض الاستكشاف من المحتمل إجراء العديد من عمليات AutoML قبل الحصول على أفضل النتائج.

  • إجراء عمليات تحويل للميزة

    تعالج بعض أدوات AutoML عمليات تحويل ميزات معيّنة نيابةً عنك. ولكن، إذا الأداة التي تستخدمها لا تدعم تحويل الميزة الذي تحتاجه أو لا تدعمه بشكل جيد، فقد تحتاج إلى إجراء التحويلات المستقبلية محددة.

تطوير النموذج (باستخدام AutoML بدون استخدام الرموز)

تنجز AutoML العمل نيابةً عنك أثناء التدريب. ومع ذلك، قبل أن تبدأ التدريب، فستحتاج إلى تهيئة تجربتك. لإعداد تدريب AutoML تحتاج عادةً إلى تحديد هذه الخطوات عالية المستوى:

  1. استيراد بياناتك

    لاستيراد بياناتك، حدِّد مصدر بياناتك. أثناء الاستيراد تقوم أداة AutoML بتعيين نوع بيانات دلالي لكل قيمة بيانات.

  2. تحليل بياناتك

    عادةً ما توفر منتجات AutoML أدوات لتحليل مجموعة البيانات قبل بعد التدريب. كأفضل ممارسة، قد ترغب في استخدام أدوات التحليل هذه لفهم بياناتك والتحقق منها قبل بدء تشغيل AutoML.

  3. تحسين بياناتك

    غالبًا ما توفر أدوات AutoML آليات لمساعدتك في تحسين بياناتك بعد وقبل التدريب. في ما يلي بعض المهام التي ننصحك بإكمالها لتحسين بياناتك:

    • التحقّق من المعنى: أثناء الاستيراد، تحاول أدوات AutoML تحديد النوع الدلالي الصحيح لكل عنصر، ولكن هذه مجرد تخمينات. يجب عليك التحقق من الأنواع المخصصة لجميع الميزات وتغييرها إذا تم تعيينها بشكل غير صحيح.

      على سبيل المثال، قد يكون لديك رموز بريدية مخزنة كأرقام في عمود في قاعدة البيانات لديك. تكتشف معظم أنظمة AutoML البيانات على أنها مستمرة بيانات رقمية. سيكون هذا غير صحيح لرمز بريدي ويمكن للمستخدم قد ترغب في تغيير النوع الدلالي إلى تصنيفي بدلاً من من المستمر لعمود الميزة هذا.

    • عمليات التحويل: تتيح بعض الأدوات للمستخدمين تخصيص البيانات. وعمليات التحويل كجزء من عملية التصفية. أحيانًا يكون هذا مطلوبة عندما تحتوي مجموعة البيانات على ميزات تنبؤية تحتاج إلى تعديلها أو دمجها بطريقة يصعب على أدوات AutoML تحديدها دون مساعدة.

      على سبيل المثال، ضع في اعتبارك مجموعة بيانات الإسكان التي تستخدمها للتنبؤ السعر المخفَّض لمنزل. لنفترض أن هناك خاصية تمثل ووصفًا لبطاقة بيانات منزل تُسمّى description وكنت ترغب في استخدام هذه البيانات لإنشاء ميزة جديدة تسمى description_length تقدم بعض أنظمة AutoML طرقًا لاستخدام والتحولات. في هذا المثال، قد تكون هناك دالة LENGTH لإنشاء ميزة جديدة لطول الوصف مثل: LENGTH(description)

  4. ضبط مَعلمات تشغيل AutoML

    الخطوة الأخيرة قبل تنفيذ تجربة التدريب هي اختيار بعض إعدادات الضبط لإخبار الأداة بالطريقة التي تريدها لتدريب نموذجك بها. وعلى الرغم من أنّ كل أداة من أدوات AutoML تتضمّن مجموعة فريدة من خيارات الإعداد، إليك بعض مهام التهيئة المهمة التي قد تحتاج إلى مكتمل:

    • اختَر نوع مشكلة تعلُّم الآلة الذي تخطط لحله. على سبيل المثال، هل لحل مشكلة تصنيف أو انحدار؟
    • حدد العمود الذي هو التصنيف في مجموعة البيانات.
    • حدد مجموعة الميزات المطلوب استخدامها لتطبيق النموذج.
    • اختَر مجموعة خوارزميات تعلُّم الآلة التي تأخذها ميزة AutoML في الاعتبار في بحث النموذج.
    • اختَر مقياس التقييم الذي تستخدمه ميزة AutoML لاختيار أفضل نموذج.

بعد ضبط تجربة AutoML، ستكون جاهزًا لبدء التدريب. الجري. قد يستغرق إكمال التدريب بعض الوقت (بترتيب الساعات).

تقييم النموذج

بعد التدريب، يمكنك فحص النتائج باستخدام أدوات AutoML المنتج لمساعدتك:

  • يمكنك تقييم الميزات من خلال فحص مقاييس أهمية الميزة.
  • فهم النموذج من خلال فحص البنية والمعلَمات الفائقة المستخدمة لإنشائها.
  • تقييم أداء نموذج المستوى الأعلى باستخدام المخططات والمقاييس التي يتم جمعها أثناء التطبيق على نموذج الإخراج.

الإنتاج

على الرغم من أنها خارج نطاق هذه الوحدة، يمكن أن تساعدك بعض أنظمة AutoML في اختبار النموذج ونشره.

إعادة ضبط النموذج

وقد تحتاج إلى إعادة تدريب النموذج باستخدام بيانات جديدة. قد يحدث هذا بعد تقييم عملية التدريب على استخدام AutoML أو بعد أن يكون النموذج قيد الإنتاج لبعض المستخدمين الوقت. في كلتا الحالتين، يمكن أن تساعد أنظمة AutoML في إعادة التدريب أيضًا. لا من غير المألوف أن نلقي نظرة أخرى على بياناتك بعد تشغيل AutoML، وإعادة التدريب باستخدام مجموعة بيانات محسّنة.

الخطوات التالية

تهانينا على الانتهاء من هذه الوحدة!

ننصحك بالاطّلاع على وحدات MLCC المختلفة. وفقًا لوتيرتك الخاصة واهتمامك. إذا أردت اتّباع ترتيب مقترَح، نقترح عليك الانتقال إلى الوحدة التالية: العدالة في تعلُّم الآلة: