مسارات تعلُّم الآلة

في مجال تكنولوجيا تعلُّم الآلة للإنتاج، ليس الهدف إنشاء نموذج واحد ونشره. يتلخص الهدف في إنشاء مسارات التعلّم التلقائية لتطوير النماذج واختبارها ونشرها بمرور الوقت. ولماذا؟ مع تغير العالم، تتغير اتجاهات البيانات، مما يتسبب في تلف النماذج في الإنتاج. تحتاج النماذج عادةً إلى إعادة تدريب باستخدام بيانات حديثة لمواصلة عرض توقعات عالية الجودة على المدى الطويل. وبعبارة أخرى، ستحتاج إلى طريقة لاستبدال النماذج القديمة بأخرى جديدة.

بدون المسارات، يكون استبدال النموذج القديم عملية عرضة للخطأ. على سبيل المثال، بمجرد أن يبدأ نموذج في تقديم تنبؤات سيئة، سيحتاج شخص ما إلى جمع البيانات الجديدة ومعالجتها يدويًا، وتدريب نموذج جديد، والتحقق من جودته، ومن ثم نشره في النهاية. تعمل مسارات تعلُّم الآلة على أتمتة العديد من هذه العمليات المتكررة، ما يجعل إدارة النماذج وصيانتها أكثر كفاءة وموثوقية.

بناء المسارات

تنظِّم مسارات تعلُّم الآلة خطوات إنشاء النماذج ونشرها في مهام محدّدة جيدًا. تؤدي مسارات الأنابيب إحدى وظيفتين: تقديم التنبؤات أو تحديث النموذج.

جارٍ عرض التوقعات

يقدم مسار العرض توقعات. إنه يعرض نموذجك للعالم الحقيقي، مما يجعله في متناول المستخدمين. على سبيل المثال، عندما يريد أحد المستخدمين الحصول على توقّعات - مثل كيف سيكون الطقس غدًا، أو عدد الدقائق التي سيستغرقها السفر إلى المطار، أو قائمة من الفيديوهات المقترحة - يتلقى مسار العرض بيانات المستخدم ويعالجها، ويطرح التوقعات، ثم يسلمها إلى المستخدم.

تحديث النموذج

تميل النماذج إلى أن تصبح قديمة فور انتقالها إلى مرحلة الإنتاج. فخلاصة الأمر هي أنها تقدم تنبؤات باستخدام معلومات قديمة. والتقاطت مجموعات بيانات التدريب حالة العالم قبل يوم، أو في بعض الحالات، قبل ساعة. لا مفر من أنّ العالم قد تغيّر: شاهد المستخدم المزيد من الفيديوهات ويحتاج إلى قائمة جديدة بالاقتراحات، وأدّى الأمطار إلى تباطؤ حركة الزيارات ويحتاج المستخدمون إلى تقديرات معدّلة لأوقات وصولهم. وهناك اتجاه شائع يدفع بائعي التجزئة إلى طلب توقّعات معدَّلة بشأن المخزون لسلع معيَّنة.

عادةً ما تقوم الفرق بتدريب نماذج جديدة قبل وقت طويل من انتهاء نموذج الإنتاج. وفي بعض الحالات، تقوم الفِرق بتدريب نماذج جديدة ونشرها يوميًا في دورة تدريب ونشر مستمرة. من الناحية المثالية، ينبغي أن يتم تدريب نموذج جديد قبل أن ينفد نموذج الإنتاج بوقت طويل.

تعمل المسارات التالية معًا لتدريب نموذج جديد:

  • مسار البيانات: يعالج مسار البيانات بيانات المستخدم لإنشاء مجموعات بيانات التدريب والاختبار.
  • مسار التدريب: يقوم مسار التدريب بتدريب النماذج باستخدام مجموعات بيانات التدريب الجديدة من مسار البيانات.
  • مسار التحقّق: يتحقّق مسار التحقّق من صحة النموذج المدرَّب من خلال مقارنته بنموذج الإنتاج باستخدام مجموعات بيانات الاختبار التي تم إنشاؤها بواسطة مسار البيانات.

يوضّح الشكل 4 مدخلات ومخرجات كل مسار من مسارات تعلُّم الآلة.

مسارات تعلُّم الآلة

مسارات تعلُّم الآلة التي تعرض مدخلاتها ومخرجاتها يأخذ مسار العرض مدخلات
المستخدم ويقدم تنبؤات. يعالج مسار البيانات سجلات بيانات التطبيق لإنشاء مجموعات بيانات تدريب واختبار
يستخدمها مسار التدريب والتحقق لتدريب النماذج الجديدة والتحقق من صحتها

الشكل 4. تعمل مسارات تعلُّم الآلة على أتمتة العديد من العمليات لتطوير النماذج والحفاظ عليها. يعرض كل مسار مدخلاته ومخرجاته.

على المستوى العام جدًا، إليك كيفية احتفاظ المسارات بنموذج جديد في الإنتاج:

  1. أولاً، يدخل النموذج في الإنتاج، ويبدأ مسار العرض في تقديم التنبؤات.

  2. يبدأ مسار البيانات على الفور في جمع البيانات لإنشاء مجموعات بيانات جديدة للتدريب والاختبار.

  3. استنادًا إلى جدول زمني أو عامل تشغيل، يتم تدريب مسارات التدريب والتحقق من الصحة على نموذج جديد والتحقق من صحته باستخدام مجموعات البيانات التي تم إنشاؤها بواسطة مسار البيانات.

  4. عندما يؤكد مسار التحقق أن النموذج الجديد ليس أسوأ من نموذج الإنتاج، يتم نشر النموذج الجديد.

  5. وتتكرر هذه العملية بشكل مستمر.

تلف النموذج ومعدّل تكرار التدريب

تصبح جميع النماذج تقريبًا قديمة. تصبح بعض النماذج قديمة بشكل أسرع من نماذج أخرى. على سبيل المثال، النماذج التي تقترح الملابس عادةً ما تختفي بسرعة لأن تفضيلات المستهلك ليست مشهورة بالتغيير المتكرر. من ناحية أخرى، قد لا تختفي النماذج التي تحدد الزهور أبدًا. تظل الخصائص المحددة للزهرة مستقرة.

تبدأ معظم النماذج في الظهور على الفور بعد وضعها في الإنتاج. ستحتاج إلى إنشاء معدل تكرار تدريب يعكس طبيعة بياناتك. إذا كانت البيانات ديناميكية، فتدرب عليها كثيرًا. إذا كانت أقل ديناميكية، فقد لا تحتاج إلى التدريب ذلك كثيرًا.

تدريب النماذج قبل أن تختفي. يوفر التدريب المبكر موردًا احتياطيًا لحل المشكلات المحتملة، على سبيل المثال، إذا فشل البيانات أو مسار التدريب، أو كانت جودة النموذج سيئة.

من أفضل الممارسات الموصى بها تدريب نماذج جديدة ونشرها يوميًا. تمامًا مثل مشروعات البرامج العادية التي لديها عملية إنشاء وإصدار يومية، غالبًا ما تعمل مسارات تعلُّم الآلة للتدريب والتحقق من الصحة بشكل أفضل عند تشغيلها يوميًا.

مسار العرض

ينشئ مسار العرض توقعات ويقدم توقعات بإحدى طريقتين: عبر الإنترنت أو بلا اتصال.

  • عبارات البحث المقترحة على الإنترنت: تحدث التنبؤات على الإنترنت في الوقت الفعلي، وعادةً ما يحدث ذلك عن طريق إرسال طلب إلى خادم على الإنترنت وعرض توقّعات. على سبيل المثال، عندما يريد المستخدم توقعًا، يتم إرسال بيانات المستخدم إلى النموذج ويعرض النموذج التنبؤ. على سبيل المثال، يصنّف Gmail الرسائل الواردة في الوقت الفعلي باستخدام التوقّعات على الإنترنت.

  • توقّعات البحث بلا إنترنت: يتم حساب التوقعات بلا اتصال بالإنترنت وتخزينها مؤقتًا. لعرض تنبؤ، يعثر التطبيق على التنبؤ المخزن مؤقتًا في قاعدة البيانات ويعرضه. على سبيل المثال، قد تتوقّع خدمة قائمة على الاشتراك معدّل إيقاف الاستخدام للمشتركين يتنبأ النموذج باحتمالية إيقاف الاستخدام لدى كل مشترك ويخزّنه مؤقتًا. وعندما يحتاج التطبيق إلى التنبؤ - على سبيل المثال، لتحفيز المستخدمين الذين قد يكونون على وشك إيقاف الاستخدام - فإنه يبحث فقط عن التنبؤات المحسوبة مسبقًا.

يوضح الشكل 5 كيفية إنشاء وعرض التوقعات عبر الإنترنت وبلا اتصال بالإنترنت.

توقّعات البحث على الإنترنت وبلا إنترنت

ويمكن عرض التوقعات في الوقت الفعلي أو إرسالها بشكل مجمَّع وتخزينه مؤقتًا للبحث.

الشكل 5. توفر التوقعات عبر الإنترنت الحصول على توقعات في الوقت الفعلي. يتم تخزين التوقعات بلا اتصال بالإنترنت ويتم البحث عنها في وقت العرض.

المعالجة اللاحقة للتوقّع

عادةً ما تتم معالجة عبارات البحث المقترحة لاحقًا قبل تسليمها. على سبيل المثال، قد تتم معالجة التنبؤات لاحقًا لإزالة المحتوى السام أو المتحيز. قد تستخدم نتائج التصنيف التقلب لإعادة ترتيب النتائج بدلاً من عرض المخرجات الأولية للنموذج، مثل تعزيز محتوى أكثر موثوقية أو عرض مجموعة متنوعة من النتائج أو خفض ترتيب نتائج معيّنة (مثل المحتوى المضلّل لجذب النقرات) أو إزالة النتائج لأسباب قانونية.

يوضح الشكل 6 مسار العرض والمهام النموذجية المتضمنة في تقديم التوقعات.

توقّعات ما بعد المعالجة

توقعات مسار العرض بعد المعالجة.

الشكل 6. مسار عرض يوضح المهام النموذجية المتضمنة لتقديم تنبؤات.

تجدر الإشارة إلى أن خطوة هندسة الميزات عادةً ما يتم تضمينها في النموذج، وليس في عملية منفصلة ومستقلة. غالبًا ما يكون رمز معالجة البيانات في مسار العرض مطابقًا تقريبًا لرمز معالجة البيانات الذي يستخدمه مسار البيانات لإنشاء مجموعات بيانات تدريب واختبار.

تخزين مواد العرض والبيانات الوصفية

ويجب أن يتضمن مسار العرض مستودعًا لتسجيل تنبؤات النماذج، فضلاً عن الحقيقة الأساسية إن أمكن.

يتيح لك تسجيل توقّعات النماذج مراقبة جودة النموذج. من خلال تجميع التوقعات، يمكنك مراقبة الجودة العامة لنموذجك وتحديد ما إذا بدأ يفقد جودته. بشكل عام، يجب أن يكون لتنبؤات نموذج الإنتاج نفس المتوسط مثل التسميات من مجموعة بيانات التدريب. لمزيد من المعلومات، راجع تحيز التوقع.

معرفة الحقيقة الواقعية

في بعض الحالات، لا تصبح الحقيقة الواقعية متاحة إلا بعد فترة طويلة. على سبيل المثال، إذا توقّع أحد تطبيقات الطقس حالة الطقس خلال ستة أسابيع في المستقبل، لن تتوفّر الحقيقة الواقعية (ما هو الطقس فعليًا) لمدة ستة أسابيع؟

عندما يكون ذلك ممكنًا، اطلب من المستخدمين الإبلاغ عن المحتوى الفعلي من خلال إضافة آليات ملاحظات إلى التطبيق. يسجِّل Gmail ضمنيًا ملاحظات المستخدمين عندما ينقل المستخدمون رسائل البريد من البريد الوارد إلى مجلّد الرسائل غير المرغوب فيها. ومع ذلك، لا يعمل هذا إلا عندما يصنف المستخدم بريده بشكل صحيح. عندما يترك المستخدمون رسالة غير مرغوب فيها في بريدهم الوارد (لأنهم يعرفون أنها رسالة غير مرغوب فيها ولا يفتحونها أبدًا)، تصبح بيانات التدريب غير دقيقة. سيتم تصنيف هذا البريد المعين على أنه "ليس رسائل غير مرغوب فيها" عندما يجب أن يكون "رسائل غير مرغوب فيها". بعبارة أخرى، حاوِل دائمًا إيجاد طرق لتصوير الحقيقة الفعلية وتسجيلها، ولكن عليك الانتباه إلى أوجه القصور التي قد تتضمّنها آليات الملاحظات.

يوضح الشكل 7 تنبؤات يتم تسليمها إلى مستخدم وتسجيلها في المستودع.

توقّعات التسجيل

يجب أن يسجِّل مسار العرض التوقعات لمراقبة انتهاء النموذج.

الشكل 7. تسجيل التوقعات لمراقبة جودة النموذج.

مسارات البيانات

تنشئ خطوط البيانات مجموعات بيانات تدريب واختبار من بيانات التطبيق. ثم تستخدم مسارات التدريب والتحقق من صحة مجموعات البيانات لتدريب النماذج الجديدة والتحقق من صحتها.

ينشئ مسار البيانات مجموعات بيانات تدريب واختبار بنفس الميزات والتسمية المستخدمة في الأصل لتدريب النموذج، ولكن بمعلومات أحدث. على سبيل المثال، سينشئ تطبيق الخرائط مجموعات بيانات تدريب واختبار من أوقات التنقّل الأخيرة بين النقاط لملايين المستخدمين، إلى جانب بيانات أخرى ذات صلة، مثل الطقس.

سينشئ تطبيق اقتراحات الفيديو مجموعات بيانات تدريب واختبار تتضمّن الفيديوهات التي نقر عليها المستخدم من القائمة المقترَحة (بالإضافة إلى الفيديوهات التي لم يتم النقر عليها)، بالإضافة إلى بيانات أخرى ذات صلة، مثل سجلّ المشاهدة.

يوضح الشكل 8 مسار البيانات باستخدام بيانات التطبيق لإنشاء مجموعات بيانات التدريب والاختبار.

مسار البيانات

ينشئ مسار البيانات مجموعات بيانات تدريب واختبار.

الشكل 8. يعالج مسار البيانات بيانات التطبيقات لإنشاء مجموعات بيانات لمسارات التدريب والتحقق من الصحة.

جمع البيانات ومعالجتها

من المحتمل أن تختلف مهام جمع البيانات ومعالجتها في مسارات البيانات عن مرحلة التجربة (حيث قررت أن الحل الذي توصلت إليه ممكن):

  • جمع البيانات: أثناء التجربة، عادة ما يتطلب جمع البيانات الوصول إلى البيانات المحفوظة. بالنسبة لمسارات البيانات، قد يتطلب جمع البيانات اكتشاف بيانات سجلات البث والحصول على موافقة عليها.

    إذا كنت بحاجة إلى بيانات مصنّفة كبشر (مثل الصور الطبية)، ستحتاج إلى عملية لجمعها وتعديلها أيضًا. إذا كنت بحاجة إلى بيانات مصنّفة بشريًا، راجع صفحة CrowdCompute.

  • معالجة البيانات: أثناء التجربة، جاءت الميزات الصحيحة من استخلاص مجموعات بيانات التجربة ودمجها وأخذ عينات منها. بالنسبة لمسارات البيانات، قد يتطلب إنشاء تلك الميزات نفسها عمليات مختلفة تمامًا. ومع ذلك، تأكد من تكرار عمليات تحويل البيانات من مرحلة التجربة من خلال تطبيق العمليات الرياضية نفسها على الميزات والتسميات.

تخزين مواد العرض والبيانات الوصفية

ستحتاج إلى عملية لتخزين مجموعات بيانات التدريب والاختبار وتحديد إصداراتها وإدارتها. توفر المستودعات التي يتم التحكم فيها للإصدار المزايا التالية:

  • قابلية التكرار: يمكنك إعادة إنشاء بيئات تدريب النماذج وتوحيدها ومقارنة جودة التوقعات بين النماذج المختلفة.

  • الامتثال: الالتزام بمتطلبات الامتثال التنظيمي من أجل قابلية التدقيق والشفافية.

  • الحفاظ على المستخدِمين: اضبط قيم الاحتفاظ بالبيانات لتحديد مدة تخزين البيانات.

  • إدارة أذونات الوصول: إدارة من يمكنه الوصول إلى بياناتك من خلال أذونات دقيقة.

  • سلامة البيانات: تتبع وفهم التغييرات في مجموعات البيانات بمرور الوقت، مما يسهل تشخيص المشكلات المتعلقة ببياناتك أو نموذجك.

  • قابلية العثور على المحتوى: اجعل من السهل على الآخرين العثور على مجموعات البيانات والميزات لديك. يمكن للفرق الأخرى بعد ذلك تحديد ما إذا كانت ستكون مفيدة لأهدافها.

توثيق البيانات

تساعد الوثائق الجيدة الآخرين على فهم المعلومات الأساسية حول بياناتك، مثل نوعها ومصدرها وحجمها وغيرها من بيانات التعريف الأساسية. في معظم الحالات، يكفي توثيق بياناتك في مستند تصميم أو g3doc. إذا كنت تخطط لمشاركة بياناتك أو نشرها، استخدِم بطاقات البيانات لتنظيم المعلومات. تسهل بطاقات البيانات على الآخرين اكتشاف مجموعات البيانات لديك وفهمها.

مسارات التدريب والتحقّق من الصحة

تنتج مسارات التدريب والتحقق نماذج جديدة لتحل محل نماذج الإنتاج قبل أن تختفي. يضمن التدريب المستمر للنماذج الجديدة والتحقق منها أن يكون أفضل نموذج في الإنتاج دائمًا.

ينشئ مسار التدريب نموذجًا جديدًا من مجموعات بيانات التدريب، ويقارن مسار التحقق جودة النموذج الجديد مع النموذج قيد الإنتاج باستخدام مجموعات بيانات الاختبار.

يوضح الشكل 9 مسار التدريب باستخدام مجموعة بيانات تدريب لتدريب نموذج جديد.

مسار التدريب

يقوم مسار التدريب بتدريب نماذج جديدة على البيانات الحديثة.

الشكل 9. يقوم مسار التدريب بتدريب نماذج جديدة باستخدام أحدث مجموعة بيانات التدريب.

بعد تدريب النموذج، يستخدم مسار التحقق مجموعات بيانات الاختبار لمقارنة جودة نموذج الإنتاج بالنموذج المدرَّب.

وبوجه عام، إذا لم يكن النموذج المدرَّب أسوأ بكثير من نموذج الإنتاج، يدخل النموذج المدرَّب إلى مرحلة الإنتاج. إذا كان النموذج المدرَّب أسوأ، ينبغي أن تنشئ البنية الأساسية للمراقبة تنبيهًا. يمكن أن تشير النماذج المدربة ذات جودة توقع سيئة إلى المشكلات المحتملة في البيانات أو مسارات التحقق من الصحة. يعمل هذا النهج على ضمان أن يتم دائمًا إنتاج أفضل نموذج مدرَّب على أحدث البيانات.

تخزين مواد العرض والبيانات الوصفية

يجب تخزين النماذج وبياناتها الوصفية في مستودعات متعددة النُسخ لتنظيم عمليات نشر النماذج وتتبّعها. توفر مستودعات النماذج الفوائد التالية:

  • التتبُّع والتقييم: تتبع النماذج في الإنتاج وفهم مقاييس جودة التقييم والتنبؤ.

  • عملية إصدار النموذج. مراجعة النماذج أو الموافقة عليها أو إصدارها أو العودة إليها بسهولة.

  • إعادة الإنتاج وتصحيح الأخطاء: أعد إنتاج نتائج النموذج وتصحيح الأخطاء بشكل أكثر فعالية من خلال تتبع مجموعات بيانات النموذج والتبعيات عبر عمليات النشر.

  • قابلية العثور على المحتوى: اجعل من السهل على الآخرين العثور على نموذجك. يمكن للفرق الأخرى بعد ذلك تحديد ما إذا كان يمكن استخدام نموذجك (أو أجزاء منه) لأغراضها.

يوضح الشكل 10 نموذجًا تم التحقق من صحته مخزّنًا في مستودع نماذج.

تخزين النماذج

تخزين النماذج في مستودع متعدد الإصدارات

الشكل 10. يتم تخزين النماذج التي تم التحقّق من صحتها في مستودع نماذج للتتبُّع وقابلية الاكتشاف.

استخدِم بطاقات النماذج لتوثيق ومشاركة المعلومات الأساسية حول نموذجك، مثل الغرض منه وبنيته ومتطلباته للأجهزة ومقاييس التقييم وما إلى ذلك.

تحديات إنشاء المسارات

عند إنشاء المسارات، قد تواجه التحديات التالية:

  • الحصول على البيانات التي تحتاج إليها قد يتطلب الوصول إلى البيانات تبرير سبب احتياجك إليها. على سبيل المثال، قد تحتاج إلى شرح كيفية استخدام البيانات وتوضيح كيفية حل مشكلات معلومات تحديد الهوية الشخصية. كن مستعدًا لإظهار إثبات مفهوم يوضح كيف يقدم نموذجك تنبؤات أفضل مع الوصول إلى أنواع معينة من البيانات.

  • الحصول على الميزات المناسبة: في بعض الحالات، لن تكون الميزات المستخدمة في مرحلة التجربة متاحة من البيانات في الوقت الفعلي. لذلك، عند التجربة، حاول التأكد من قدرتك على الحصول على الميزات نفسها في مرحلة الإنتاج.

  • فهم كيفية جمع البيانات وتمثيلها: إن معرفة كيفية جمع البيانات ومن جمعها وكيف تم جمعها (إلى جانب مشكلات أخرى) يمكن أن يستغرق وقتًا وجهدًا. من المهم أن تفهم البيانات بدقة. لا تستخدم بيانات لست واثقًا منها لتدريب نموذج قد يدخل إلى الإنتاج.

  • فهم المفاضلات بين الجهد والتكلفة وجودة النموذج: يمكن أن يتطلب دمج ميزة جديدة في مسار البيانات الكثير من الجهد. ومع ذلك، فإن الميزة الإضافية قد تعمل على تحسين جودة النموذج بشكل طفيف. وفي حالات أخرى، قد يكون من السهل إضافة ميزة جديدة. ومع ذلك، قد تكون الموارد للحصول على الميزة وتخزينها باهظة الثمن.

  • الحصول على الحوسبة وإذا كنت بحاجة إلى وحدات معالجة الموتّرات لإعادة التدريب، قد يكون من الصعب الحصول على الحصة المطلوبة. أيضًا، تعد إدارة وحدات معالجة الموتّرات عملية معقدة. على سبيل المثال، قد تحتاج بعض أجزاء النموذج أو البيانات إلى أن تكون مصممة خصيصًا لـ TPU من خلال تقسيم أجزاء منها إلى عدة شرائح TPU.

  • العثور على مجموعة البيانات الذهبية المناسبة. إذا كانت البيانات تتغير بشكل متكرر، فقد يكون الحصول على مجموعات بيانات ذهبية بتصنيفات متسقة ودقيقة أمرًا صعبًا.

يوفر اكتشاف هذه الأنواع من المشكلات أثناء إجراء التجارب الوقت. على سبيل المثال، إذا كنت لا تريد تطوير أفضل الميزات والنماذج فقط لمعرفة أنّها ليست متاحة في الإنتاج. لذلك، حاول أن تؤكد في أقرب وقت ممكن أن الحل الخاص بك يعمل ضمن قيود بيئة الإنتاج. من الأفضل قضاء بعض الوقت في التحقق من نجاح أحد الحلول بدلاً من الحاجة إلى العودة إلى مرحلة التجربة لأن مرحلة مسار التجربة كشفت عن مشكلات لا يمكن التغلب عليها.