يعرض هذا القسم تفاصيل مسار التدريب.
تحسين مسار الإدخال
ملخّص: إنّ أسباب التدخلات القائمة على المدخلات وتداخلها تعتمد بشكل كبير على المهام. استخدِم محلّلًا وابحث عن المشاكل الشائعة.
استخدم مُحلّل مناسب، مثل أحد الخيارات التالية، لتشخيص مسارات الإدخال المرتبطة:
- Perfetto لشركة JAX
- أداة تحليل TensorFlow لحساب TensorFlow
في النهاية، تعتمد الأسباب والتدخلات المحددة على قدر كبير من المهام. إنّ الاعتبارات الهندسية الأوسع نطاقًا (مثل تصغير حجم القرص) قد تؤدي إلى الإضرار بأداء مسار الإدخال.
في ما يلي الأسباب الشائعة للأنابيب المرتبطة بالإدخال:
- لا يتم جمع البيانات مع عملية التدريب، ما يؤدي إلى وقت استجابة I/O. على سبيل المثال، قد تؤدي قراءة بيانات التدريب عبر شبكة إلى ظهور وقت استجابة I/O.
- تكلفة معالجة مُسبَقة للبيانات على الإنترنت يمكنك إجراء عملية المعالجة المسبقة بلا اتصال بالإنترنت وحفظ النتائج.
- عوائق المزامنة غير المقصودة التي تتداخل مع الجلب المسبق لمسار بيانات البيانات. على سبيل المثال، عند مزامنة المقاييس بين الجهاز والمضيف في CommonLoopUtils.
نقترح التدخلات التالية للأنابيب المرتبطة بالإدخال:
- مسار إدخال الأداة إلى نماذج الجلب المسبق (على سبيل المثال، tf.data.Dataset.prefetch).
- يجب إزالة البيانات الوصفية والميزات غير المستخدَمة من كل منها في أقرب وقت ممكن.
- يمكنك زيادة تكرار عدد المهام التي تؤدي إلى إنشاء أمثلة على مسار الإدخال، على سبيل المثال، باستخدام خدمة tf.data.
تقييم أداء النموذج
ملخّص: يمكنك إجراء تقييم بأحجام مجمّعة أكبر من التدريب. إجراء التقييمات على فترات خطوات منتظمة، وليس فواصل زمنية منتظمة
إعدادات التقييم
يمكنك استخدام الإعدادات التالية لتقييم أداء نماذجك:
- التقييم على الإنترنت: يمكنك جمع المقاييس عندما يعرض النموذج التوقعات في بيئة إنتاج. يوفر التقييم على الإنترنت بشكل عام تقييمًا أكثر واقعية لجودة النموذج لأنّه يتطابق مع طريقة استخدام النموذج.
- التقييم خارج إطار الإنترنت: يمكنك جمع المقاييس عند تشغيل النموذج في مركز التدريب على الإنترنت أو خارجه أو مجموعات الاختبار التي تمثّل بيئة الإنتاج. استنادًا إلى المشكلة، قد تكون عملية التقييم بلا اتصال بالإنترنت متورّطة إلى حد ما ومكلفة آليًا.
- التقييمات الدورية: يمكنك جمع المقاييس أثناء تدريب النموذج الذي قد يكون خادمًا وكيلاً للتقييم بلا اتصال بالإنترنت، و/أو في مجموعة فرعية من البيانات المستخدمة في التقييم بلا اتصال بالإنترنت. إنّ التقييمات الدورية هي الاختيار الأكثر عملية واقتصادية، ولكنها قد لا تمثّل بيئة الإنتاج بشكل كامل. سعى إلى استخدام خادم وكيل سريع للتقييم بلا اتصال بالإنترنت، بدون التخلي عن موثوقية الإشارة الواردة أثناء التدريب.
إعداد تقييمات دورية
نوصي بإجراء تقييمات دورية أثناء التدريب للأسباب التالية:
- مراقبة مستوى تقدُّم التدريب في الوقت الفعلي
- لتسهيل اختيار نقاط تفتيش النموذج بالأثر الرجعي
- لفحص منحنيات التدريب في نهاية التدريب.
تتمثّل أبسط عمليات الإعداد في إجراء كل من التدريب والتقييمات التقييمية ضمن مثيل الحوسبة نفسه، والتبديل بين التدريب والتقييم بشكل دوري. في هذه الحالة، يجب ألا يقل حجم الدفعة المُستخدَمة لإجراء التقييمات عن حجم الحزمة المستخدم في التدريب. ويرجع ذلك إلى أنك لست بحاجة إلى الحفاظ على عمليات تفعيل النماذج أثناء التقييم، ما يؤدي إلى خفض المتطلبات الحسابية لكل مثال.
إجراء تقييمات دورية على فترات زمنية منتظمة، وليس على فترات زمنية إنّ التقييم استنادًا إلى فترات زمنية قد يصعّب تفسير منحنيات التدريب، خاصةً عندما يكون التدريب وقاسًا من مهام استباقية التدريب ومشاكل وقت الاستجابة في الشبكة، وما إلى ذلك.
يمكن أن تشير الدورية من حيث التحقّق من المقاييس واختباراتها (عند استخدام مجموعة تدريب عشوائي، مجموعة التحقق من الصحة، تقسيم مجموعة الاختبار) إلى أخطاء التنفيذ، مثل:
- بيانات الاختبار المتداخلة مع بيانات التدريب
- لا يتم إجراء توزيع عشوائي لبيانات التدريب.
يمكن أن يسهّل التقييم على فترات زمنية منتظمة حلّ هذه المشاكل.
ويمكن أن تحدث مجموعات مجمّعة عندما لا تكون مجموعات التقييم قابلة للقسمة حسب حجم المجموعة. تأكَّد من أنّ الأمثلة المبطّنة المرجّحة بشكل صحيح (كما هو الحال في المتوسط المرجّح بدلاً من احتساب متوسط الخسارة على المجموعة) لمنع تحيّز وظيفة الخسارة. وغالبًا ما يمكنك منح هذه الأمثلة المبطّنة صفرًا.
احفظ معلومات كافية في كل تقييم لدعم التحليل بلا إنترنت. من الناحية المثالية، يمكنك حفظ عبارات البحث المقترحة على مجموعة مختارة من الأمثلة الفردية، لأنّها قد تكون مفيدة جدًا لتصحيح الأخطاء. يساعد إنشاء عناصر، مثل saveModels في تبسيط فحص مخصّص للنماذج بعد انتهاء مهام التقييم.
اختيار عيّنة لتقييم دوري
قد لا تعمل مهمة التقييم الدورية بسرعة كافية لاحتساب المقاييس في التقييم الكامل بلا اتصال بالإنترنت المحدّد في فترة زمنية معقولة. وغالبًا ما تتطلب هذه المشكلة أخذ عينات من البيانات لإجراء تقييم دوري. عند إنشاء مجموعة بيانات مستندة إلى عيّنات، ضع في اعتبارك المشاكل المتعلقة بحجم العينة والمخاوف الخاصة في مجموعات البيانات المتوازنة.
حجم العينة
تحقّق من أن الأداء الذي تم احتسابه في مجموعة البيانات المستندة إلى عيّنات والتي تستخدمها المهمة الدورية يتطابق مع الأداء في مجموعة التقييم بلا اتصال بالإنترنت بالكامل، أي تأكّد من عدم وجود أي تناقض بين مجموعة البيانات المستندة إلى عيّنة ومجموعة البيانات الكاملة.
يجب أن تكون مجموعة البيانات التي تستخدمها للتقييم الدورية كلاً من ما يلي:
- صغيرة بما يكفي لإنشاء نموذج للتوقعات بأكملها.
- كبيرة بما يكفي لتنفيذ كلا الإجراءين:
- قياس التحسينات التي تم إجراؤها على النموذج بدقة، أي عدم إرباك القياسات بسبب الضوضاء في التصنيف.
- الجمع بين مثل هذه التقييمات المتعددة على مستوى التجارب، ولا تزال توفر تقديرات دقيقة. وهذا الحجم كبير بما يكفي لتجنّب "الضبط" التكيُّفي مع عملية التحقّق التي يتم ضبطها بمرور الوقت بطريقة لا تعمِّم مجموعة اختبار ثابتة. ومع ذلك، فإن هذا الاهتمام نادرًا ما يثير المخاوف العملية.
مجموعات البيانات غير المتوازنة
بالنسبة إلى مجموعات البيانات غير المتوازنة، غالبًا ما يكون الأداء على فئات الأقل النادرة مزعجًا. بالنسبة إلى مجموعات البيانات التي تحتوي على عدد قليل فقط من أمثلة الأقليات، سجِّل عدد الأمثلة المتوقعة بشكل صحيح للحصول على مزيد من الإحصاءات حول تحسينات الدقة. على سبيل المثال، يبدو أنّ مستوى التحسّن البالغ 0.5 تأثيرًا مثيرًا، ولكن هل كان التحسّن ناتجًا عن صحة مثال آخر؟
حفظ نقاط التفتيش واختيار بأثر رجعي أفضل نقطة تفتيش
الملخّص: أجرِ تدريبًا على عدد ثابت من الخطوات، ثم اختَر أفضل نقطة ترجيع من نقطة التشغيل.
تدعم معظم أُطر عمل التعليم المعمّق نقطة التفتيش. وهذا يعني أنّ الحالة الحالية للنموذج يتم حفظها بشكل دوري على القرص. تتيح نقطة التفتيش المهمة للتدريب على حلّ المشاكل في انقطاع المثيلات. غالبًا ما تكون أفضل نقطة تفتيش هي آخر نقطة تفتيش، خاصةً عندما لا يستمر ارتفاع أداء مجموعة التحقّق بمرور الوقت ولكن يتقلّب حول قيمة معيّنة بدلاً من ذلك.
عليك إعداد المسار لتتبّع أفضل نقاط التفتيش التي تمت ملاحظتها حتى الآن أثناء التدريب. في نهاية التدريب، يعني اختيار النموذج ببساطة اختيار أفضل نقطة تفتيش. ونُطلق على هذا الأسلوب اختيار نقطة التحسّن المثلى بأثر رجعي. ولا يلزم عادةً دعم ميزة الإيقاف المبكر في وقت مبكر، لأنّك تحدّد مسبقًا ميزانية تجريبية وتحافظ على أفضل نقاط التدقيق التي تمّت ملاحظتها حتى الآن.
إعداد تتبع التجربة
الملخّص: عند تتبُّع التجارب المختلفة، تتبَّع عددًا من المتطلبات الأساسية، مثل أفضل أداء لنقطة الاختبار في الدراسة، ووصفًا موجزًا للدراسة.
ننصحك بتتبّع نتائج التجربة في جدول بيانات. غالبًا ما تتضمّن جداول البياناتنا الأعمدة التالية:
- اسم الدراسة
- رابط يؤدي إلى موضع تخزين الدراسة للدراسة.
- ملاحظات أو وصف موجز للدراسة.
- عدد المحاولات التجريبية
- الأداء على مجموعة التحقق من أفضل نقطة فحص في الدراسة
- أوامر أو ملاحظات إعادة إنتاج محدّدة حول الضرورة التي لم يتم إرسالها لبدء التدريب
ابحث عن نظام تتبع مناسب يلتقط المعلومات المعروضة على الأقل أعلاه. وقد لا تكون التجارب التي لم يتم تتبّعها متوفّرة أيضًا.
تفاصيل تنفيذ التجميع
ملخّص: في الوقت الحالي، يمكنك غالبًا استبدال تسويات المجموعة بـ LayerNorm، ولكن في الحالات التي لا يمكنك فيها استبدال هذا العنصر، تكون هناك تفاصيل مخادعة عند تغيير حجم الدفعة أو عدد المضيفين.
تتم تسوية عمليات التفعيل على دفعات بشكلٍ مجمّع باستخدام المتوسط والتباين على المجموعة الحالية. ومع ذلك، في وضع الأجهزة المتعددة، تختلف هذه الإحصاءات على كل جهاز ما لم تتم مزامنته بشكل صريح. تشير التقارير التقليدية (في الغالب على موقع NetNet) إلى أنّ حساب هذه الإحصاءات العادية باستخدام أمثلة يبلغ عددها 64 تقريبًا يحقّق أفضل أداء في الواقع. (اطّلِع على وصف توحيد مجموعة Ghost في التدريب على وقت أطول، والتعمّق بشكل أفضل: سد فجوة التعميم في التدريب المجمّع على الشبكات العصبونية). ويُعد فصل إجمالي حجم المجموعة وعدد الأمثلة المستخدمة لاحتساب إحصاءات المعيار المجمّعة مفيدًا بشكل خاص لمقارنات حجم المجموعات.
ويُرجى العِلم أنّ عمليات تنفيذ تجميع الأشباح لا تعالج دائمًا بشكل صحيح مع الحالة التي يكون فيها حجم المجموعة لكل جهاز أكبر من حجم المجموعة الافتراضية. في هذه الحالة، ستحتاج إلى إجراء عيّنة فرعية على كل جهاز للحصول على العدد الصحيح من أمثلة إحصاءات القواعد المجمّعة.
المتوسطات المتحركة الأُسّية (EMA) المستخدَمة في تسوية الاختبار المجمَّع في وضع الاختبار هي مجرد مجموعة خطيّة من إحصاءات التدريب. ولذلك، لن تحتاج إلا إلى مزامنة تقارير EMA قبل حفظها في نقاط التفتيش. ومع ذلك، لا تعمل بعض عمليات التنفيذ الشائعة لتسوّق الحُزم المجمّعة على مزامنة هذه الإشارات، إلا أنها تحفظ فقط EMA من الجهاز الأول.
اعتبارات المسارات المتعددة المضيفين
الملخّص: إنّ التدريب على مضيفات متعددة وعمليات التسجيل والدمج والتقسيم المرن وتقسيم البيانات يمكن أن يساعد في تسهيل ظهور الأخطاء.
يُرجى تنفيذ ما يلي في المسارات المتعددة المضيفين:
- تأكَّد من أنّ مسار التعلّم يسجّل ويقيم نقطة تفتيش على مضيف واحد فقط.
- مزامنة إحصاءات التسوية المجمّعة على مستوى المضيفات قبل التقييم أو وضع النقاط المرجعية
- ملفات البيانات المقسّمة على كل المضيفين بما أنّها تحسِّن الأداء في العادة
ملحّ: يجب أن يكون لديك بذور RNG متطابقة في كل المضيفين (لإعداد النموذج)، وأنّ هناك بذور مختلفة في كل المضيفات (لترتيب البيانات أو معالجتها مسبقًا). لذلك، احرص على وضع علامة عليها بشكل مناسب.