لأغراض هذا المستند:
إنّ الهدف النهائي من تطوير تعلُّم الآلة هو زيادة فائدة النموذج الذي يتم تطبيقه.
يمكنك عادةً استخدام الخطوات والمبادئ الأساسية نفسها في هذا القسم بشأن أي مشكلة في تعلُّم الآلة.
ويمكن الاطّلاع على الافتراضات التالية في هذا القسم:
- لديك حاليًا مسار تدريب مُدار بالكامل، بالإضافة إلى إعدادات تحصل على نتيجة معقولة.
- لديك موارد حاسوبية كافية لإجراء تجارب توليف مفيدة وتنفيذ العديد من مهام التدريب على الأقل بالتوازي.
استراتيجية الضبط المتزايدة
اقتراح: ابدأ بإعدادات بسيطة. بعد ذلك، أجرِ تحسينات تزايدية مع جمع إحصاءات عن المشكلة. تأكد من أنّ أي تحسّن يستند إلى أدلة قوية.
نفترض أنّ هدفك هو العثور على إعدادات تحقّق أفضل أداء لنموذجك. في بعض الأحيان، يتمثل هدفك في تحسين النموذج إلى أقصى حد قبل موعد نهائي ثابت. وفي حالات أخرى، يمكنك مواصلة تحسين النموذج إلى أجل غير مسمى، تحسين النموذج المستخدَم في الإنتاج باستمرار.
من المبدأ، يمكنك تعزيز الأداء إلى أقصى حد باستخدام خوارزمية للبحث تلقائيًا في المساحة الكاملة لعمليات الضبط المحتملة، ولكنّ ذلك ليس خيارًا عمليًا. إنّ المساحة المحتملة للإعدادات كبيرة جدًا ولا تتوفّر بعد أي خوارزميات معقّدة بما يكفي للبحث بفعالية في هذه المساحة بدون تدخّل بشري. وتعتمد معظم خوارزميات البحث التلقائية على مساحة بحث مصمَّمة يدويًا تحدد مجموعة من عمليات الضبط للبحث فيها، ويمكن أن تكون مساحات البحث هذه مهمة إلى حد ما.
إنّ الطريقة الأكثر فعالية لتحقيق أفضل أداء هي البدء بإعدادات بسيطة وإضافة ميزات بشكل تدريجي تدريجيًا وإجراء التحسينات اللازمة مع إضافة إحصاءات مفيدة عن المشكلة.
ننصح باستخدام خوارزميات البحث المبرمَجة في كل دورة ضبط، وتعديل مساحات البحث باستمرار مع نمو فهمك. وأثناء الاستكشاف، ستعثر بشكل طبيعي على إعدادات أفضل وبالتالي سيتم تحسين النموذج "الأفضل" باستمرار.
يشير مصطلح "الإطلاق" إلى تحديث لأفضل تنسيق لدينا (قد يكون أو لا يتوافق مع الإطلاق الفعلي لنموذج الإنتاج). بالنسبة إلى كل "عملية إطلاق"، يجب التأكد من أن التغيير يعتمد على أدلة قوية، وليس فقط فرصة عشوائية استنادًا إلى إعدادات الحظ، حتى لا تضيف تعقيدًا غير ضروري إلى مسار التعلّم.
وعلى مستوى عالٍ، تشمل استراتيجية التوليف المتزايدة تكرار الخطوات الأربع التالية:
- اختيار هدف للجولة القادمة من التجارب: تأكَّد من أنّ الهدف مُحدَّد النطاق بشكل مناسب.
- صمِّم الجولة التالية من التجارب. يمكنك تصميم مجموعة من التجارب التي تتقدّم نحو تحقيق هذا الهدف وتنفيذها.
- التعلّم من النتائج التجريبية قيّم التجربة في قائمة تحقق.
- حدِّد ما إذا كنت تريد اعتماد تغيير المرشح أم لا.
وتوضّح بقية هذا القسم تفاصيل هذه الاستراتيجية.
اختيار هدف للجولة القادمة من التجارب
إذا حاولت إضافة عدة ميزات أو الإجابة عن أسئلة متعددة في آنٍ واحد، قد لا تتمكن من توضيح التأثيرات المنفصلة في النتائج. تشمل الأهداف ما يلي:
- جرِّب تحسينًا محتملاً لمسار التعلّم (على سبيل المثال، أداة تقييم جديدة، وخيار معالجة مُسبَقة، وما إلى ذلك).
- فهم تأثير معلمة محدِّدة جدًا لنموذج معيّن (على سبيل المثال، وظيفة التفعيل)
- تقليل خطأ التحقّق
منح الأولوية للتقدّم الطويل الأجل بدلاً من التحسينات على أخطاء التحقّق على المدى القصير
ملخص: في معظم الأحيان، يكون هدفك الأساسي هو الحصول على إحصاءات حول مشكلة التوليف.
وننصح بقضاء معظم وقتك في الحصول على إحصاءات حول المشكلة والتركيز على مقارنة الوقت بأقل قدر ممكن من تحسين الأداء في مجموعة التحقق. بمعنى آخر، قضاء معظم الوقت في "الاستكشاف" وقليل فقط على "الاستكشاف". ويُعد فهم المشكلة أمرًا بالغ الأهمية لتحقيق الأداء النهائي إلى أقصى حد. إنّ إعطاء الأولوية للإحصاءات على المكاسب القصيرة المدى يساعد في تحقيق ما يلي:
- تجنَّب إطلاق تغييرات غير ضرورية تم رصدها أثناء تشغيل أداء جيد وليس مجرد حادثة تاريخية.
- حدِّد المَعلمات الفائقة الأكثر حساسية لخطأ التحقّق، والمَعلمات الفائقة التي تتفاعل معها أكثر من غيرها، وبالتالي يجب تعديلها معًا، والمَعلمات الفائقة الحساسة وغير النسبية نسبيًا للتغييرات الأخرى والتي يمكن إصلاحها بالتالي في التجارب المستقبلية.
- اقترِح ميزات جديدة محتملة لتجربتها، مثل أدوات الترتيب الجديدة عند حدوث مشكلة زائدة.
- تحديد الميزات التي لا تساعد وبالتالي يمكن إزالتها، ما يقلّل من تعقيد التجارب المستقبلية
- التعرّف على الحالات التي من المحتمل أن تكون فيها تشبُّعات التحسين في ضبط ضبط المَعلمات فائقة الدقة
- يمكنك تضييق نطاق مساحات البحث حول القيمة المثلى لتحسين كفاءة الضبط.
وأخيرًا، ستفهم المشكلة. بعد ذلك، يمكنك التركيز فقط على خطأ التحقق حتى إذا لم تكن التجارب مفيدة للغاية في ما يتعلق ببنية مشكلة التوليف.
تصميم الجولة التالية من التجارب
ملخّص: حدِّد المَعلمات الفائقة علميًا ومزعجًا والمعدّلات الفائقة المعلَّقة للهدف التجريبي. أنشئ تسلسلًا من الدراسات لمقارنة القيم المختلفة للمَعلمات الفائقة علميًا مع التحسين وفقًا للمَعلمات الفائقة في التشويش. اختَر مساحة البحث للمعلّمات الفائقة للموازنة بين تكاليف الموارد والقيمة العلمية.
تحديد المَعلمات الفائقة للضوضاء والعلمية والثابتة
بالنسبة إلى هدف معيّن، تندرج جميع المعلّمات الفائقة ضمن إحدى الفئات التالية:
- المَعلمات الفائقة العلمية هي تلك التي تحاول قياس تأثيرها على أداء النموذج.
- المَعلمات الفائقة للترددات هي تلك التي تحتاج إلى تحسين وفقًا لها من أجل مقارنة القيم المختلفة للمَعلمات الفائقة العلمية إلى حد ما. تتشابه معلَمات التمييز المزعجة مع المعلَمات المزعجة في الإحصاءات.
- تحتوي المَعلمات الثابتة الثابتة على قيم ثابتة في الجولة الحالية من التجارب. يجب ألا تتغيّر قيم المَعلمات الثابتة الثابتة عند مقارنة قيم مختلفة للمتغيّرات العلمية. ومن خلال إصلاح معلمات فائقة معيّنة لمجموعة من التجارب، يجب أن تقبل أن الاستنتاجات المستمدة من التجارب قد لا تكون صالحة للإعدادات الأخرى للمعلّمات الثابتة الثابتة. وبعبارة أخرى، تنشئ المعلّمات الناقصة الثابتة تنبيهات بشأن أي استنتاجات تحصل عليها من التجارب.
على سبيل المثال، لنفترض أن هدفك هو ما يلي:
ويُرجى تحديد ما إذا كان النموذج الذي يتضمّن طبقات أكثر إخفاءً يحتوي على خطأ أقل في عملية التحقق.
في هذه الحالة يكون:
- إنّ معدّل التعلُّم هو مَعلمة فائقة للإزعاج لأنّه لا يمكنك مقارنة النماذج بشكلٍ معقول إلا بأعداد مختلفة من الطبقات المخفية، وذلك في حال ضبط معدّل التعلُّم بشكل منفصل لكل عدد من الطبقات المخفية. (يعتمد معدل التعلّم الأمثل بشكل عام على بنية النموذج).
- يمكن أن تكون وظيفة التفعيل مَعلمة Hypervisor ثابتة إذا حدّدت في تجارب سابقة أنّ أفضل وظيفة تفعيل ليست حساسة لعمق النموذج. أو إذا كنت تريد تقييد استنتاجاتك بشأن عدد الطبقات المخفية لتغطية وظيفة التفعيل هذه. بدلاً من ذلك، يمكن أن تكون معلَمة فائقة مزعجة إذا كنت مستعدًا لضبطها بشكل منفصل لكل عدد من الطبقات المخفية.
يمكن أن تكون المَعلمة العالية للمعلَمة هي مَعلمة فائقة للترميز العلمي أو مَعلمة فائقة للإزعاج أو مَعلمة فائقة، ويمكن أن يتغيّر تصميم المعلَمة الفائقة المستوى وفقًا للهدف التجريبي. على سبيل المثال، يمكن أن تكون وظيفة التفعيل أيًا مما يلي:
- المعلمة الفائقة العلمية: هل ReLU أو تحليله خيار أفضل لمشكلتنا؟
- المعلمة الحساسة للتشويش: هل يُعتبر النموذج المكوّن من خمس طبقات أفضل من النموذج المكوّن من ست طبقات عند السماح بعدة وظائف تفعيل مختلفة؟
- معلمة ثابتة ثابتة: بالنسبة إلى شبكات ReLU، هل تساعد إضافة التسوية على مستوى مجموعة في موضع معيّن؟
عند تصميم جولة جديدة من التجارب:
- حدِّد المَعلمات العلمية العالية للهدف التجريبي. (في هذه المرحلة، يمكنك اعتبار جميع المَعلمات الفائقة الأخرى مزعجات فائقة).
- حوِّل بعض المَعلمات شديدة الضوضاء إلى مَعلمات فائقة ثابتة.
في حال استخدام عدد غير محدود من الموارد، يمكنك ترك جميع المَعلمات الفائقة غير العلمية كمعلمات معلمات مزعجة بحيث تخلو النتائج التي تستخرجها من تجاربك من التنبيهات بشأن قيم المَعلمات الثابتة الثابتة. ومع ذلك، كلما زاد عدد المعلمات الشديدة المزعجة التي تحاول ضبطها، زاد احتمال عدم تكرارها بشكل كافٍ لكل إعداد من معلمات Hyperspective العلمية وينتهي بك الحال إلى نتائج غير صحيحة من تجاربك. وكما هو موضّح في قسم لاحق، يمكنك التصدي لهذا الخطر من خلال زيادة الميزانية الحسابية. ومع ذلك، فعادةً ما يكون الحد الأقصى بميزانية المورد أقل من الحاجة إلى ضبط كل المعلمات العالية غير العلمية.
ننصح بتحويل مَعلمة مزدوجة مزعجة إلى مَعلمة Hypervisor ثابتة عندما تكون التنبيهات التي تم إصلاحها عن طريق إصلاحها أقل عبئًا من تكلفة تضمينها، كمَعلمة مزدوجة مزعجة. وكلما زاد تفاعل المعلَمة الفائقة للمعلَمين مع المعلَمات الفائقة علميًا، اتّضح أنّ قيمة هذه المعلَمات قد تؤدي إلى إلحاق ضرر أكبر بقيمها. على سبيل المثال، تعتمد أفضل قيمة لقوة تناقص الوزن على حجم النموذج، لذا فإن مقارنة أحجام النماذج المختلفة بافتراض قيمة واحدة محددة لتناقص الوزن لن تكون مفيدة جدًا.
بعض معلمات التحسين
كقاعدة عامة، تُعدّ بعض المَعلمات الفائقة للمعلِنين (مثل معدّل التعلُّم والزخم ومعلّمات الجدول الزمني لمعدّل التعلّم) والإصدارات التجريبية من "آدم" إصدارًا بديلاً مزعجًا لأنّهم يميلون إلى التفاعل أكثر مع التغييرات الأخرى. نادرًا ما تكون هذه المَعلمات الفائقة للمعلِمات العلميات المتقدمة لأن هدف مثل "ما هو أفضل معدل تعلُّم لمسار التعلّم الحالي؟" لا يقدّم كثيرًا من الإحصاءات. وأخيرًا، يمكن أن يتغير أفضل إعداد من خلال التغيير التالي في مسار الإجراءات على أي حال.
قد تحتاج إلى إصلاح بعض المَعلمات الزائدة للمُحسِّنات أحيانًا بسبب قيود الموارد أو الأدلة الفعّالة على أنها لا تتفاعل مع المَعلمات العلمية. ومع ذلك، يجب أن تفترض بشكل عام أنّه عليك ضبط المَعلمات الفائقة للمُحسِّن لإجراء مقارنات عادلة بين إعدادات مختلفة للمتغيّرات العلمية، وبالتالي يجب عدم إصلاحها. علاوةً على ذلك، ليس هناك سبب مفضّل لتفضيل قيمة مَعلمة فائقة للمُحسِّن بدلاً من قيمة أخرى. على سبيل المثال، لا تؤثر عادةً قيم المَعلمات الفائقة للمُحسِّن في التكلفة الحاسوبية للبطاقات أو التدرّجات المستقبلية بأي شكل من الأشكال.
اختيار المُحسِّن
عادةً ما يكون اختيار المُحسِّن إما:
- مَعلمة فائقة للمعرفة العلمية
- مَعلمة ثابتة
المحسّن هو مَعلم علمي فائق إذا كان هدفك التجريبي يشمل إجراء مقارنات عادلة بين مُحسِّنين مختلفين أو أكثر. مثلاً:
حدِّد محسِّن الأداء الذي يسجّل أقل خطأ في عملية التحقق عند اتّباع عدد معيّن من الخطوات.
يمكنك أيضًا بدلاً من ذلك جعل مُحسِّن الإحالات الناجحة معلمة ثابتة ثابتة لعدة أسباب، منها:
- وتشير التجارب السابقة إلى أنّ أفضل مُحسّن لمشكلة التوليف لا يؤثر سلبًا في المَعلمات العلمية الحالية.
- وتفضّل المقارنة بين قيم المَعلمات العلمية العلمية باستخدام هذا المُحسِّن لأن منحنيات التدريب أسهل في التفكير.
- ويُفضَّل استخدام أداة التحسين هذه لأنها تستخدم ذاكرة أقل من البدائل.
مَعلمات فائقة للإعداد
عادةً ما تكون المَعلمات اللطيفة التي تم تقديمها من خلال أسلوب منتظم هي معلمات فائقة للإزعاج. ومع ذلك، يكون خيار ما إذا كان سيتم تضمين أسلوب التسوية على الإطلاق إما علميًا أو ثابتًا.
على سبيل المثال، يؤدي تكرار عملية السحب إلى إضافة تعقيدات الرموز. لذلك، عند تحديد ما إذا كنت تريد تضمين تنظيم الانسحاب، يمكنك اختيار "عدم الانسحاب" مقابل "عدم انسحاب" معلمة علمية مرتفعة ولكن معدل الانسحاب معلمة مرتفعة للإزعاج. إذا قرّرت إضافة تنظيم الانسحاب إلى مسار التعلّم استنادًا إلى هذه التجربة، سيكون معدّل الانسحاب بمثابة مَعلمة زائدة مزعجة في التجارب المستقبلية.
مَعلمات فائقة في البنية
غالبًا ما تكون مَعلمات Hyper محدَّدة للمعلَمات الهندسية معلمات ثابتة أو ثابتة لأنّ تغييرات البنية تؤثر في تكاليف العرض والتدريب ووقت الاستجابة ومتطلبات الذاكرة. على سبيل المثال، يكون عدد الطبقات عادةً علميًا أو ثابتًا جدًا وقدرًا كبيرًا من ذلك، لأنّها غالبًا ما تنتج عنها عواقب مذهلة من حيث سرعة التدريب واستخدام الذاكرة.
المهام التي تعتمد على المعلمات العلمية العالية
في بعض الحالات، تعتمد مجموعات التشويش والمعلمات الفائقة الثابتة على قيم المعلَمات العلمية العالية. على سبيل المثال، لنفترض أنّك تحاول تحديد محسّن الأداء في زخم Nesterov وأنّ "آدم" يحقّق الحد الأدنى من الأخطاء في عملية التحقق. في هذه الحالة يكون:
- المعلَمة العلمية العالية هي المُحسِّن الذي يأخذ القيم
{"Nesterov_momentum", "Adam"}
- تقدّم القيمة
optimizer="Nesterov_momentum"
المعلَمات الناقصة{learning_rate, momentum}
، والتي قد تكون إزعاجًا أو معلمات ثابتة ثابتة. - تقدّم القيمة
optimizer="Adam"
المَعلمات الفائقة{learning_rate, beta1, beta2, epsilon}
، والتي قد تكون مزعجة أو عبارة عن مَعلمات فائقة ثابتة.
تجدر الإشارة إلى أنّ المَعلمات الفائقة الموجودة فقط لقيم معيّنة من المَعلمات العلمية العالية تُسمّى مشاطات فائقة للشروط.
لا تفترض أنّ هناك مَعلمتَان فائقتَا
للشرطة لأنّهما يحملان الاسم نفسه. في المثال السابق، تُعدّ المَعلمة Hypervisor المشروطة التي تحمل اسم learning_rate
مختلفة عن المَعلمة الزائدة للترميز
optimizer="Nesterov_momentum"
مقارنةً بالسمة optimizer="Adam"
. ويكون دورها مماثلاً (على الرغم من عدم تطابقه) في الخوارزميتَين، إلا أن نطاق القيم الذي يحقّق أداءً جيدًا في كلٍّ من أدوات التحسين يختلف عادةً من خلال عدة طلبات
من حيث القيمة.
إنشاء مجموعة من الدراسات
بعد تحديد المعلمات العلمية والهادئة المزعجة، يجب تصميم دراسة أو تسلسل للدراسات لإحراز التقدم في هدف التجربة. الدراسة تحدّد مجموعة من عمليات ضبط المَعلمات الفائقة التي سيتم تشغيلها لإجراء التحليل التالي. ويُطلق على كل إعدادات اسم فترة تجريبية. عادةً ما يتطلب إنشاء دراسة اختيار ما يلي:
- المعلمات العالية التي تختلف عبر التجارب.
- القيم التي يمكن أن تُستخدَمها هذه المعلَمات الفائقة (مساحة البحث)
- عدد الفترات التجريبية.
- خوارزمية بحث مبرمَجة تستند إلى عيّنات من العديد من التجارب في مساحة البحث
بدلاً من ذلك، يمكنك إنشاء دراسة عن طريق تحديد مجموعة عمليات ضبط المعلَمات الزائدة يدويًا.
الغرض من الدراسات هو:
- شغِّل مسار التعلّم باستخدام قيم مختلفة للمتغيّرات العلمية العلمية.
- "التحسين بعيدًا" (أو "التحسين من خلال" المَعلمات الفائقة للإزعاج) حتى تكون المقارنات بين القيم المختلفة للمَعلمات الفائقة العلمية عادلة قدر الإمكان.
في الحالات الأبسط، ستُجري دراسة منفصلة لكل ضبط للمعلَمات العلمية، حيث ترصد كل دراسة المعلَمات المزعجة وفقًا لها. على سبيل المثال، إذا كان هدفك هو تحديد أفضل مُحسِّن من إجمالي زخم Nesterov وآدم، يمكنك إنشاء دراستين:
- دراسة واحدة تكون فيها
optimizer="Nesterov_momentum"
والمَعلمات المزعجة المزعجة هي{learning_rate, momentum}
- دراسة أخرى تم فيها استخدام المَعلمات الفائقة للسمة
optimizer="Adam"
والمزعجة{learning_rate, beta1, beta2, epsilon}
يمكنك مقارنة المحسِّنَين عن طريق اختيار التجربة الأفضل أداءً من كل دراسة.
يمكنك استخدام أي خوارزمية تحسين خالية من التدرّج، بما في ذلك طرق مثل التحسين البايزي أو الخوارزميات التطوّرية، وذلك بهدف تحسين الأداء من خلال المَعلمات الفائقة للتشويش. ومع ذلك، نفضّل استخدام البحث شبه العشوائي في مرحلة الاستكشاف لإجراء عملية التوليف بسبب مجموعة متنوعة من المزايا التي تتوفّر في هذا الإعداد. بعد انتهاء الاستكشاف، ننصح باستخدام أحدث برامج تحسين بايزي (في حال توفّرها).
فكِّر في حالة أكثر تعقيدًا إذا كنت تريد مقارنة عدد كبير من قيم المَعلمات العلمية العالية، ولكن من غير العملي إجراء هذا العدد من الدراسات المستقلة. وفي هذه الحالة، يمكنك إجراء ما يلي:
- ضمِّن المَعلمات العلمية في مساحة البحث نفسها مثل المَعلمات اللطيفة المزعجة.
- استخدم خوارزمية البحث لأخذ عينات من قيم كلٍّ من المَعلمات العلمية المزعجة والمزعجة في دراسة واحدة.
عند اتّباع هذا النهج، يمكن أن تتسبب مَعلمات النص الفائق الشرطي في حدوث مشاكل. وبعد ذلك، من الصعب تحديد مساحة للبحث ما لم تكن مجموعة المَعلمات الفائقة للتشويش هي نفسها لجميع قيم المَعلمات الفائقة العلمية. في هذه الحالة، يفضّلنا أفضل استخدام البحث شبه العشوائي على أدوات تحسين الصناديق السوداء، لأنّه يضمن قيمًا مختلفة للمعلمات العلمية العالية بشكل موحد. بغض النظر عن خوارزمية البحث، تأكَّد من أنّها تبحث في المعلَمات العلمية بشكل موحّد.
حقِّق توازنًا بين التجارب الغنية بالمعلومات وبأسعار معقولة.
عند تصميم دراسة أو تسلسل للدراسات، خصِّص ميزانية محدودة لتحقيق الأهداف الثلاثة التالية بشكل مناسب:
- مقارنة القيم المختلفة بما يكفي من المعلمات العلمية العالية.
- ضبط المَعلمات اللطيفة المزعجة فوق مساحة بحث كبيرة بما يكفي
- يتم أخذ عينات من مساحة البحث للمَعلمات الفائقة الصاخبة بشكل كافٍ بما يكفي.
كلما نجحت في تحقيق هذه الأهداف الثلاثة، زادت الإحصاءات التي يمكنك استخراجها من التجربة. من خلال مقارنة أكبر عدد ممكن من قيم المَعلمات العلمية العالية، يمكن توسيع نطاق الإحصاءات التي تحصل عليها من التجربة.
إنّ تضمين أكبر قدر ممكن من المَعلمات المزعجة المزعجة والسماح بتفاوت كل مَعلمة مزعجة على نطاق واسع قد يؤدي إلى زيادة الثقة في توفّر قيمة "جيدة" للمَعلمات الفائقة المزعجة في مساحة البحث لكل مكوّنة من المَعلمات الفائقة العلمية. بخلاف ذلك، يمكنك إجراء مقارنات غير عادلة بين قيم المعلَمات العلمية العالية من خلال عدم البحث في المناطق المحتملة لمساحة المعلَمة الفائقة المزعجة والتي قد تكون فيها قيم أفضل لبعض قيم المعلَمات العلمية.
استخدِم عيّنة من البحث الزائد عن المَعلمات الفائقة المزعجة قدر الإمكان. يؤدي ذلك إلى زيادة الثقة في أن إجراء البحث سيعثر على أي إعدادات جيدة للمعلّمات المزعجة التي تحدث في مساحة البحث. بخلاف ذلك، يمكنك إجراء مقارنات غير عادلة بين قيم المَعلمات العلمية لأنّ بعض القيَم كانت محظوظة باستخدام عيّنات من المَعلمات الفائقة للمعايير.
للأسف، تتطلب التحسينات في أي من هذه السمات الثلاثة أيًا مما يلي:
- زيادة عدد الفترات التجريبية، وبالتالي زيادة تكلفة الموارد.
- جارٍ البحث عن طريقة لحفظ الموارد في إحدى السمات الأخرى
لكل مشكلة خصائصها الخاصة وقيودها الحاسوبية الخاصة بها، لذا يتطلب تخصيص الموارد على مستوى هذه الأهداف الثلاثة مستوى من معرفة النطاق. بعد إجراء دراسة، حاوِل دائمًا تكوين فكرة عمّا إذا كانت الدراسة قد ضبطت المعلَمات الفائقة المزعجة بشكل كافٍ. ويعني ذلك أنّ الدراسة بحثت في مساحة كبيرة بما يكفي بشكل كافٍ لمقارنة المعلمات العلمية العالية إلى حد ما (كما هو موضّح بالتفصيل في القسم التالي).
التعلّم من النتائج التجريبية
مقترح: بالإضافة إلى محاولة تحقيق الهدف العلمي الأصلي لكل مجموعة من التجارب، راجع قائمة تحقق بأسئلة إضافية. وفي حال اكتشاف مشاكل، راجِع التجارب وأعِد تنفيذها.
في النهاية، سيكون لكل مجموعة من التجارب هدف محدّد. وعليك تقييم الأدلة التي توفرها التجارب لتحقيق هذا الهدف. ومع ذلك، إذا طرحت الأسئلة الصحيحة، يمكنك غالبًا العثور على المشاكل التي يجب تصحيحها قبل أن تتمكّن مجموعة معيّنة من التجارب من تحقيق هدفها الأصلي. إذا لم تطرح هذه الأسئلة، قد تتوصل إلى استنتاجات غير صحيحة.
وبما أنّ إجراء التجارب قد يكون مكلفًا، عليك أيضًا استخراج إحصاءات مفيدة أخرى من كل مجموعة من التجارب، حتى إذا لم تكن هذه الإحصاءات ذات صلة بالهدف الحالي على الفور.
قبل تحليل مجموعة محددة من التجارب لتحقيق تقدّم نحو هدفها الأصلي، اطرح على نفسك الأسئلة الإضافية التالية:
- هل مساحة البحث كبيرة بما يكفي؟ وإذا كانت النقطة المثلى من الدراسة قريبة من حدود مساحة البحث بسمة واحدة أو أكثر، من المحتمل أن البحث ليس واسعًا بما يكفي. في هذه الحالة، أجرِ دراسة أخرى باستخدام مساحة بحث موسّعة.
- هل استخدمت عيّنات كافية من مساحة البحث؟ وإذا لم يكن لديك هدف، حاوِل تحقيق المزيد من النقاط أو عدم تحقيق أهدافك الطموحة.
- ما هو الجزء القليل من التجارب في كل دراسة؟ وهذا يعني أنّ التجارب قد تختلف عن بعضها أو تحصل على قيم سيئة حقًا أو أنّها لا تعمل على الإطلاق لأنّها تنتهك بعض القيود الضمنية؟ عندما يتعذّر إجراء نسبة كبيرة جدًا من النقاط في الدراسة، عليك تعديل مساحة البحث لتجنّب أخذ عيّنات من هذه النقاط، ويتطلب ذلك أحيانًا إعادة ضبط مساحة البحث من خلال إعادة ضبطها. وفي بعض الحالات، يمكن أن يشير عدد كبير من النقاط غير القابلة للتنفيذ إلى حدوث خطأ في رمز التدريب.
- هل يعرض النموذج مشاكل التحسين؟
- ما الذي يمكن تعلّمه من منحنيات التدريب لأفضل التجارب؟ على سبيل المثال، هل تتّبع أفضل التجارب أوقاتًا منحنية تدريبية تتوافق مع التدريب الزائد الزائد؟
إذا لزم الأمر، استنادًا إلى الإجابات عن الأسئلة السابقة، حسِّن أحدث الدراسة أو مجموعة من الدراسات لتحسين مساحة البحث و/أو أخذ عينات إضافية من التجارب، أو اتّخاذ إجراء تصحيحي آخر.
بعد الإجابة عن الأسئلة السابقة، يمكنك تقييم الدليل الذي تقدّمه التجارب نحو هدفك الأصلي، مثل تقييم ما إذا كان التغيير مفيدًا أم لا.
تحديد حدود مساحة البحث غير الصالحة
تكون مساحة البحث مريبة إذا كانت أفضل نقطة أخذت منها مساحة قريبة من حدودها. وقد تعثر على نقطة أفضل في حال توسيع نطاق البحث في هذا الاتجاه.
للاطّلاع على حدود مساحة البحث، ننصحك بالتخطيط لتجارب مكتملة على ما نُطلق عليه اسم مخططات محور المعلّمات الفائقة الأساسية. في هذه الرسم البياني، نخطّط قيمة هدف التحقّق مقارنةً بإحدى المَعلمات الفائقة العرض (مثل معدّل التعلُّم). تتطابق كل نقطة على الرسم البياني مع تجربة واحدة.
يجب أن تكون قيمة هدف التحقّق من كل تجربة هي عادةً أفضل قيمة تحققتها على مدار التدريب.
الشكل 1: أمثلة على حدود مساحة البحث غير الصالحة وحدود المساحة المقبولة للبحث
تعرض المخطّطات في الشكل 1 معدّل الخطأ (انخفاض أفضل) مقابل معدّل التعلّم الأولي. إذا كانت أفضل النقاط تتجمع نحو حافة مساحة بحث (في بعض الأبعاد)، قد تحتاج إلى توسيع حدود مساحة البحث إلى أن تصبح أفضل نقطة قابلة للتتبّع بالقرب من الحدود.
وغالبًا ما تشمل الدراسة تجارب "غير قابلة للتنفيذ" تؤدي إلى تداخل أو الحصول على نتائج سيئة جدًا (مع وضع علامة X على شكل أحمر اللون في الشكل 1). إذا تعذّر استخدام كل الفترات التجريبية لمعدّلات التعلّم التي تزيد عن قيمة حد معيّن، وإذا كانت التجارب التي تحقّق أفضل أداء لها معدّلات تعلُّم عند حافة هذه المنطقة، قد تواجه النموذج مشاكل تتعلّق بالثبات تمنعها من الوصول إلى معدلات التعلّم الأعلى.
عدم أخذ عينات كافية من النقاط في مساحة البحث
بشكلٍ عام، قد يكون من الصعب جدًا معرفة ما إذا كانت عيّنة البحث قد تم أخذ عينات كبيرة بما يكفي. 🤖 يُفضَّل إجراء المزيد من الفترات التجريبية بدلاً من تشغيل عدد أقل من التجارب، إلا أن المزيد من التجارب ينتج عنها تكلفة إضافية واضحة.
نظرًا لصعوبة معرفة ما إذا أضفت عيّنات كافية، ننصحك بما يلي:
- عيّن ما يمكنك تحمّله.
- من خلال معايرة ثقتك البسيطة بشكل واضح من خلال الاطّلاع بشكل متكرّر على مخطّطات محورية عالية الدقة ومحاولة التعرّف على عدد النقاط المتوفرة في المنطقة "الجيدة" من مساحة البحث
فحص منحنيات التدريب
ملخّص: يُعدّ فحص منحنيات الخسارة طريقة سهلة لتحديد أوضاع التعذّر الشائعة ويمكن أن يساعدك في تحديد أولويات الإجراءات التالية المحتملة.
في كثير من الحالات، يتطلب الهدف الأساسي لتجاربك مراعاة خطأ التحقق من كل تجربة فقط. ومع ذلك، يجب توخّي الحذر عند تقليل كل فترة تجريبية إلى رقم واحد، لأن هذا التركيز يمكن أن يخفي تفاصيل مهمة حول ما يحدث تحت السطح. لكل دراسة، ننصح بشدة بالاطّلاع على منحنى الخسارة لأفضل التجارب على الأقل. حتى إذا لم يكن هذا ضروريًا لمعالجة الهدف التجريبي الأساسي، فإن فحص منحنيات الخسارة (بما في ذلك فقدان التدريب وفقدان التحقق) هو طريقة جيدة لتحديد أوضاع العطل الشائعة ويمكن أن يساعدك في تحديد أولويات الإجراءات التي يجب اتخاذها بعد ذلك.
عند فحص منحنيات الخسارة، ركِّز على الأسئلة التالية:
هل تُظهر أي من التجارب أنّها تواجه مشاكل زائدة؟ يحدث الإفراط في الإعداد الزائد عندما يبدأ خطأ التحقق في الارتفاع أثناء التدريب. في الإعدادات التجريبية التي يتم فيها تحسين المُعلمات الفائقة للتشويش من خلال اختيار التجربة "الأفضل" لكل إعداد من المَعلمات العلمية العلمية، ابحث عن المشاكل التي تنطوي على الاحتواء الزائد على الأقل لكل واحدة من أفضل التجارب مقارنةً بإعدادات المَعلمات الفائقة العلمية التي تقارِنها. إذا كان أي من أفضل التجارب يعرض مشكلة في التقييد، يُرجى تنفيذ أحد الإجراءين التاليين أو كليهما:
- إعادة إجراء التجربة باستخدام أساليب تنظيم إضافية
- أعِد تنظيم معلَمات التعديل الحالية قبل مقارنة قيم المَعلمات العلمية العلمية. وقد لا ينطبق هذا الأمر إذا كانت المعلّمات المضلّطة العلمية تحتوي على معلَمات تسوية، لأنّ ذلك لن يكون مفاجئًا إذا نتج عن ذلك إعدادات منخفضة القوة لمعلمات التعديل هذه التي أدت إلى حدوث مشاكل زائدة.
غالبًا ما يكون الحد من الاحتواء الزائد أمرًا بسيطًا باستخدام أساليب شائعة في التنظيم، ما يؤدي إلى إضافة الحد الأدنى من تعقيدات الرموز أو إجراء عمليات حسابية إضافية (على سبيل المثال، تنظيم الإفلات أو تسوية التصنيفات أو تناقص الوزن). لذلك، عادةً ما يكون من الصعب إضافة عنصر واحد أو أكثر منها إلى الجولة التالية من التجارب. على سبيل المثال، إذا كانت المعلّمة الفائقة علميًا هي "عدد الطبقات المخفية" وكانت أفضل تجربة تستخدم أكبر عدد من الطبقات المخفية التي تُظهر مشاكل ملحّة، ننصح بإعادة المحاولة من خلال تنظيم إضافي بدلاً من اختيار عدد أقل من الطبقات المخفية على الفور.
حتى إذا لم تعرض أي من "الأفضل" تجارب فيها مشاكل كثيرة، قد تظل هناك مشكلة إذا حدثت في أي من التجارب. يؤدي اختيار أفضل فترة تجريبية إلى إيقاف عمليات الضبط التي تظهر زيادة كبيرة في عدد المشاكل وحلّها. بمعنى آخر، يؤدي اختيار أفضل إصدار تجريبي إلى تفضيل الإعدادات مع تنظيم أكبر. ومع ذلك، يمكن أن يؤدي أي شيء تزداد تدريبه إلى سوء أداء، كمنظم، حتى لو لم يكن مقصودًا بهذه الطريقة. على سبيل المثال، يمكن أن يؤدي اختيار معدّل تعلُّم أصغر إلى تنظيم التدريب من خلال تأجيل عملية التحسين، ولكننا لا نريد عادةً اختيار معدّل التعلّم بهذه الطريقة. تجدر الإشارة إلى أنه قد يتم اختيار التجربة "الأفضل" لكل إعداد لمعلَمات الهاشتاء العلمية بحيث تعطي الأفضلية لقيم "سيءة" لبعض المَعلمات الفائقة العلمية أو المزعجة.
هل هناك تباين عالي في الخطوات التفصيلية في التدريب أو التحقق من الصحة في مرحلة التدريب؟ وفي هذه الحالة، قد يؤثر ذلك في كليهما:
- قدرتك على مقارنة قيم مختلفة للمعلمات العلمية العلمية. ويرجع ذلك إلى أن كل فترة تجريبية تنتهي عشوائيًا بالخطوة "محظوظ" أو "غير محظوظ".
- إمكانية إعادة إنتاج نتيجة أفضل تجربة في مرحلة الإنتاج. ويرجع ذلك إلى أن نموذج الإنتاج قد لا ينتهي بخطوة "الحظ" نفسها كما في الدراسة.
إليك الأسباب الأكثر شيوعًا لتباين الخطوات التفصيلية:
- تباين التجميع بسبب أمثلة عشوائية للعينات من مجموعة التدريب لكل مجموعة.
- مجموعات تحقّق صغيرة
- استخدام معدل تعلّم متأخر جدًا في التدريب
سبل الانتصاف تشمل ما يلي:
- جارٍ زيادة حجم المجموعة.
- جارٍ الحصول على المزيد من بيانات التحقّق
- تناقص معدّل التعلّم
- استخدام متوسط Polyak
هل ما زالت التجارب في مرحلة التحسين في نهاية التدريب؟ إذا كان الأمر كذلك، فإنك تستخدم نظام "الحوسبة الحدية" وقد تستفيد من زيادة عدد خطوات التدريب أو تغيير الجدول الزمني لمعدّل التعلُّم.
هل كان مستوى الأداء في مجموعات التدريب والتحقّق مشبّعًا بوقت طويل قبل خطوة التدريب النهائية؟ إذا كان الأمر كذلك، يعني ذلك أنّك في نظام "غير مُلزم بالحوسبة" وأنّك قد تتمكّن من تقليل عدد خطوات التدريب.
بالإضافة إلى هذه القائمة، يمكن أن يتّضح أنّ العديد من السلوكيات تبدو واضحة عند فحص منحنيات الخسارة. على سبيل المثال، عادةً ما يشير انخفاض التدريب على التدريب أثناء التدريب إلى حدوث خلل في مسار التعلّم.
اكتشاف ما إذا كان التغيير مفيدًا في مخطّطات العزل
الشكل 2: مخطط العزل الذي يحقق أفضل قيمة لتناقص الوزن لدى ResNet-50 المدرّبة على ImageNet.
وفي كثير من الأحيان، يكون الهدف من مجموعة من التجارب هو مقارنة قيم مختلفة لمعلمة فائقة علمية. على سبيل المثال، لنفترض أنك تريد تحديد قيمة تناقص الوزن التي ينتج عنها أفضل خطأ في التحقق. حبكة العزل هي حالة خاصة لمخطط محور المعلمة الأساسي. تتطابق كل نقطة في مخطط العزل مع أداء أفضل تجربة على مستوى بعض (أو كل) المَعلمات الفائقة للتشويش. بمعنى آخر، يمكنك التخطيط لأداء النموذج بعد "تحسين الأداء" للاستفسارات المزعجة.
يساعد مخطط العزل على تبسيط مقارنة التفاح بين التفاح بين القيم المختلفة للمعلَمة العلمية العالية. على سبيل المثال، تكشف مخطط العزل في الشكل 2 قيمة تناقص الوزن التي تحقق أفضل أداء للتحقق من إعدادات محددة باستخدام ResNet-50 على ImageNet.
إذا كان الهدف هو تحديد ما إذا كان سيتم تضمين تناقص الوزن على الإطلاق أم لا، قارِن بين أفضل نقطة في هذا المخطّط بمقياس أساس تناقص الوزن. لإجراء مقارنة عادلة، يجب أيضًا ضبط معدّل التعلّم في المرجع بشكل متساوٍ.
عندما تكون لديك بيانات تم إنشاؤها من خلال بحث عشوائي (quasi) وكنت تفكّر في معلمة مرتفعة باستمرار لقطعة عزل، يمكنك تحديد مخطط العزل من خلال تجميع قيم المحور "س" لتخطيط المحور الفائق الأساسي وأخذ أفضل تجربة في كل شريحة رأسية تحدّدها الحِزم.
برمجة الأساليب المفيدة بشكل عام
كلما بذلت جهدًا كبيرًا لإنشاء المؤامرات، انخفض احتمال أن تنظر إليها كثيرًا كما يجب. لذلك، نقترح عليك إعداد بنية البنية الأساسية لإنتاج أكبر عدد ممكن من المواقع الإلكترونية تلقائيًا. وننصح على الأقل بإنشاء مخطّطات محورية إضافية للمعلّمات الأساسية تلقائيًا لجميع المعلَمات فائقة الدقة التي تختلف بها في تجربة.
بالإضافة إلى ذلك، ننصح بإنتاج منحنيات خسارة تلقائيًا في كل الفترات التجريبية. بالإضافة إلى ذلك، نقترح عليك تسهيل إمكانية العثور على أفضل التجارب القليلة في كل دراسة وفحص منحنيات الخسارة.
ويمكنك إضافة العديد من المخططات والرسوم البيانية المحتملة المفيدة الأخرى. لإعادة صياغة "جيفري هينتون":
وكلما تعلّمت محتوًى جديدًا، تعلّمت محتوًى جديدًا.
تحديد ما إذا كان سيتم اعتماد تغيير المرشح
الملخّص: عند تحديد ما إذا كنت تريد إجراء تغيير على نموذج النموذج أو إجراء التدريب أو استخدام إعدادات ضبط للمعلَمات الجديدة، يُرجى ملاحظة مصادر التباين المختلفة في نتائجك.
عند محاولة تحسين نموذج، قد يؤدي تغيير مرشح معيّن في البداية إلى حدوث خطأ تحقّق أفضل مقارنةً بإعدادات حالية. ومع ذلك، قد لا يؤدي تكرار التجربة إلى إبراز أي فائدة متسقة. بشكل غير رسمي، يمكن تجميع أهم مصادر النتائج غير الواضحة في الفئات العامة التالية:
- تباين إجراء التدريب أو تباين إعادة التدريب أو تباين التجربة: التباين بين عمليات التدريب التي تستخدم المعلَمات الفائقة نفسها ولكنها تحتوي على بذور عشوائية مختلفة. على سبيل المثال، إنّ عمليات الإعداد العشوائي المختلفة، وترتيب البيانات عشوائيًا، وأقنعة السحب، وأنماط زيادة البيانات، وترتيب العمليات الحسابية المتوازية، هي كلها مصادر محتملة لتباين التجربة.
- متغيّر البحث الفائق الأداء أو تباين الدراسة: هو الاختلاف في النتائج الناتجة عن الإجراء الذي نتّخذه لاختيار المعلَمات الفائقة الأداء. على سبيل المثال، يمكنك تنفيذ التجربة نفسها باستخدام مساحة بحث معيّنة ولكن مع بذينتين مختلفين للبحث شبه العشوائي وينتهي بك الأمر إلى اختيار قيم مختلطة مختلفة.
- جمع البيانات وتباين أخذ البيانات: التباين من أي نوع من التوزيع العشوائي إلى تدريب أو التحقق من صحة البيانات أو تباين البيانات بسبب عملية إنشاء بيانات التدريب بشكل أكثر عمومية.
صحيح، يمكنك مقارنة معدلات أخطاء التحقق من الصحة التي تم تقديرها في مجموعة محدّدة من عمليات التحقق باستخدام اختبارات إحصائية موثوقة. ومع ذلك، في كثير من الأحيان يمكن أن يؤدي تباين التجربة فقط إلى ظهور اختلافات ذات دلالة إحصائية بين نموذجين مدرَّبين مختلفين يستخدمان إعدادات المَعلمات الفائقة نفسها.
نحن مهتمون للغاية بتباين الدراسة عند محاولة الوصول إلى استنتاجات تتجاوز مستوى نقطة فردية في مساحة المعلمات العالية. ويعتمد تباين الدراسة على عدد التجارب ومساحة البحث. لقد لاحظنا حالات يكون فيها تباين الدراسة أكبر من تباين التجربة والحالات التي يكون فيها التباين أصغر بكثير. ولذلك، قبل اعتماد تغيير المرشح، ننصحك بتشغيل أفضل تجربة لمدة N لنصف تباين التشغيل التجريبي. في العادة، لا يمكنك إعادة تحويل تباين التجربة إلا بعد التغييرات الرئيسية على مسار التعلّم، ولكن قد تحتاج إلى تقديرات أحدث في بعض الحالات. وفي التطبيقات الأخرى، يُعدّ تحديد تباين الفترة التجريبية مكلفًا للغاية.
على الرغم من أنك لا تريد سوى اعتماد التغييرات (بما في ذلك تكوينات مَعلمات فائقة الجديدة) التي ينتج عنها تحسينات حقيقية، إلا أن طلب ضمان كامل بأن تغييرًا معيّنًا ليس صحيحًا أيضًا. وبالتالي، إذا كانت نقطة "مَعلمة فائقة" جديدة (أو تغيير آخر) تحصل على نتيجة أفضل من المرجع (مع الأخذ في الاعتبار تباين إعادة التدريب لكل من النقطة الجديدة والخط القاعدي بأفضل شكل ممكن)، من المفترض أن تعتمدها كالمرجع الجديد للمقارنات المستقبلية. ومع ذلك، ننصحك باستخدام التغييرات التي تنتج تحسينات أفضل من أي تعقيدات تضيفها.
بعد انتهاء الاستكشاف
ملخّص: تُعد أدوات التحسين من تصميم بايز خيارًا جاذبًا بعد الانتهاء من البحث عن مساحات البحث الجيّدة وتحديد المَعلمات العالية الأداء التي تستحق التوليف.
وفي الوقت نفسه، ستتحوّل أولوياتك من الاطّلاع على مزيد من المعلومات حول مشكلة التوليف إلى تقديم أفضل الإعدادات لضبط الإعدادات أو إطلاقها أو استخدامها بأي طريقة أخرى. عند هذه المرحلة، يجب أن تتوفر مساحة بحث محسّنة تحتوي بشكل مريح على المنطقة المحلية حول أفضل تجربة تمت ملاحظتها، مع أخذ عينات كافية. من المفترض أن يكون عملك الاستقصائي قد كشف عن المعلمات الأكثر أهمية لتوليفها والنطاقات المنطقية التي يمكنك استخدامها لإنشاء مساحة بحث لإجراء دراسة مبرمَجة نهائية باستخدام أكبر ميزانية ممكنة للضبط.
بما أنّك لم تعُد مهتمًا بزيادة الإحصاءات بشأن مشكلة الضبط، لن يتم تطبيق العديد من مزايا البحث شبه العشوائي. ولذلك، عليك استخدام أدوات التحسين من بايز للعثور على أفضل إعدادات ضبط للمَعلمات فائقة الأداء. تُطبِّق أداة Open-Source Vizier مجموعة متنوعة من الخوارزميات المحسّنة لضبط نماذج تعلُّم الآلة، بما في ذلك خوارزميات أدوات Bayes.
لنفترض أن مساحة البحث تحتوي على عدد غير متسق من النقاط المتباينة، وهو ما يعني نقاطًا تؤدي إلى فقدان تدريب NN أو حتى فقدان التدريب الانحرافات العادية الأكبر من المتوسط. في هذه الحالة، نقترح استخدام أدوات التحسين للصندوق الأسود الذي يعالج التجارب التي تتفاوت بشكل سليم. (يمكنك الاطّلاع على إجراء تحسين بايزي مع قيود غير معروفة للحصول على طريقة ممتازة للتعامل مع هذه المشكلة). يدعم تطبيق Vizeer المفتوح المصدر وضع علامة على النقاط المختلفة من خلال وضع علامة على التجارب باعتبارها غير قابلة للتنفيذ، مع أنّها قد لا تستخدم الطريقة المفضّلة لدينا من Gelbart et al.، بناءً على كيفية ضبطها.
وبعد انتهاء الاستكشاف، يمكنك التحقق من الأداء في مجموعة الاختبار. من حيث المبدأ، يمكنك أيضًا طي التحقق من صحة مجموعة التدريب وتدريب أفضل ضبط تم العثور عليه مع تحسين بايز. ومع ذلك، هذا الإجراء مناسب فقط في حال لم يتم إطلاق أي منتجات جديدة في المستقبل بعد حمل العمل المحدّد هذا (على سبيل المثال، مسابقة Kaggle لمرة واحدة).