المَعلمات الفائقة هي متغيّرات تتحكم في جوانب مختلفة من التدريب. في ما يلي ثلاث مَعلمات فائقة شائعة:
في المقابل، المَعلمات هي المتغيّرات التي تشكِّل جزءًا من النموذج نفسه، مثل قيم الترجيح والانحياز. بعبارة أخرى، مَعلمات ضبط الخوارزميات هي قيم تتحكّم فيها، والمَعلمات هي قيم يحسبها النموذج أثناء التدريب.
معدّل التعلّم
معدل التعلّم هو رقم عشري متسلسل تحدّده وتؤثّر في سرعة تقارب النموذج. إذا كان معدّل التعلّم منخفضًا جدًا، يمكن أن يستغرق النموذج وقتًا طويلاً للتقارب. ومع ذلك، إذا كان معدّل التعلّم مرتفعًا جدًا، لن يستقر النموذج أبدًا، بل سيتأرجح حول الأوزان والانحياز الذي يقلل من الضرر. الهدف هو اختيار معدل تعلم ليس مرتفعًا جدًا أو منخفضًا جدًا حتى يتقارب النموذج بسرعة.
يحدّد معدّل التعلّم حجم التغييرات التي يجب إجراؤها على الأوزان والتحيّز أثناء كل خطوة من خطوات عملية التدرّج التنازلي. يُضاعِف النموذج التدرّج بمعدل التعلّم لتحديد مَعلمات النموذج (قيم الوزن والتحيّز) للتكرار التالي. في الخطوة الثالثة من تدرّج الانخفاض، يشير "المبلغ الصغير" للتحرك في اتجاه المنحنى التنازلي إلى معدّل التعلّم.
إنّ الفرق بين مَعلمات النموذج القديم ومَعلمات النموذج الجديد هو تناسبي مع منحدر دالة الخسارة. على سبيل المثال، إذا كان الانحدار كبيرًا، يخطّو النموذج خطوة كبيرة. إذا كان صغيرًا، يتم اتخاذ خطوة صغيرة. على سبيل المثال، إذا كان حجم التدرّج هو 2.5 وكان معدّل التعلّم هو 0.01، سيغيّر النموذج المَعلمة بمقدار 0.025.
يساعد معدّل التعلّم المثالي النموذج على التقارب خلال عدد معقول من التكرارات. في الشكل 21، يوضح منحنى الخسارة النموذج الذي يشهد تحسنًا كبيرًا خلال أول 20 تكرارًا قبل البدء في التقارب:
الشكل 21 رسم بياني للفقد يعرض نموذجًا تم تدريبه بمعدّل تعلُّم يتقارب بسرعة
في المقابل، يمكن أن يستغرق معدل التعلّم الذي يكون صغيرًا جدًا عدّة تكرارات لكي يتم التقارب. في الشكل 22، يُظهر منحنى الخسارة أنّ النموذج يُجري تحسينات بسيطة فقط بعد كلّ تكرار:
الشكل 22 رسم بياني للفقد يعرض نموذجًا تم تدريبه بمعدّل تعلُّم منخفض
معدل التعلم الكبير جدًا لا يتقارب أبدًا لأن كل تكرار يتسبب في الخسارة في الارتداد أو الزيادة المستمرة. في الشكل 23، يعرض منحنى الانحدار النموذج انخفاضًا ثم زيادةً في الانحدار بعد كل تكرار، وفي الشكل 24، يزداد الانحدار في التكرارات اللاحقة:
الشكل 23 رسم بياني للخسارة يعرض نموذجًا تم تدريبه بمعدّل تعلُّم كبير جدًا، حيث يتفاوت منحنى الخسارة بشكل كبير، ويرتفع وينخفض مع زيادة المرات المتكرّرة
الشكل 24 رسم بياني للخسارة يعرض نموذجًا تم تدريبه بمعدّل تعلُّم مرتفع جدًا، حيث يزداد منحنى الخسارة بشكل كبير في النُسخ اللاحقة
تمرين: التحقّق من فهمك
حجم الدفعة
حجم المجموعة عبارة عن معلَمة فائقة تشير إلى عدد الأمثلة التي يعالجها النموذج قبل تعديل معاملاته المرجحة وانحيازه. قد تعتقد أنّه على النموذج احتساب الخسارة لكل مثال في مجموعة البيانات قبل تعديل الأوزان والانحياز. ومع ذلك، عندما تحتوي مجموعة بيانات على مئات الآلاف أو حتى ملايين الأمثلة، لا يكون استخدام المجموعة الكاملة عمليًا.
هناك طريقتان شائعتان للحصول على التدرج الصحيح في المتوسط بدون الحاجة إلى النظر إلى كل مثال في مجموعة البيانات قبل تعديل القيم التقديرية والانحياز، وهما انحدار التدرج العشوائي وانحدار التدرج العشوائي المصغّر:
الانحدار العشوائي المتدرج (SGD): تستخدم خوارزمية انحدار التدرج العشوائي نموذجًا واحدًا فقط (حجم دفعة واحد) لكل تكرار. وبالنظر إلى التكرارات الكافية، تعمل SGD ولكنها مزعجة للغاية. يشير "الضوضاء" إلى الاختلافات أثناء التعليم التي تؤدي إلى زيادة الخسارة بدلاً من انخفاضها أثناء التكرار. يشير مصطلح "stochastic" إلى أن المثال الذي يتألف من كل دفعة يتم اختياره عشوائيًا.
لاحظ في الصورة التالية كيف يتفاوت الخسارة قليلاً عندما يُعدّل النموذج المَعلمات والتحيز باستخدام دالة SGD، ما قد يؤدي إلى حدوث تشويش في مخطّط خسائر النموذج:
الشكل 25: نموذج تم تدريبه باستخدام خوارزمية النزول المتدرج العشوائي (SGD) يعرض ضوضاء في منحنى الخسارة
تجدر الإشارة إلى أنّ استخدام انحدار التدرج العشوائي قد ينتج عنه تشويش في جميع أنحاء منحنى الخسارة بالكامل، وليس فقط بالقرب من التقارب.
خوارزمية انحدار التدرج العشوائي ذات الدفعة الصغيرة (SGD) بالنسبة إلى عدد نقاط البيانات $ N $، يمكن أن يكون حجم الحزمة أي عدد أكبر من 1 وأقل من $ N $. يختار النموذج الأمثلة المضمّنة في كل حزمة بشكل عشوائي، ويحسب متوسط معدّلات التزايد والنقصان، ثم يعدّل الأوزان والانحياز مرة واحدة لكل تكرار.
يعتمد تحديد عدد النماذج لكل دفعة على مجموعة البيانات وموارد الحوسبة المتاحة. بشكل عام، تعمل أحجام الدُفعات الصغيرة مثل SGD، وتعمل أحجام الدُفعات الأكبر مثل خورازمية انحدار التدرّج الكامل.
الشكل 26. تم تدريب النموذج باستخدام عملية SGD صغيرة.
عند تدريب نموذج، قد تعتقد أن الضوضاء هي خاصية غير مرغوب فيها يجب التخلص منها. ومع ذلك، يمكن أن يكون هناك كمية معيّنة من الضوضاء مفيدة. في الوحدات اللاحقة، ستتعرّف على كيفية مساعدة الضوضاء للنموذج في التعميم بشكل أفضل والعثور على الشبكة العصبية المثلى للوزن والانحياز.
الفترات
خلال التدريب، تعني الحقبة أنّ النموذج قد عالج كل مثال في مجموعة التدريب مرة واحدة. على سبيل المثال، إذا كانت مجموعة التدريب تتضمّن 1,000 مثال وحجم المجموعة المصغّرة هو 100 مثال، يحتاج النموذج إلى 10 iterations لإكمال دورة واحدة.
يتطلّب التدريب عادةً العديد من الفترات. وهذا يعني أنّ النظام يحتاج إلى معالجة كل مثال في مجموعة التدريب عدة مرات.
عدد دورات التدريب هو مَعلمة متغيرة تحدّدها قبل بدء النموذج في التدريب. ستحتاج في حالات كثيرة إلى اختبار عدد الفترات التي يستغرقها النموذج لتقارب. بشكل عام، ينتج عن المزيد من الحقبات نموذجًا أفضل، ولكن تدريبه يستغرق مزيدًا من الوقت.
الشكل 27 الدفعة الكاملة مقابل الدفعة الصغيرة
يوضّح الجدول التالي كيفية ارتباط حجم الحزمة وعدد دورات التدريب بعدد المرات التي يعدّل فيها النموذج مَعلماته.
نوع المجموعة | عند حدوث تحديثات للأوزان والتحيز |
---|---|
مجموعة كاملة | بعد أن يفحص النموذج جميع الأمثلة في مجموعة البيانات على سبيل المثال، إذا كانت مجموعة البيانات تحتوي على 1,000 مثال وتم تدريب النموذج على 20 دورة تدريبية، يعدّل النموذج الأوزان والانحياز 20 مرة، مرة واحدة لكل دورة تدريبية. |
النزول المتدرّج العشوائي | بعد أن يستعرض النموذج مثالاً واحدًا من مجموعة البيانات. على سبيل المثال، إذا كانت مجموعة البيانات تحتوي على 1,000 مثال وعملية تدريب لـ 20 حقبة، يعدّل النموذج القيم التقديرية والانحياز 20,000 مرة. |
النزول المتدرّج العشوائي ضمن دفعة صغيرة | بعد أن ينظر النموذج إلى الأمثلة في كل دفعة. على سبيل المثال، إذا كانت مجموعة البيانات تحتوي على 1,000 مثال، وحجم المجموعة هو 100، و يتم تدريب النموذج على مدار 20 دورة تدريبية، يعدّل النموذج الأوزان ويضبط الانحياز 200 مرة. |