المَعلمات الفائقة هي متغيّرات تتحكم في جوانب مختلفة من التدريب. في ما يلي ثلاث مَعلمات فائقة شائعة:
في المقابل، المَعلمات هي المتغيّرات، مثل الأوزان والانحياز، التي تشكّل جزءًا من النموذج نفسه. بعبارة أخرى، مَعلمات الضبط هي قيم تتحكّم فيها، والمَعلمات هي قيم يحسبها النموذج أثناء التدريب.
معدّل التعلّم
معدل التعلّم هو رقم عشري متسلسل تحدّده أنت ويؤثّر في سرعة تقارب النموذج. إذا كان معدّل التعلّم منخفضًا جدًا، يمكن أن يستغرق النموذج وقتًا طويلاً للتقارب. ومع ذلك، إذا كان معدّل التعلّم مرتفعًا جدًا، لن يتم أبدًا تقارب النموذج، بل سيتأرجح بدلاً من ذلك حول الأوزان والانحياز الذي يقلل من الخسارة. والهدف هو اختيار معدّل تعلُّم ليس مرتفعًا جدًا أو منخفضًا جدًا لكي يتقارب النموذج بسرعة.
يحدّد معدّل التعلّم حجم التغييرات التي يجب إجراؤها على الأوزان والتحيّز أثناء كل خطوة من خطوات عملية التدرّج التنازلي. يُضاعِف النموذج التدرّج بمعدل التعلّم لتحديد مَعلمات النموذج (قيم الوزن والانحياز) للتكرار التالي. في الخطوة الثالثة من تدرّج الانخفاض، يشير "المبلغ الصغير" للتحرك في اتجاه المنحنى التنازلي إلى معدّل التعلّم.
إنّ الفرق بين مَعلمات النموذج القديم ومَعلمات النموذج الجديد هو تناسبي مع منحدر دالة الخسارة. على سبيل المثال، إذا كان الانحدار كبيرًا، يخطّو النموذج خطوة كبيرة. إذا كان صغيرًا، يتم اتخاذ خطوة صغيرة. على سبيل المثال، إذا كان حجم التدرّج هو 2.5 وكان معدّل التعلّم هو 0.01، سيغيّر النموذج المَعلمة بمقدار 0.025.
يساعد معدّل التعلّم المثالي النموذج على التقارب خلال عدد معقول من التكرارات. في الشكل 21، يُظهر منحنى الخسارة تحسُّنًا ملحوظًا في النموذج أثناء أوّل 20 تكرارًا قبل بدء التقارب:
الشكل 21 رسم بياني للفقد يعرض نموذجًا تم تدريبه بمعدّل تعلُّم يتقارب بسرعة
في المقابل، يمكن أن يستغرق معدل التعلّم الذي يكون صغيرًا جدًا عدّة تكرارات لكي يتم التقارب. في الشكل 22، يُظهر منحنى الخسارة أنّ النموذج يُجري تحسينات بسيطة فقط بعد كلّ تكرار:
الشكل 22 رسم بياني للفقد يعرض نموذجًا تم تدريبه بمعدّل تعلُّم منخفض
لا يتقارب معدل التعلّم الكبير جدًا أبدًا لأنّ كل تكرار إما يتسبب في تقلّب الخسارة أو زيادتها باستمرار. في الشكل 23، يعرض منحنى الانحدار النموذج انخفاضًا ثم زيادةً في الانحدار بعد كل تكرار، وفي الشكل 24، يزداد الانحدار في عمليات التكرار اللاحقة:
الشكل 23 رسم بياني للخسارة يعرض نموذجًا تم تدريبه بمعدّل تعلُّم كبير جدًا، حيث يتفاوت منحنى الخسارة بشكل كبير، ويرتفع وينخفض مع زيادة المرات المتكرّرة
الشكل 24 رسم بياني للخسارة يعرض نموذجًا تم تدريبه بمعدّل تعلُّم كبير جدًا، حيث يزداد منحنى الخسارة بشكل كبير في النُسخ اللاحقة
تمرين: التحقّق من فهمك
حجم الدفعة
حجم الدُفعة هو مَعلمة متغيرة فائقة تشير إلى عدد عيّنات يعالجها النموذج قبل تعديل الأوزان والتحيّز. قد تعتقد أنّه على النموذج احتساب الخسارة لكل مثال في مجموعة البيانات قبل تعديل الأوزان والانحياز. ومع ذلك، عندما تحتوي مجموعة بيانات على مئات الآلاف أو حتى ملايين الأمثلة، لا يكون استخدام المجموعة الكاملة عمليًا.
هناك طريقتان شائعتان للحصول على التدرّج الصحيح في المتوسّط بدون الحاجة إلى الاطّلاع على كل مثال في مجموعة البيانات قبل تعديل الأوزان والانحياز، وهما التدرّج العشوائي للانحدار والتدرّج العشوائي للانحدار:
النزول المتدرج العشوائي (SGD): لا يستخدم النزول المتدرج العشوائي سوى مثال واحد (حجم دفعة واحد) لكل تكرار. مع إجراء عددٍ كافٍ من المرات، يعمل "التدريب الآلي للشبكة العصبية" ولكنّه يُحدث الكثير من الضوضاء. يشير "الضوضاء" إلى الاختلافات أثناء التعليم التي تؤدي إلى زيادة الخسارة بدلاً من انخفاضها أثناء التكرار. يشير مصطلح "عشوائي" إلى أنّه يتم اختيار المثال الوحيد الذي يتضمّن كل دفعة عشوائيًا.
لاحظ في الصورة التالية كيف يتفاوت الخسارة قليلاً عندما يُعدّل النموذج الميول والقيم المرجعية باستخدام دالة SGD، ما قد يؤدي إلى حدوث تشويش في مخطّط خسائر النموذج:
الشكل 25: نموذج تم تدريبه باستخدام خوارزمية النزول المتدرج العشوائي (SGD) يعرض ضوضاء في منحنى الخسارة
يُرجى العِلم أنّ استخدام طريقة التدرج العشوائي يمكن أن ينتج عنه تشويش على مستوى منحنى الخسارة بالكامل، وليس فقط بالقرب من نقطة التقارب.
النزول المتدرّج العشوائي ضمن دفعة صغيرة (mini-batch SGD): يمثّل النزول المتدرّج العشوائي ضمن دفعة صغيرة حلًا وسطًا بين النزول المتدرّج العشوائي والدفعة الكاملة. بالنسبة إلى عدد نقاط البيانات $ N $، يمكن أن يكون حجم الحزمة أي عدد أكبر من 1 وأقل من $ N $. يختار النموذج الأمثلة المضمّنة في كل حزمة بشكل عشوائي، ويحسب متوسط معدّلات التزايد والنقصان، ثم يعدّل الأوزان والانحياز مرة واحدة لكل تكرار.
يعتمد تحديد عدد النماذج لكل دفعة على مجموعة البيانات وموارد الحوسبة المتاحة. بشكل عام، تتصرف أحجام الحِزم الصغيرة مثل الطريقة المتّبعة في "التدريب الآلي للشبكات العصبية"، وتتصرف أحجام الحِزم الأكبر مثل طريقة "التدرّج التنازلي للحِزم الكاملة".
الشكل 26 نموذج تم تدريبه باستخدام أسلوب "النزول المتدرّج العشوائي ضمن دفعة صغيرة"
عند تدريب نموذج، قد تعتقد أنّ الضوضاء هي صفة غير مرغوب فيها ويجب التخلص منها. ومع ذلك، يمكن أن يكون هناك قدر معيّن من الضوضاء مفيدًا. في الوحدات اللاحقة، ستتعرّف على كيفية مساعدة الضوضاء للنموذج في التعميم بشكل أفضل والعثور على الشبكة العصبية المثلى للوزن والانحياز.
الفترات
أثناء التدريب، يعني الدورة التدريبية أنّه تمّت معالجة كل مثال في مجموعة التدريب مرّة واحدة من قِبل النموذج. على سبيل المثال، إذا كانت مجموعة التدريب تتضمّن 1,000 مثال وحجم المجموعة المصغّرة هو 100 مثال، يحتاج النموذج إلى 10 iterations لإكمال دورة واحدة.
يتطلّب التدريب عادةً العديد من الفترات. وهذا يعني أنّ النظام يحتاج إلى معالجة كل مثال في مجموعة التدريب عدة مرات.
عدد دورات التدريب هو مَعلمة متغيرة تحدّدها قبل بدء النموذج في التدريب. في كثير من الحالات، عليك تجربة عدد الفترات التي يستغرقها النموذج للتقارب. بشكل عام، يؤدي استخدام المزيد من الفترات إلى إنشاء نموذج أفضل، ولكنه يتطلب أيضًا مزيدًا من الوقت للتدريب.
الشكل 27 الدفعة الكاملة مقابل الدفعة الصغيرة
يوضّح الجدول التالي كيفية ارتباط حجم الحزمة وعدد دورات التدريب بعدد المرات التي يعدّل فيها النموذج مَعلماته.
نوع المجموعة | حالات تعديل الأوزان والانحيازات |
---|---|
مجموعة كاملة | بعد أن يفحص النموذج جميع الأمثلة في مجموعة البيانات على سبيل المثال، إذا كانت مجموعة البيانات تحتوي على 1,000 مثال وتم تدريب النموذج على 20 دورة تدريبية، يعدّل النموذج الأوزان والانحياز 20 مرة، مرة واحدة لكل دورة تدريبية. |
النزول المتدرّج العشوائي | بعد أن ينظر النموذج إلى مثال واحد من مجموعة البيانات على سبيل المثال، إذا كانت مجموعة البيانات تحتوي على 1,000 مثال ويتم تدريبها على 20 دورة تدريبية، يعدّل النموذج الأوزان والانحياز 20,000 مرة. |
النزول المتدرّج العشوائي ضمن دفعة صغيرة | بعد أن يفحص النموذج الأمثلة في كل دفعة على سبيل المثال، إذا كانت مجموعة البيانات تحتوي على 1,000 مثال، وحجم المجموعة هو 100، و يتم تدريب النموذج على مدار 20 دورة تدريبية، يعدّل النموذج الأوزان ويضبط الانحياز 200 مرة. |