الانحدار الخطي: المعلَمات الفائقة

المَعلمات الفائقة هي متغيّرات تتحكم في جوانب مختلفة من التدريب. في ما يلي ثلاث مَعلمات فائقة شائعة:

في المقابل، المَعلمات هي المتغيّرات، مثل الأوزان والانحياز، التي تشكّل جزءًا من النموذج نفسه. بعبارة أخرى، مَعلمات الضبط هي قيم تتحكّم فيها، والمَعلمات هي قيم يحسبها النموذج أثناء التدريب.

معدّل التعلّم

معدل التعلّم هو رقم عشري متسلسل تحدّده أنت ويؤثّر في سرعة تقارب النموذج. إذا كان معدّل التعلّم منخفضًا جدًا، يمكن أن يستغرق النموذج وقتًا طويلاً للتقارب. ومع ذلك، إذا كان معدّل التعلّم مرتفعًا جدًا، لن يتم أبدًا تقارب النموذج، بل سيتأرجح بدلاً من ذلك حول الأوزان والانحياز الذي يقلل من الخسارة. والهدف هو اختيار معدّل تعلُّم ليس مرتفعًا جدًا أو منخفضًا جدًا لكي يتقارب النموذج بسرعة.

يحدّد معدّل التعلّم حجم التغييرات التي يجب إجراؤها على الأوزان والتحيّز أثناء كل خطوة من خطوات عملية التدرّج التنازلي. يُضاعِف النموذج التدرّج بمعدل التعلّم لتحديد مَعلمات النموذج (قيم الوزن والانحياز) للتكرار التالي. في الخطوة الثالثة من تدرّج الانخفاض، يشير "المبلغ الصغير" للتحرك في اتجاه المنحنى التنازلي إلى معدّل التعلّم.

إنّ الفرق بين مَعلمات النموذج القديم ومَعلمات النموذج الجديد هو تناسبي مع منحدر دالة الخسارة. على سبيل المثال، إذا كان الانحدار كبيرًا، يخطّو النموذج خطوة كبيرة. إذا كان صغيرًا، يتم اتخاذ خطوة صغيرة. على سبيل المثال، إذا كان حجم التدرّج هو 2.5 وكان معدّل التعلّم هو 0.01، سيغيّر النموذج المَعلمة بمقدار 0.025.

يساعد معدّل التعلّم المثالي النموذج على التقارب خلال عدد معقول من التكرارات. في الشكل 21، يُظهر منحنى الخسارة تحسُّنًا ملحوظًا في النموذج أثناء أوّل 20 تكرارًا قبل بدء التقارب:

الشكل 21 منحنى الخسارة الذي يعرض منحدرًا حادًا قبل أن يستقر

الشكل 21 رسم بياني للفقد يعرض نموذجًا تم تدريبه بمعدّل تعلُّم يتقارب بسرعة

في المقابل، يمكن أن يستغرق معدل التعلّم الذي يكون صغيرًا جدًا عدّة تكرارات لكي يتم التقارب. في الشكل 22، يُظهر منحنى الخسارة أنّ النموذج يُجري تحسينات بسيطة فقط بعد كلّ تكرار:

الشكل 22 منحنى الخسارة الذي يعرض منحدرًا بزاوية 45 درجة تقريبًا

الشكل 22 رسم بياني للفقد يعرض نموذجًا تم تدريبه بمعدّل تعلُّم منخفض

لا يتقارب معدل التعلّم الكبير جدًا أبدًا لأنّ كل تكرار إما يتسبب في تقلّب الخسارة أو زيادتها باستمرار. في الشكل 23، يعرض منحنى الانحدار النموذج انخفاضًا ثم زيادةً في الانحدار بعد كل تكرار، وفي الشكل 24، يزداد الانحدار في عمليات التكرار اللاحقة:

الشكل 23 منحنى الخسارة الذي يعرض خطًا متقطّعًا للأعلى وللأسفل

الشكل 23 رسم بياني للخسارة يعرض نموذجًا تم تدريبه بمعدّل تعلُّم كبير جدًا، حيث يتفاوت منحنى الخسارة بشكل كبير، ويرتفع وينخفض مع زيادة المرات المتكرّرة

الشكل 24 منحنى الخسارة الذي يعرض زيادة الخسارة في النُسخ اللاحقة

الشكل 24 رسم بياني للخسارة يعرض نموذجًا تم تدريبه بمعدّل تعلُّم كبير جدًا، حيث يزداد منحنى الخسارة بشكل كبير في النُسخ اللاحقة

تمرين: التحقّق من فهمك

ما هو معدل التعلّم المثالي؟
يعتمد معدّل التعلّم المثالي على المشكلة.
سيكون لكل نموذج ومجموعة بيانات معدّل التعلّم المثالي الخاص به.
0.01
1

حجم الدفعة

حجم الدُفعة هو مَعلمة متغيرة فائقة تشير إلى عدد عيّنات يعالجها النموذج قبل تعديل الأوزان والتحيّز. قد تعتقد أنّه على النموذج احتساب الخسارة لكل مثال في مجموعة البيانات قبل تعديل الأوزان والانحياز. ومع ذلك، عندما تحتوي مجموعة بيانات على مئات الآلاف أو حتى ملايين الأمثلة، لا يكون استخدام المجموعة الكاملة عمليًا.

هناك طريقتان شائعتان للحصول على التدرّج الصحيح في المتوسّط بدون الحاجة إلى الاطّلاع على كل مثال في مجموعة البيانات قبل تعديل الأوزان والانحياز، وهما التدرّج العشوائي للانحدار والتدرّج العشوائي للانحدار:

  • النزول المتدرج العشوائي (SGD): لا يستخدم النزول المتدرج العشوائي سوى مثال واحد (حجم دفعة واحد) لكل تكرار. مع إجراء عددٍ كافٍ من المرات، يعمل "التدريب الآلي للشبكة العصبية" ولكنّه يُحدث الكثير من الضوضاء. يشير "الضوضاء" إلى الاختلافات أثناء التعليم التي تؤدي إلى زيادة الخسارة بدلاً من انخفاضها أثناء التكرار. يشير مصطلح "عشوائي" إلى أنّه يتم اختيار المثال الوحيد الذي يتضمّن كل دفعة عشوائيًا.

    لاحظ في الصورة التالية كيف يتفاوت الخسارة قليلاً عندما يُعدّل النموذج الميول والقيم المرجعية باستخدام دالة SGD، ما قد يؤدي إلى حدوث تشويش في مخطّط خسائر النموذج:

    الشكل 25 منحنى خسارة حاد يصبح مستوٍ، ولكن مع الكثير من التقلبات الصغيرة

    الشكل 25: نموذج تم تدريبه باستخدام خوارزمية النزول المتدرج العشوائي (SGD) يعرض ضوضاء في منحنى الخسارة

    يُرجى العِلم أنّ استخدام طريقة التدرج العشوائي يمكن أن ينتج عنه تشويش على مستوى منحنى الخسارة بالكامل، وليس فقط بالقرب من نقطة التقارب.

  • النزول المتدرّج العشوائي ضمن دفعة صغيرة (mini-batch SGD): يمثّل النزول المتدرّج العشوائي ضمن دفعة صغيرة حلًا وسطًا بين النزول المتدرّج العشوائي والدفعة الكاملة. بالنسبة إلى عدد نقاط البيانات $ N $، يمكن أن يكون حجم الحزمة أي عدد أكبر من 1 وأقل من $ N $. يختار النموذج الأمثلة المضمّنة في كل حزمة بشكل عشوائي، ويحسب متوسط معدّلات التزايد والنقصان، ثم يعدّل الأوزان والانحياز مرة واحدة لكل تكرار.

    يعتمد تحديد عدد النماذج لكل دفعة على مجموعة البيانات وموارد الحوسبة المتاحة. بشكل عام، تتصرف أحجام الحِزم الصغيرة مثل الطريقة المتّبعة في "التدريب الآلي للشبكات العصبية"، وتتصرف أحجام الحِزم الأكبر مثل طريقة "التدرّج التنازلي للحِزم الكاملة".

    الشكل 26 منحنى خسارة حاد يبدأ بالتسطّح، مع تقلّبات أصغر بكثير بالقرب من التقارب

    الشكل 26 نموذج تم تدريبه باستخدام أسلوب "النزول المتدرّج العشوائي ضمن دفعة صغيرة"

عند تدريب نموذج، قد تعتقد أنّ الضوضاء هي صفة غير مرغوب فيها ويجب التخلص منها. ومع ذلك، يمكن أن يكون هناك قدر معيّن من الضوضاء مفيدًا. في الوحدات اللاحقة، ستتعرّف على كيفية مساعدة الضوضاء للنموذج في التعميم بشكل أفضل والعثور على الشبكة العصبية المثلى للوزن والانحياز.

الفترات

أثناء التدريب، يعني الدورة التدريبية أنّه تمّت معالجة كل مثال في مجموعة التدريب مرّة واحدة من قِبل النموذج. على سبيل المثال، إذا كانت مجموعة التدريب تتضمّن 1,000 مثال وحجم المجموعة المصغّرة هو 100 مثال، يحتاج النموذج إلى 10 iterations لإكمال دورة واحدة.

يتطلّب التدريب عادةً العديد من الفترات. وهذا يعني أنّ النظام يحتاج إلى معالجة كل مثال في مجموعة التدريب عدة مرات.

عدد دورات التدريب هو مَعلمة متغيرة تحدّدها قبل بدء النموذج في التدريب. في كثير من الحالات، عليك تجربة عدد الفترات التي يستغرقها النموذج للتقارب. بشكل عام، يؤدي استخدام المزيد من الفترات إلى إنشاء نموذج أفضل، ولكنه يتطلب أيضًا مزيدًا من الوقت للتدريب.

الشكل 27 المجموعة الكاملة هي مجموعة البيانات بأكملها، والمجموعة الصغيرة هي مجموعة فرعية من مجموعة البيانات، والدورة هي جولة كاملة من خلال عشر مجموعات صغيرة.

الشكل 27 الدفعة الكاملة مقابل الدفعة الصغيرة

يوضّح الجدول التالي كيفية ارتباط حجم الحزمة وعدد دورات التدريب بعدد المرات التي يعدّل فيها النموذج مَعلماته.

نوع المجموعة حالات تعديل الأوزان والانحيازات
مجموعة كاملة بعد أن يفحص النموذج جميع الأمثلة في مجموعة البيانات على سبيل المثال، إذا كانت مجموعة البيانات تحتوي على 1,000 مثال وتم تدريب النموذج على 20 دورة تدريبية، يعدّل النموذج الأوزان والانحياز 20 مرة، مرة واحدة لكل دورة تدريبية.
النزول المتدرّج العشوائي بعد أن ينظر النموذج إلى مثال واحد من مجموعة البيانات على سبيل المثال، إذا كانت مجموعة البيانات تحتوي على 1,000 مثال ويتم تدريبها على 20 دورة تدريبية، يعدّل النموذج الأوزان والانحياز 20,000 مرة.
النزول المتدرّج العشوائي ضمن دفعة صغيرة بعد أن يفحص النموذج الأمثلة في كل دفعة على سبيل المثال، إذا كانت مجموعة البيانات تحتوي على 1,000 مثال، وحجم المجموعة هو 100، و يتم تدريب النموذج على مدار 20 دورة تدريبية، يعدّل النموذج الأوزان ويضبط الانحياز 200 مرة.

تمرين: التحقّق من فهمك

1. ما هو أفضل حجم للدفعة عند استخدام طريقة "النزول المتدرّج العشوائي ضمن دفعة صغيرة"؟
أحيانًا
يعتمد حجم الحزمة المثالي على مجموعة البيانات ومقدار موارد الحوسبة المتاحة.
10 أمثلة لكل دفعة
100 مثال لكل دفعة
2. أيّ ممّا يلي يُعتبر صحيحًا؟
تكون الحِزم الأكبر حجمًا غير مناسبة للبيانات التي تحتوي على العديد من القيم الشاذة.
هذه العبارة خاطئة. من خلال احتساب متوسط المزيد من التدرجات معًا، يمكن أن تساعد أحجام الحِزم الأكبر في تقليل الآثار السلبية الناتجة عن القيم الشاذة في البيانات.
يمكن أن يؤدي مضاعفة معدّل التعلّم إلى إبطاء عملية التدريب.
هذه العبارة صحيحة. يمكن أن يؤدي مضاعفة معدّل التعلّم إلى معدّل تعلّم كبير جدًا، ما يؤدي بالتالي إلى "تأرجح" الأوزان، ما يزيد من الوقت اللازم للتقارب. وكما هو الحال دائمًا، تعتمد أفضل المَعلمات الفائقة على مجموعة البيانات ومصادر الحوسبة المتاحة.