الانحدار الخطي: المعلَمات الفائقة

المعلَمات الفائقة هي متغيّرات تتحكم في جوانب التدريب المختلفة. هناك ثلاثة معلَمات فرطية شائعة هي:

في المقابل، المَعلمات هي المختلفة، مثل الأوزان والتحيز، التي تشكل جزءًا من النموذج نفسه. ضِمن بمعنى آخر، المعلمات الفائقة هي قيم يمكنك التحكم فيها؛ المعلمات عبارة عن قيم الذي يحتسبه النموذج أثناء التطبيق.

معدّل التعلّم

معدّل التعلّم هو رقم النقطة العائمة الذي تحدده ويؤثر على مدى سرعة يتقارب النموذج. إذا كان معدّل التعلّم منخفضًا جدًا، قد يستغرق النموذج وقتًا طويلاً للتقاء. ومع ذلك، إذا كان معدل التعلم مرتفعًا للغاية، فإن النموذج لا لكنه بدلاً من ذلك يرتد حول الأوزان والتحيز الذي يقلل من الخسارة. الهدف هو اختيار معدل تعلم ليس مرتفعًا جدًا أو منخفضًا جدًا بحيث يتقارب النموذج بسرعة.

يحدد معدل التعلم حجم التغييرات التي يجب إجراؤها على معاملات الترجيح والتحيز خلال كل خطوة من خطوات عملية انحدار التدرج. يضرب النموذج التدرج حسب معدل التعلم لتحديد معاملات النموذج (الوزن وقيم التحيز) للتكرار التالي. في الخطوة الثالثة من التدرج تخفيض، "الكمية الصغيرة" للتحرك في الاتجاه للانحدار السالب إلى معدل التعلم.

الفرق بين معاملات النموذج القديم ومعاملات النموذج الجديد هو يتناسب مع انحدار دالة الخسارة. فعلى سبيل المثال، إذا كان الانحدار كبيرًا، فإن النموذج يأخذ خطوة كبيرة. إذا كانت صغيرة، ستستغرق خطوة صغيرة. بالنسبة على سبيل المثال، إذا كان حجم التدرج 2.5 ومعدل التعلم 0.01، فعندئذ يكون فسيغير النموذج المعلمة بمقدار 0.025.

يساعد معدّل التعلّم المثالي النموذج على التقارب ضمن عدد معقول التكرارات. وفي الشكل 21، يوضح منحنى الخسارة النموذج بشكل ملحوظ تحسن خلال أول 20 تكرارًا قبل البدء في التقارب:

الشكل 21. منحنى الخسارة الذي يوضّح انحدارًا شديدًا قبل الانحدار

الشكل 21. رسم بياني لفقدان البيانات يعرض نموذجًا مدرَّبًا باستخدام معدّل تعلُّم يتقارب بسرعة.

في المقابل، يمكن أن يستغرق معدل التعلم الصغير جدًا العديد من التكرارات وتقارب. وفي الشكل 22، يوضح منحنى الخسارة النموذج الذي يجعل النموذج طفيفًا التحسينات بعد كل تكرار:

الشكل 22. منحنى الخسارة الذي يوضّح انحدارًا بمقدار 45 درجة تقريبًا

الشكل 22. رسم بياني لفقدان البيانات يعرض نموذجًا تم تدريبه بمعدّل تعلُّم صغير

معدل التعلم الكبير جدًا لا يتقارب أبدًا لأن كل تكرار إما إلى ارتداد الخسارة أو زيادتها باستمرار. في الشكل 23، تمثل الخسارة يشير إلى انخفاض النموذج ثم زيادة الخسارة بعد كل تكرار، وفي الشكل 24، تزداد الخسارة في التكرارات اللاحقة:

الشكل 23. منحنى الخسارة الذي يُظهر خطًا متعرجًا لأعلى ولأسفل

الشكل 23. رسم بياني لفقدان البيانات يعرض نموذجًا مدرَّبًا بمعدّل تعلّم كبيرة جدًا، حيث يتذبذب منحنى الخسارة بشكل كبير، صعودًا ونزولاً عندما تزداد التكرارات.

الشكل 24. منحنى الخسارة الذي يُظهر ازدياد الخسارة في التكرارات اللاحقة

الشكل 24. رسم بياني لفقدان البيانات يعرض نموذجًا مدرَّبًا بمعدّل تعلّم كبير جدًا، حيث يزداد منحنى الخسارة بشكل كبير في التكرارات اللاحقة.

تمرين: التحقق من فهمك

ما معدل التعلم المثالي؟
يعتمد معدّل التعلّم المثالي على المشكلة.
سيكون لكل نموذج ومجموعة بيانات معدل تعلم مثالي خاص به.
0.01
1

حجم الدفعة

حجم المجموعة عبارة عن معلَمة فائقة يشير إلى عدد الأمثلة التي يعالجها النموذج قبل تحديث ترجيحاته والتحيز. قد تعتقد أن النموذج من المفترض أن يحسب الخسارة لكل كل مثال في مجموعة البيانات قبل تحديث الترجيحات والتحيز. ومع ذلك، عندما على مئات الآلاف أو حتى ملايين الأمثلة، وذلك باستخدام دفعة كاملة ليس عمليًا.

أسلوبان شائعان للحصول على التدرج الصحيح في المتوسط بدون الحاجة إلى نظرة على كل مثال في مجموعة البيانات قبل تحديث الأوزان والتحيز الانحدار العشوائي المتدرج وتدرج عشوائي بأعداد صغيرة الهبوط:

  • الانحدار العشوائي المتدرج (SGD): تستخدم خوارزمية انحدار التدرج العشوائي فقط مثال واحد (حجم دفعة واحد) لكل تكرار. بما يكفي التكرارات، وتعمل دالة SGD ولكنها مزعجة للغاية. "الضوضاء" إلى الاختلافات أثناء التدريب التي تتسبب في زيادة الخسارة بدلاً من انخفاضها أثناء والتكرار. مصطلح "stochastic" إلى أن المثال الوحيد الذي يتألف يتم اختيار كل دفعة بشكل عشوائي.

    لاحظ في الصورة التالية كيف تتغير نسبة الخسارة قليلاً بحسب النموذج ويحدِّث أوزانه وتحيزه باستخدام قيمة SGD، مما قد يؤدي إلى حدوث تشويش في الرسم البياني:

    الشكل 25. منحنى خسارة شديد الانحدار مستوٍ، ولكن مع الكثير من التقلبات الصغيرة.

    الشكل 25. نموذج مدرَّب باستخدام خوارزمية انحدار التدرج العشوائي (SGD) الضوضاء في منحنى الخسارة.

    ملاحظة: إنّ استخدام انحدار التدرج العشوائي قد ينتج عنه تشويش في جميع أنحاء منحنى الخسارة بالكامل، وليس التقارب فقط.

  • خوارزمية انحدار عشوائي متدرّجة ضمن دفعة صغيرة (SGD) صغيرة (SGD) صغيرة: دفعة صغيرة انحدار التدرج العشوائي يمثل حلاً وسطًا بين الدفعة الكاملة ومؤشر SGD. بالنسبة $ N $ عدد نقاط البيانات، يمكن أن يكون حجم الدفعة أي رقم أكبر من 1 وأقل من دولار شمالي دولار. يختار النموذج الأمثلة المضمنة في كل دفعة عشوائيًا، وتقدير متوسط تدرجها، ثم تحديث الأوزان والتحيز مرة واحدة لكل تكرار.

    يعتمد تحديد عدد الأمثلة لكل دفعة على مجموعة البيانات موارد الحوسبة المتاحة. بشكل عام، تتصرف أحجام الدفعات الصغيرة بالطريقة تتصرف أحجام الدُفعات الكبيرة وأحجام الدُفعات الأكبر مثل خورازمية انحدار التدرّج الكامل.

    الشكل 26. منحنى الخسارة الحاد الذي يبدأ في الانحدار، مع وجود تقلبات أصغر بكثير تقترب من التقارب.

    الشكل 26. تم تدريب النموذج باستخدام عملية SGD صغيرة.

عند تدريب أحد النماذج، قد تعتقد أن الضوضاء غير مرغوب فيها التي يجب التخلص منها. ومع ذلك، يمكن أن يؤدي قدر معين من الضوضاء سيكون شيئًا جيدًا. في الوحدات اللاحقة، سوف تتعلم كيف يمكن للتشويش أن يساعد النموذج في التعميم بشكل أفضل والعثور على الأوزان المثلى والتحيز في طريقة العصبية الشبكة.

الحقبات

أثناء التدريب، تعني الحقبة أن نموذج معالجة كل مثال في مجموعة التطبيق مرة واحدة. على سبيل المثال، يتم تعيين مجموعة تدريب تحتوي على 1000 مثال وحجم حزمة صغيرة من 100 مثال، سيأخذان التكرارات للنموذج 10 أكمل حقبة واحدة.

عادة ما يتطلب التدريب فترات عديدة. أي أن النظام يحتاج إلى معالجة كل مثال في مجموعة التدريب عدة مرات.

عدد الفترات هو معلَمة فائقة تحدّدها قبل بدء النموذج. التدريب. في كثير من الحالات، ستحتاج إلى تجربة عدد الفترات اللازمة لتقارب النموذج. بشكل عام، ينتج عن المزيد من الحقبات نموذجًا أفضل، ولكن كما يستغرق مزيدًا من الوقت للتدريب.

الشكل 27. الدفعة الكاملة هي مجموعة البيانات بأكملها، والدفعة الصغيرة هي مجموعة فرعية من مجموعة البيانات، والحقبة عبارة عن مرور كامل من خلال عشر دفعات صغيرة.

الشكل 27. الدفعة الكاملة مقابل الدفعة الصغيرة.

يوضح الجدول التالي كيفية ارتباط حجم الدفعة والحقبات بعدد عدد المرات التي يحدِّث فيها النموذج معاملاته.

نوع الدفعة عند حدوث تحديثات للأوزان والتحيز
مجموعة كاملة بعد أن يراجع النموذج جميع الأمثلة في مجموعة البيانات. على سبيل المثال: إذا كانت مجموعة البيانات تحتوي على 1000 مثال ويتدرب النموذج على 20 حقبة، يحدّث النموذج الأوزان والتحيز 20 مرة، مرة واحدة لكل حقبة.
النزول المتدرج العشوائي بعد أن يستعرض النموذج مثالاً واحدًا من مجموعة البيانات. فعلى سبيل المثال، إذا كانت مجموعة البيانات تحتوي على 1000 مثال وتمرين 20 فترة، يقوم النموذج بتحديث الأوزان والتحيز 20000 مرة.
نزول متدرّج عشوائي ضمن دفعة صغيرة بعد أن ينظر النموذج إلى الأمثلة في كل دفعة. على سبيل المثال: إذا كانت مجموعة البيانات تحتوي على 1000 مثال، وكان حجم الدفعة 100، يتدرب النموذج لمدة 20 حقبة، ويحدِّث النموذج الأوزان التحيز 200 مرة.

تمرين: التحقق من فهمك

1. ما هو حجم الدُفعة الأنسب عند استخدام عملة SGD الصغيرة؟
أحيانًا
يعتمد حجم الدفعة المثالي على مجموعة البيانات موارد الحوسبة
10 أمثلة لكل مجموعة
100 مثال لكل مجموعة
2. أيّ ممّا يلي يُعتبر صحيحًا؟
تُعد الدفعات الأكبر حجمًا غير مناسبة للبيانات التي تحتوي على العديد من القيم المتطرفة.
هذه العبارة خاطئة. من خلال متوسط المزيد من التدرجات معًا، يتم يمكن أن تساعد أحجام الدفعات في تقليل الآثار السلبية الناتجة عن وجود قيم استثنائية في البيانات.
يمكن أن يؤدي مضاعفة معدل التعلم إلى إبطاء التدريب.
هذه العبارة صحيحة. يمكن أن يؤدي مضاعفة معدل التعلم إلى معدل تعلم كبير جدًا، وبالتالي يتسبب في إلى "الارتداد" مما يزيد من مقدار الوقت اللازم للتقارب. وكما هو الحال دائمًا، تعتمد أفضل مُدخلات الدوال على مجموعة البيانات موارد الحوسبة المتاحة.