كان علينا اختيار عدد من المعلمات الزائدة لتحديد النموذج وتدريبه. واعتمدنا على الحدس والأمثلة واقتراحات أفضل الممارسات. ومع ذلك، قد لا يؤدي اختيارنا الأول لقيم المعلَمة الفائقة إلى تحقيق أفضل النتائج. تمنحنا هذه الطريقة نقطة بداية جيدة للتدريب. تختلف كل مشكلة عن غيرها، وتساعد ضبط هذه المعلَمات الفائقة في تحسين نموذجنا لتمثيل جوانب المشكلة التي تواجهك بشكل أفضل. لنلقِ نظرة على بعض المعلَمات الفائقة التي استخدمناها وما يعنيه ذلك:
عدد الطبقات في النموذج: عدد الطبقات في الشبكة العصبونية هو مؤشر لمدى التعقيد. يجب أن نتوخى الحذر عند اختيار هذه القيمة. وسيسمح عدد كبير جدًا من الطبقات للنموذج بتعلّم الكثير من المعلومات حول بيانات التدريب، ما يتسبب في التجاوز. قلة عدد الطبقات يمكن أن تؤدي إلى الحدّ من قدرة التعلّم الخاصة بالنموذج، ما يؤدي إلى عدم ملاءمتها. بالنسبة إلى مجموعات بيانات تصنيف النصوص، أجرينا تجربة على استخدام MLP واحدة وثلاثين وثلاث طبقات. التي حققت النماذج ذات الطبقات الثلاث أداءً جيدًا، وفي بعض الحالات أفضل من النماذج الثلاث. كذلك، جرّبنا بروتوكول sepCNN مع أربع وستات طبقات، وكان أداء النماذج المكوّنة من أربع طبقات جيدًا.
عدد الوحدات لكل طبقة: يجب أن تتضمن الوحدات الموجودة في الطبقة المعلومات للتحويل الذي تجريه الطبقة. بالنسبة إلى الطبقة الأولى، يعتمد هذا على عدد الميزات. في الطبقات اللاحقة، يعتمد عدد الوحدات على اختيار توسيع التمثيل أو التعاقد عليه من الطبقة السابقة. حاوِل تقليل فقدان المعلومات بين الطبقات. لقد جرّبنا قيم الوحدات في النطاق
[8, 16, 32, 64]
، ونجحت وحدات 32/64.معدّل الانسحاب: تُستخدَم طبقات الخروج في النموذج للتسوية. تحدّد هذه النسبة جزءًا من المدخلات يُستخدم كتدبير وقائي لتجنّب الازدحام الزائد. النطاق المقترَح: 0.2–0.5.
معدّل التعلّم: هذا هو معدّل تغيّر قيمة ترجيح الشبكة العصبونية بين التكرارات. وقد يؤدي معدل التعلّم الكبير إلى حدوث تقلبات كبيرة في الأوزان، وقد لا نتمكّن أبدًا من العثور على القيم المثالية. يُعدّ معدّل التعلّم المنخفض جيدًا، ولكن يتطلّب النموذج مزيدًا من التكرارات للتقارب. من المفيد أن تبدأ على مستوى منخفض، مثلاً من 1 إلى 4. إذا كان التدريب بطيئًا جدًا، ارفع هذه القيمة. إذا لم يكن نموذج التعلُّم متعلّمًا، حاوِل تقليل معدّل التعلّم.
في ما يلي معلّمات زائدة أخرى عدّلناها وفقًا لنموذج sepCNN:
حجم النواة: حجم نافذة الالتفاف. القيم المقترَحة: 3 أو 5.
أبعاد التضمين: عدد الأبعاد التي نريد استخدامها لتمثيل تضمينات الكلمات، أي حجم كل متّجه كلمة. القيم المقترَحة: 50 إلى 300. في تجاربنا، استخدمنا إدراجات GloVe مع 200 بُعد باستخدام طبقة تضمين مدرّبة مسبقًا.
اختبر هذه المعلمات الفائقة وابحث عن الأفضل أداءً. بعد أن اختَرت المعلمات العالية الأداء الأفضل أداءً لحالة الاستخدام، تصبح نموذجك جاهزًا للنشر.