فرط التخصيص والضبط والإيقاف المبكر

على عكس الغابات العشوائية، يمكن أن تكون الأشجار المعزَّزة ومتدرجة اللون أكثر من اللازم. لذلك، بالنسبة إلى الشبكات العصبية، فيمكنك تطبيق التسوية والتوقف مبكرًا عن استخدام مجموعة بيانات التحقق من الصحة.

فعلى سبيل المثال، تعرض الأشكال التالية منحنيات الخسارة والدقة للتطبيق ومجموعات التحقق عند تطبيق أحد نماذج GBT. لاحظ مدى تباعد المنحنيات مما يشير إلى درجة عالية من فرط التخصيص.

مخططات خسارة التدريب وفقدان التحقق مقابل عدد
  وأشجار القرارات. ينخفض معدل فقدان التدريب تدريجيًا مع زيادة
  يزداد عدد أشجار القرارات. ومع ذلك، فإن فقدان التحقق يقل فقط
  حتى حوالي 40 شجرة قرارات. ومع أكثر من 40 شجرة قرارات،
  زيادة فقدان التحقق بالفعل. ومن خلال 400 شجرة قرارات،
  فالفجوة بين خسارة التدريب وفقدان التحقق من الصحة هي
  هائل.

الشكل 29. نسبة الخسارة مقابل عدد أشجار القرارات.

 

مخططات دقة التطبيق ودقة التحقق من الصحة مقابل عدد
  وأشجار القرارات. تزداد دقة التدريب تدريجيًا مع زيادة
  من أشجار القرارات تزداد، لتصل إلى ذروتها تقريبًا عند 1.0 عند 400
  وأشجار القرارات. تزيد دقة التحقق من الصحة إلى حوالي 0.86 عند 40
  أشجار القرارات، ثم تنخفض تدريجيًا إلى حوالي 0.83 عند 400 درجة
  الأشجار

الشكل 30. الدقة مقابل عدد أشجار القرارات.

 

تتضمّن معلمات الضبط الشائعة للأشجار المحسَّنة بالتدرج ما يلي:

  • أقصى عمق للشجرة.
  • معدل الانكماش.
  • يشير ذلك المصطلح إلى نسبة السمات التي يتم اختبارها في كل جزء.
  • معامل L1 وL2 في ما يتعلق بالخسارة.

لاحظ أن أشجار القرارات عمومًا تنمو أكثر ضبابية من الغابات العشوائية النماذج. بشكل افتراضي، تتم زراعة الأشجار المحسَّنة المتدرجة في TF-DF حتى عمق 6. ونظرًا لأن الأشجار ضحلة، فإن الحد الأدنى من الأمثلة لكل ورقة تأثير ضئيل ولا يتم ضبطها بشكل عام.

تعتبر الحاجة إلى مجموعة بيانات التحقق من الصحة مشكلة عندما يزداد عدد الأمثلة صغيرة. وبالتالي، من الشائع تطبيق نمط تمرين على الأشجار المعزَّزة داخل حلقة التحقق المتقاطع، أو لإيقاف الإيقاف المبكر عندما لا يتم يُعرف بعدم الإفراط في التوافق.

مثال على الاستخدام

في الفصل السابق، قمنا بتدريب غابة عشوائية على مجموعة بيانات صغيرة. في هذه الدورة، سوف نستبدل نموذج الغابة العشوائية بتدرج متدرج نموذج الأشجار:

model = tfdf.keras.GradientBoostedTreesModel()

# Part of the training dataset will be used as validation (and removed
# from training).
model.fit(tf_train_dataset)

# The user provides the validation dataset.
model.fit(tf_train_dataset, validation_data=tf_valid_dataset)

# Disable early stopping and the validation dataset. All the examples are
# used for training.
model.fit(
   tf_train_dataset,
   validation_ratio=0.0,
   early_stopping="NONE")
# Note: When "validation_ratio=0", early stopping is automatically disabled,
# so early_stopping="NONE" is redundant here.

الاستخدام والقيود

للأشجار المعزَّزة المتدرجة بعض الإيجابيات والسلبيات.

الإيجابيات

  • وكما هي الحال في أشجار القرارات، فإنها تدعم في الأصل البيانات العددية والفئوية الميزات وغالبًا ما لا تحتاج إلى معالجة مسبقة للميزات.
  • يكون للأشجار المحسّنة المتدرجة مُدخلات افتراضية عالية وكثيرًا ما تعطي نتائجك. ومع ذلك، يمكن أن يؤدي ضبط المُدخلات الفائقة هذه إلى تحسين النموذج.
  • تكون نماذج الأشجار المعززة ذات التدرج صغيرًا بشكل عام (من حيث عدد العُقد وفي ذاكرة) وسريعة التشغيل (غالبًا ما تكون واحدة أو بضع ميكرومتر / أمثلة).

السلبيات

  • يجب تدريب أشجار القرارات بشكل تسلسلي، مما قد يبطئ التدريب إلى حد كبير. ومع ذلك، فإن تباطؤ التدريب يعوض إلى حد ما وأحجام أشجار القرارات أصغر.
  • كما هو الحال في الغابات العشوائية، لا يمكن للأشجار ذات التدرج اللوني أن تتعلم وتعيد استخدام العناصر الداخلية والتمثيليات. كل شجرة قرارات (وكل فرع من فروع كل شجرة قرارات) إعادة التعرف على نمط مجموعة البيانات. في بعض مجموعات البيانات، لا سيما مجموعات البيانات ذات بيانات غير مهيكلة (مثل الصور والنصوص)، فإن هذا يؤدي إلى تعزيز التدرج الأشجار لإظهار نتائج أضعف من الطرق الأخرى.