غابة عشوائية

هذا صوت أوكس.

صورة قديمة لثور ثور قديم

الشكل 19. أكس.

 

في عام 1906، تم إجراء مسابقة تقييم الوزن في إنجلترا. خمّن المشاركون 787 وزن ثور. كان متوسط الخطأ للوسائل الفردية 37 رطلاً (الخطأ بنسبة 3.1%). ومع ذلك، كان متوسط قيمة التخمينات يبلغ 9 رطل فقط من الوزن الفعلي للثور (1198 رطل)، وهو خطأ يبلغ 0.7% فقط.

مدرّج تكراري لتخمين فردي، يعرض معظم التخمينات مجمّعة حول الوزن الفعلي للثور.

الشكل 20. المدرّج التكراري لتخمين الوزن الفردي.

 

وتوضّح هذه الحكاية حكمة الجمهور: في مواقف معيّنة، يقدّم الرأي الجماعي رأيًا جيدًا جدًا.

من الناحية الرياضية، يمكن تصميم قاعدة حكمة الجماهير باستخدام مبرهنة الحد المركزي: بشكلٍ متكرّر، يخطئ الخطأ التربيعي بين القيمة ومتوسّط الضجيج العددي لهذه القيمة. ومع ذلك، إذا لم تكن المتغيرات مستقلة، يكون التباين أكبر.

في تعلُّم الآلة، تمثّل المجموعة مجموعة من النماذج التي يتم حساب متوسط توقعاتها (أو التي يتم تجميعها بطريقة ما). إذا كانت نماذج المجموعة مختلفة بما يكفي بدون أن تكون سيئة بشكل فردي، ستكون جودة المجموعة أفضل بشكل عام من جودة كل نموذج. وتتطلب المجموعة المزيد من التدريب والاستنتاج مقارنةً بنموذج واحد. في النهاية، عليك تقديم التدريب والاستنتاج على عدة نماذج بدلاً من استخدام نموذج واحد.

بشكل غير رسمي، للحصول على أفضل مجموعة، يجب أن تكون النماذج الفردية مستقلة. على سبيل المثال، إنّ مجموعة مؤلفة من 10 نماذج من النماذج نفسها (أي غير المستقلة إطلاقًا) لن تكون أفضل من النموذج الفردي. من ناحية أخرى، قد يعني فرض نماذج مستقلة أن تجعلها أسوأ. يتطلّب التجميع الفعّال تحقيق التوازن بين استقلالية النموذج وجودة نماذجه الفرعية.