غابات عشوائية
الغابة العشوائية (RF) هي مجموعة موحدة من أشجار القرارات يتم فيها تدريب كل شجرة قرارات باستخدام تشويش عشوائي معيّن. الغابات العشوائية هي الشكل الأكثر شيوعًا في مجموعة شجرة القرار. تناقش هذه الوحدة العديد من التقنيات لإنشاء أشجار قرارات مستقلة لتحسين احتمالات بناء غابة عشوائية فعالة.
طريقة التعبئة
تعني عملية جمع (ootstrap aggataggat) تدريب كل شجرة قرارات على مجموعة فرعية عشوائية من الأمثلة في مجموعة التطبيق. بعبارة أخرى، يتم تدريب كل شجرة قرارات في الغابة العشوائية على مجموعة فرعية مختلفة من الأمثلة.
أما طريقة التعبئة، فهي غريبة. يتم تدريب كل شجرة قرارات على نفس العدد من الأمثلة كما في مجموعة التدريب الأصلية. على سبيل المثال، إذا كانت مجموعة التدريب الأصلية تحتوي على 60 مثالاً، فسيتم تدريب كل شجرة قرار على 60 مثالاً. ومع ذلك، يؤدي وضع الأكياس إلى تدريب كل شجرة قرارات فقط على مجموعة فرعية (عادةً 67%) من هذه الأمثلة. لذلك، يجب إعادة استخدام بعض من هذه الأمثلة الأربعين في المجموعة الفرعية أثناء تدريب شجرة قرارات معيّنة. تسمى إعادة الاستخدام هذه تدريب "مع الاستبدال".
على سبيل المثال، يوضح الجدول 6 كيف يمكن للأكياس توزيع ستة أمثلة عبر ثلاث أشجار قرار. لاحظ ما يلي:
- تتدرب كل شجرة قرار على ما مجموعه ستة أمثلة.
- تتدرب كل شجرة قرار على مجموعة مختلفة من الأمثلة.
- تعيد كل شجرة قرار استخدام أمثلة معينة. على سبيل المثال، يستخدم المثال رقم 4 مرتين في شجرة قرارات التدريب 1؛ لذلك، يتضاعف الوزن الذي تم تعلمه للمثال رقم 4 بشكل فعال في شجرة القرار 1.
الجدول 6. تناول ستة أمثلة تدريب عبر ثلاث أشجار قرار. ويمثل كل رقم عدد المرات التي يتكرر فيها مثال تدريب معين (رقم من 1 إلى 6) في مجموعة بيانات التدريب لشجرة قرارات معينة (1-3).
أمثلة على التدريب | ||||||
---|---|---|---|---|---|---|
#1 | #2 | #3 | #4 | #5 | #6 | |
مجموعة البيانات الأصلية | 1 | 1 | 1 | 1 | 1 | 1 |
شجرة القرار 1 | 1 | 1 | 0 | 2 | 1 | 1 |
شجرة القرار 2 | 3 | 0 | 1 | 0 | 2 | 0 |
شجرة القرار 3 | 0 | 1 | 3 | 1 | 0 | 1 |
في الحقيبة، يتم تدريب كل شجرة قرارات دائمًا تقريبًا على العدد الإجمالي للأمثلة في مجموعة التدريب الأصلية. يؤدي تدريب كل شجرة قرار على المزيد من الأمثلة أو أمثلة أقل إلى خفض جودة الغابة العشوائية.
على الرغم من عدم وجودها في البحث العشوائي الأصلي للغابات، يتم أحيانًا أخذ عينات من الأمثلة "بدون استبدال"، وهذا يعني أنه لا يمكن تقديم مثال تدريب أكثر من مرة في مجموعة تدريب شجرة القرارات. على سبيل المثال، في الجدول السابق، ستكون جميع القيم إما 0 أو 1.
bootstrap_training_dataset=False
تحليل عيّنات السمات
يعني تحليل عيّنات السمات أنّه بدلاً من البحث عن أفضل شرط على جميع الميزات المتاحة، يتم اختبار مجموعة فرعية عشوائية من الميزات فقط في كل عقدة. يتم أخذ عينات من مجموعة الميزات التي تم اختبارها بشكل عشوائي في كل جزء من شجرة القرار.
توضّح شجرة القرارات التالية تحليل السمات أو الخصائص. هنا يتم تدريب شجرة القرار على 5 ميزات (f1-f5). تمثل العُقد الزرقاء الميزات التي تم اختبارها بينما لا يتم اختبار الميزات البيضاء. تم إنشاء الحالة من أفضل الميزات التي تم اختبارها (ممثلة بمخطط أحمر).
الشكل 21. تحليل عيّنات السمات:
تُعد نسبة تحليل عيّنات السمات إحدى المعامل الفائقة الأهمية للضبط. استخدم الشكل السابق نسبة حوالى 3⁄5. تختبر العديد من عمليات تنفيذ الغابات العشوائية، افتراضيًا، 1/3 من خصائص الانحدار والتربيع(عدد الميزات) للتصنيف.
في TF-DF، تتحكّم المعلَمات التالية في تحديد عيّنات السمات:
num_candidate_attributes
num_candidate_attributes_ratio
على سبيل المثال، إذا num_candidate_attributes_ratio=0.5
، سيتم اختبار نصف الميزات في كل نقطة.
إيقاف تسوية شجرة القرارات
يتم تدريب أشجار القرارات الفردية في غابة عشوائية بدون تشذيب. (راجع فرط التخصيص والتشذيب). وهذا ينتج عنه أشجار شديدة التعقيد ذات جودة تنبؤية سيئة. بدلاً من تنظيم الأشجار الفردية، يتم توحيد الأشجار مما ينتج عنه تنبؤات شاملة أكثر دقة.
expect اختلاف دقة تدريب واختبار الغابة العشوائية. تكون دقة التطبيق لغابة عشوائية أعلى بكثير بشكل عام (في بعض الأحيان تساوي 100٪). ومع ذلك، تكون دقة التدريب العالية جدًا في الغابة العشوائية طبيعية ولا تشير إلى أن الغابة العشوائية مفرطة الاستيعاب.
يضمن مصدرا التوزيع العشوائي (عينة الأكياس وعيّنات السمات) الاستقلالية النسبية بين أشجار القرارات. تصحح هذه الاستقلالية فرط التخصيص في أشجار القرارات الفردية. وبالتالي، فإن المجموعة غير متناسقة بشكل مفرط. وسنوضح هذا التأثير غير البديهي في الوحدة التالية.
يتم تدريب الغابات العشوائية النقية بدون حد أقصى للعمق أو الحد الأدنى من الملاحظات لكل ورقة. من الناحية العملية، يعد الحد من الحد الأقصى للعمق والحد الأدنى لعدد الملاحظات لكل ورقة مفيدة. بشكل افتراضي، تستخدم العديد من الغابات العشوائية الإعدادات الافتراضية التالية:
- أقصى عمق يبلغ حوالى 16
- حد أدنى من الملاحظات لكل ورقة شجر يبلغ حوالى 5.
يمكنك ضبط المعلَمات الفائقة هذه.
وضوح الضوضاء
لماذا قد يحسّن الضوضاء العشوائية جودة الغابة العشوائية؟ لتوضيح فوائد الضوضاء العشوائية، يوضح الشكل 22 تنبؤات شجرة قرارات كلاسيكية (مقلدة) وغابة عشوائية مدربة على بعض الأمثلة لمشكلة بسيطة ثنائية الأبعاد بنمط القطع الناقص.
من المعروف أن أنماط القطع الناقص يصعب على شجرة القرارات وخوارزميات غابات القرارات أن تتعلمها مع الظروف المحاذية للمحور، لذا فهي تقدم مثالاً جيدًا. لاحظ أن شجرة القرارات المشذّبة لا يمكن أن تحصل على نفس جودة التنبؤ مثل الغابة العشوائية.
الشكل 22. الحقيقة الفعلية مقابل التوقعات الناتجة عن شجرة قرارات واحدة مشتقة وتنبؤات ناتجة عن غابة عشوائية.
يوضح المخطط التالي تنبؤات أول ثلاث أشجار قرارات غير مشذبة من الغابة العشوائية؛ أي أن أشجار القرارات جميعها مدربة بمزيج من:
- وضع الأكياس
- تحليل عيّنات السمات
- إيقاف التشذيب
لاحِظ أنّ التوقّعات الفردية لأشجار القرارات الثلاث هذه أسوأ من توقّعات شجرة القرارات المقتطعة في الشكل السابق. ومع ذلك، ونظرًا لأن أخطاء أشجار القرارات الفردية مترابطة بشكل ضعيف، فإن أشجار القرار الثلاث تتحد في مجموعة واحدة لإنشاء تنبؤات فعالة.
الشكل 23. ثلاث أشجار قرارات غير مشذّبة ستشكّل مجموعة موحدة فعّالة.
نظرًا لأن أشجار القرارات في غابة عشوائية لا يتم تشذيبها، فإن تدريب غابة عشوائية لا يتطلب مجموعة بيانات للتحقق من الصحة. من الناحية العملية، وخاصة على مجموعات البيانات الصغيرة، يجب تدريب النماذج على جميع البيانات المتاحة.
عند تدريب غابة عشوائية، مع إضافة المزيد من أشجار القرارات، يقل الخطأ دائمًا؛ أي، تتحسن جودة النموذج دائمًا تقريبًا. نعم، فإن إضافة المزيد من أشجار القرارات دائمًا تقلل من خطأ الغابة العشوائية. بمعنى آخر، لا يمكن أن تؤدي إضافة المزيد من أشجار القرار إلى فرط توافق الغابة العشوائية. في مرحلة ما، يتوقف النموذج عن التحسين. كان ليو بريمان يقول: "الغابات العشوائية لا تفرط في التوافق، حيث تتم إضافة المزيد من الأشجار".
على سبيل المثال، يُظهر المخطط التالي تقييم الاختبار لنموذج غابة عشوائي مع إضافة المزيد من أشجار القرار. وتتحسن الدقة بسرعة إلى أن تهبط حول مستوى 0.865 تقريبًا. مع ذلك، لا تؤدي إضافة المزيد من أشجار القرارات إلى خفض الدقة، وبعبارة أخرى، لا يفرط النموذج في التوافق. يكون هذا السلوك (في الغالب) صحيحًا دائمًا ومستقلًا عن معلَمات الفائقة.
الشكل 24. وتظل الدقة ثابتة مع إضافة المزيد من أشجار القرارات إلى الغابة العشوائية.