مسرد مصطلحات التعلم الآلي: غابات القرارات

تحتوي هذه الصفحة على مصطلحات مسرد مصطلحات أشجار القرارات. بالنسبة لجميع مصطلحات مسرد المصطلحات، انقر هنا.

A

تحليل عيّنات السمات

#df

تكتيك لتدريب غابة اتخاذ القرارات حيث يتم اتخاذ كل تنظر شجرة القرار في مجموعة فرعية عشوائية فقط من البيانات المحتملة الميزات عند التعرّف على الحالة. بوجه عام، يتم أخذ عينات من مجموعة فرعية مختلفة من الميزات لكل عقدة: في المقابل، عند تدريب شجرة قرارات دون أخذ عينات السمات، يتم النظر في جميع الخصائص الممكنة لكل عقدة.

شرط محاذاة المحور

#df

في شجرة القرار، شرط تتضمّن ميزة واحدة فقط على سبيل المثال، إذا كانت المنطقة ميزة، ما يلي عبارة عن شرط محاذاة المحور:

area > 200

التباين مع شرط المائل.

B

ملء الفراغات

#df

طريقة لتدريب مجموعة حيث يتم تدريب النموذج المؤسسي على مجموعة فرعية عشوائية من التدريب أمثلة مأخوذة كعينة مع الاستبدال. على سبيل المثال، الغابة العشوائية هي مجموعة من يتم تدريب أشجار القرارات باستخدام طريقة الأكياس.

يشير المصطلح Burging إلى اختصار لـ agg (تجميع التجميع).

شرط ثنائي

#df

في شجرة القرار، شرط يكون له نتيجتان محتملتان فقط، تكون عادةً نعم أو لا. على سبيل المثال، ما يلي هو شرط ثنائي:

temperature >= 100

التباين مع شرط غير ثنائي.

C

الشرط

#df

في شجرة القرار، تكون أي عقدة لتقييم تعبير. على سبيل المثال، الجزء التالي من تحتوي شجرة القرارات على شرطين:

شجرة قرارات تتكون من شرطين: (x> 0)
          (ص > 0).

ويسمى الشرط أيضًا التقسيم أو الاختبار.

حالة التباين باستخدام ورقة الشجر.

انظر أيضًا:

D

غابة القرارات

#df

يشير ذلك المصطلح إلى نموذج يتم إنشاؤه من عدة أشجار قرارات. تقوم غابة القرارات بالتنبؤ من خلال تجميع التنبؤات أشجار القرارات الخاصة بها. تشمل الأنواع الشائعة من غابات القرارات غابات عشوائية وأشجار مزروعة متدرجة.

شجرة القرارات

#df

يشير هذا المصطلح إلى نموذج تعلُّم خاضع للإشراف مؤلّف من مجموعة من الشروط والمغادرة بتسلسل هرمي. على سبيل المثال، في ما يلي شجرة قرارات:

يشير هذا المصطلح إلى شجرة قرارات تتكوّن من أربعة شروط مرتّبة.
          بشكل هرمي، مما يؤدي إلى خمس أوراق.

E

الإنتروبيا

#df

ضِمن نظرية المعلومات، وصف لمدى عدم إمكانية التنبؤ توزيعها. وبدلاً من ذلك، يُعرَّف القصور أيضًا على أنه مقدار المعلومات التي يحتوي عليها كل مثال. يحتوي التوزيع على أعلى قصور ممكن عندما تكون جميع قيم المتغير العشوائي احتمال متساوٍ.

القصور في مجموعة بقيمتَين محتملتَين "0" و"1" (على سبيل المثال، التصنيفات في مسألة تصنيف ثنائي) على الصيغة التالية:

H = -p Log p - q log q = -p log p - (1-p) * log (1-p)

حيث:

  • H هو القصور.
  • p هو كسر "1" الأمثلة.
  • q هو كسر "0" الأمثلة. لاحظ أن q = (1 - p)
  • log بشكل عام هو السجلّ2. وفي هذه الحالة، ينتمي القصور قليلاً.

على سبيل المثال، لنفترض ما يلي:

  • هناك 100 مثال تحتوي على القيمة "1"
  • 300 مثال تحتوي على القيمة "0"

وبالتالي، تكون قيمة القصور هي:

  • p = 0.25
  • q = 0.75
  • H = (-0.25)log2(0.25) - (0.75)log2(0.75) = 0.81 بت لكل مثال

مجموعة متوازنة تمامًا (على سبيل المثال، 200 "0" و200 "1") قد يكون هناك قصور يبلغ 1.0 بت لكل مثال. عندما تصبح المجموعة أكثر غير متوازن، يتحرك قصوره باتجاه 0.0.

في أشجار القرارات، يساعد القصور في تشكيل تحصيل المعلومات لمساعدة التقسيم لاختيار الشروط أثناء نمو شجرة قرارات التصنيف.

مقارنة القصور مع:

غالبًا ما يطلق على القصور قصور شانون.

F

أهمية الميزات

#df

مرادف للأهمية المتغيرة.

G

خطأ جيني

#df

مقياس مشابه لـ القصور. مقسّمات استخدام القيم المستمدة من نقص جيني أو القصور لإنشاء شروط التصنيف أشجار القرارات: تحصيل المعلومات مشتق من القصور. ما من مصطلح مكافئ مقبول عالميًا للمقياس المستمد من نقص جيني غير أن هذا المقياس بدون اسم مهم مثل للحصول على المعلومات.

ويُطلق على نقص جيني أيضًا اسم مؤشر جيني، أو ببساطة جيني.

أشجار التدرج المعزز (القرار) (GBT)

#df

نوع من غابات القرارات التي:

تعزيز التدرّج

#df

يشير ذلك المصطلح إلى خوارزمية تدريب يتم فيها تدريب النماذج الضعيفة على التكرار. تحسين جودة (تقليل خسارة) نموذج قوي. على سبيل المثال: يمكن أن يكون النموذج الضعيف نموذجًا لشجرة قرارات خطيًا أو صغيرًا. ويصبح النموذج القوي مجموع جميع النماذج الضعيفة التي تم تدريبها مسبقًا.

وفي أبسط أشكال خوارزمية تعزيز التدرج، يتم إنشاء نموذج ضعيف في كل تكرار على التنبؤ بالتدرج الخسارة للنموذج القوي. بعد ذلك، يتم تحديث ناتج النموذج القوي بطرح التدرج المتنبأ به، تشبه ميزة خوارزمية انحدار التدرج.

$$F_{0} = 0$$ $$F_{i+1} = F_i - \xi f_i $$

حيث:

  • $F_{0}$ هو النموذج القوي البداية.
  • $F_{i+1}$ هو النموذج القوي التالي.
  • $F_{i}$ هو النموذج القوي الحالي.
  • $\xi$ هو قيمة بين 0.0 و1.0 تُسمى الانكماش، والذي يشبه معدّل التعلّم في خورازمية انحدار التدرج.
  • $f_{i}$ هو النموذج الضعيف المدرَّب على التنبؤ بتدرج الفقدان $F_{i}$.

تشمل الأشكال الحديثة لتعزيز التدرج المشتقة الثانية أيضًا. (هسيان) للخسارة في العملية الحسابية.

تُستخدم أشجار القرار بشكل شائع كنماذج ضعيفة في تعزيز التدرج. عرض أشجار معززة متدرجة (القرار).

I

مسار الاستنتاج

#df

في شجرة القرار، خلال الاستنتاج، المسار الذي يتخذه مثال معين من الجذر إلى شروط أخرى، ينتهي بـ ورقة شجر فعلى سبيل المثال، في شجرة القرارات التالية، تُظهر الأسهم الأكثر سمكًا مسار الاستنتاج لمثال يحتوي على ما يلي قيم الخصائص:

  • x = 7
  • y = 12
  • z = -3

ينتقل مسار الاستنتاج في الرسم التوضيحي التالي خلال ثلاثة الظروف قبل الوصول إلى ورقة الشجر (Zeta).

شجرة قرارات تتكون من أربعة شروط وخمس أوراق.
          شرط الجذر هو (x> 0). نظرًا لأن الإجابة هي نعم، فإن
          ينتقل مسار الاستنتاج من الجذر إلى الشرط التالي (y> 0).
          نظرًا لأن الإجابة هي "نعم"، فإن مسار الاستنتاج ينتقل إلى
          الشرط التالي (z > 0). بما أن الإجابة هي لا، فإن مسار الاستنتاج
          ينتقل إلى العقدة الطرفية، وهي ورقة الشجر (Zeta).

توضح الأسهم الثلاثة السميكة مسار الاستنتاج.

تحصيل المعلومات

#df

في غابات القرارات، يكون الفرق بين قصور الجزء والقيم المرجحة (حسب عدد الأمثلة) مجموع القصور في الأجزاء الثانوية. قصور الجزء هو القصور الأمثلة في هذا الجزء.

على سبيل المثال، ضع في الاعتبار قيم القصور التالية:

  • قصور الجزء الأصلي = 0.6
  • قصور لعقدة فرعية واحدة بها 16 مثالاً = 0.2
  • قصور في عقدة تابعة أخرى بها 24 مثالاً ذا صلة = 0.1

وبالتالي فإن 40% من الأمثلة موجودة في عقدة فرعية واحدة و60% في عقدة فرعية أخرى. لذلك:

  • مجموع القصور المُرجّح للعُقد الثانوية = (0.4 * 0.2) + (0.6 * 0.1) = 0.14

إذًا، يكون تحصيل المعلومات هو:

  • تحصيل المعلومات = قصور الجزء الأصلي - مجموع القصور المُرجّح للعُقد الفرعية
  • تحصيل المعلومات = 0.6 - 0.14 = 0.46

تسعى معظم التقسيمات إلى إنشاء شروط تزيد من تحصيل المعلومات.

حالة الإدخال

#df

في شجرة القرار، شرط يختبر وجود عنصر واحد في مجموعة من العناصر. على سبيل المثال، في ما يلي شرط مضمَّن:

  house-style in [tudor, colonial, cape]

أثناء الاستنتاج، إذا كانت قيمة الميزة بنمط المنزل هي tudor أو colonial أو cape، ويتم تقييم هذا الشرط إلى "نعم". في حال حذف قيمة ميزة نمط المنزل هي شيء آخر (على سبيل المثال، ranch)، فمن ثم يتم تقييم هذا الشرط إلى "لا".

عادة ما تؤدي الظروف الداخلية إلى أشجار قرارات أكثر كفاءة من التي تختبر ميزات ترميز واحد فعال.

L

ورقة نبات

#df

أي نقطة نهاية في شجرة قرارات. إلغاء الإعجاب بـ condition، لا تُجري ورقة شجر اختبارًا. وإنما تعتبر ورقة الشجر تنبؤًا محتملاً. ورقة الشجر هي أيضًا الطرف عقدة مسار استنتاج.

على سبيل المثال، تحتوي شجرة القرارات التالية على ثلاثة أوراق:

شجرة قرارات ذات شرطين يؤديان إلى ثلاث أوراق.

N

العقدة (شجرة القرار)

#df

في شجرة القرار، يكون أي condition أو ورقة الشجر.

شجرة قرارات ذات شرطين وثلاث أوراق.

شرط غير ثنائي

#df

يشير ذلك المصطلح إلى شرط يحتوي على أكثر من نتيجتَين محتملتَين. فعلى سبيل المثال، يحتوي الشرط غير الثنائي التالي على ثلاثة النتائج:

شرط (number_of_legs = ?) يؤدي إلى ثلاثة حالات
          والنتائج. نتيجة واحدة (number_of_legs = 8) تؤدي إلى ورقة
          باسم عنكبوت. النتيجة الثانية (number_of_legs = 4) تؤدي إلى
          ورقة شجر اسمها كلب. النتيجة الثالثة (number_of_legs = 2) تؤدي إلى
          ورقة شجر اسمها بطريق.

O

شرط مائل

#df

في شجرة القرار، condition تتضمن أكثر من سمة الميزة. فعلى سبيل المثال، إذا كان الطول والعرض كلاهما السمتين، يكون ما يلي شرطًا مائلاً:

  height > width

تباين مع شرط محاذاة المحور.

تقييم خارج الحقيبة (تقييم OOB)

#df

آلية لتقييم جودة مجموعة اتخاذ القرارات من خلال اختبار كل شجرة القرار في ضوء أمثلة لم يتم استخدامها أثناء تدريب شجرة القرارات تلك. على سبيل المثال، في العنصر لاحظ أن النظام يقوم بتدريب كل شجرة قرارات على حوالي ثلثي الأمثلة ثم يتم تقييمها وفقًا الثلث المتبقي من الأمثلة.

غابة قرارات تتكون من ثلاث أشجار قرارات.
          تتدرب شجرة قرارات واحدة على ثلثي الأمثلة
          ثم يستخدم الثلث المتبقي لتقييم OOB.
          تتدرب شجرة القرارات الثانية على ثلثين مختلفين
          الأمثلة عن شجرة القرارات السابقة، ثم
          ثلثًا مختلفًا لتقييم OOB عن
          شجرة القرار السابقة.

يُعد التقييم "خارج الحقائب" فعالاً ومحافظًا من الناحية الحسابية تقريب آلية التحقّق المتقاطع. في التحقق من الصحة المتبادل، يتم تدريب نموذج واحد لكل جولة تحقق من الصحة المتبادلة. (على سبيل المثال، يتم تدريب 10 نماذج في التحقق المتبادل من 10 طيات). باستخدام تقييم OOB، يتم تدريب نموذج واحد. وذلك لأنّ الحقائب تقتطع بعض البيانات من كل شجرة أثناء التدريب، ويمكن لتقييم OOB استخدام هذه البيانات لتقريب التحقق المتبادل.

P

قيم متغيّرات التقليب

#df

يشير هذا المصطلح إلى نوع من الأهمية المتغيّرة لتقييمه. يشير ذلك المصطلح إلى الزيادة في خطأ التوقّعات لأحد النماذج بعد تبديل وقيم الميزة. تعتبر أهمية متغير التبديل عنصرًا مستقلاً عن النموذج المقياس.

R

غابة عشوائية

#df

مجموعة من أشجار القرارات في والذي يتم تدريب كل شجرة قرارات عليه باستخدام تشويش عشوائي محدد، مثل حقائب السفر.

الغابات العشوائية هي نوع من غابات القرارات.

الجذر

#df

عقدة البداية (الأولى condition) في شجرة القرار. حسب الاصطلاح، تضع الرسوم التخطيطية الجذر في أعلى شجرة القرار. على سبيل المثال:

شجرة قرارات ذات شرطين وثلاث أوراق. تشير رسالة الأشكال البيانية
          شرط البدء (x> 2) هو الجذر.

S

جمع العيّنات مع الاستبدال

#df

طريقة لاختيار العناصر من مجموعة من العناصر المرشحة التي تتضمن نفس العنصر عدة مرات. عبارة "مع الاستبدال" يعني أنه بعد كل تحديد، يتم إرجاع العنصر المحدد إلى مجموعة من العناصر المرشحة. فالطريقة المعكوسة لأخذ العيّنات بدون الاستبدال تعني أنه لا يمكن اختيار عنصر مرشح سوى مرة واحدة.

على سبيل المثال، ضع في الاعتبار مجموعة الفاكهة التالية:

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

لنفترض أنّ النظام يختار fig بشكل عشوائي كأول عنصر. في حال استخدام أخذ العينات مع الاستبدال، يختار النظام العنصر الثاني من المجموعة التالية:

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

نعم، تم ضبط الإعدادات نفسها على النحو السابق، لذا يمكن للنظام اختر fig مرة أخرى.

في حالة استخدام أخذ العينات بدون استبدال، فلا يمكن بعد اختيار العينة الذي تم اختياره مرة أخرى. على سبيل المثال، إذا اختار النظام بشكل عشوائي القيمة fig كقيمة يجب اختيار العيّنة الأولى، ثم لا يمكن اختيار "fig" مرة أخرى. وبالتالي، لا يلغي النظام تختار العينة الثانية من المجموعة (المنخفضة) التالية:

fruit = {kiwi, apple, pear, cherry, lime, mango}

انكماش

#df

المعلَمة الفائقة في تعزيز التدرّج التي تتحكّم الفرط في التخصيص: انكماش في تعزيز التدرج يشبه معدّل التعلّم في خوارزمية انحدار التدرج. الانكماش عدد عشري بين 0.0 و1.0. تؤدي قيمة الانكماش الأقل إلى تقليل فرط التخصيص أكبر من قيمة انكماش أكبر.

سبليت

#df

في شجرة القرار، اسم آخر condition.

مقسِّم

#df

أثناء تدريب شجرة قرار، تتم إضافة سلسلة الإجراءات (والخوارزمية) المسئولة عن إيجاد أفضل condition عند كل عقدة.

T

اختبار

#df

في شجرة القرار، اسم آخر condition.

الحد (لأشجار القرارات)

#df

في شرط محاذاة المحور، تكون القيمة التي تتم مقارنة الميزة بها. على سبيل المثال، 75 هو الحد المسموح به في الشرط التالي:

grade >= 75

V

الأهمية المتغيرة

#df

مجموعة من الدرجات التي تشير إلى الأهمية النسبية لكل منها الميزة على النموذج.

على سبيل المثال، ضع في الاعتبار شجرة القرار التي تقديرات أسعار المنازل. لنفترض أن شجرة القرارات هذه تستخدم ثلاثة والميزات: الحجم والعمر والأسلوب. إذا كانت هناك مجموعة من القيم المتغيرة يتم حساب الميزات الثلاثة {size=5.8, age=2.5, style=4.7}، فإن الحجم أكثر أهمية بالنسبة شجرة القرارات من العمر أو النمط.

توجد مقاييس مختلفة للأهمية المتغيرة، والتي يمكن أن تفيد خبراء في تعلُّم الآلة حول الجوانب المختلفة للنماذج.

واط

حكمة الجمهور

#df

فكرة أن متوسط آراء أو تقديرات مجموعة كبيرة من الأشخاص ("الحشود") غالبًا ما تؤدي إلى نتائج جيدة بشكل مدهش. على سبيل المثال، ضع في الاعتبار لعبة يخمّن فيها الأشخاص عدد حبوب الجيلي معبأة في وعاء كبير. رغم أن معظم الأفراد أن تكون التخمينات غير دقيقة، فإن متوسط جميع التخمينات بشكل تجريبي قريب من العدد الفعلي حبوب الجيلي في إناء.

Ensembles هي نسخة برمجية تناظرية لحكمة الحشود. حتى إذا قدمت النماذج الفردية تنبؤات غير دقيقة للغاية، غالبًا ما تؤدي عملية حساب متوسط توقعات العديد من النماذج إلى حدوث التوقعات الجيدة. على سبيل المثال، على الرغم من أن الفرد شجرة القرار توقع تنبؤات سيئة، غالبًا ما تقدّم غابة القرارات توقعات جيدة جدًا.