مسرد مصطلحات التعلم الآلي: غابات القرارات

تحتوي هذه الصفحة على مصطلحات مسرد "غابات القرارات". للاطّلاع على جميع مصطلحات المسرد، انقر على هذا الرابط.

A

جمع عيّنات من السمات

#df

منهج لتدريب غابة قرارات لا تأخذ كل شجرة قرارات فيها سوى مجموعة فرعية عشوائية من الميزات المحتمَلة في الاعتبار عند تعلُّم الشرط. بشكل عام، يتمّ أخذ عيّنة من مجموعة فرعية مختلفة من الميزات لكلّ عقدة. في المقابل، عند تدريب شجرة قرارات بدون أخذ عيّنات من السمات، يتمّ أخذ كلّ الميزات المحتمَلة في الاعتبار لكلّ عقدة.

شرط مُحاذاة المحور

#df

في شجرة قرارات، شرط لا يتضمن سوى ميزة واحدة. على سبيل المثال، إذا كان area سمة، يكون الشرط التالي متوافقًا مع المحور:

area > 200

يختلف عن الحالة المائلة.

B

الحزمة

#df

طريقة لتدريب مجموعة مُجمّعة يتم فيها تدريب كل نموذج مكوّن على مجموعة فرعية عشوائية من مثالب التدريب التي تم جمع عيّنات منها مع الاستبدال. على سبيل المثال، الغابة العشوائية هي مجموعة من أشجار القرارات التي تم تدريبها باستخدام أسلوب "التجميع".

مصطلح التجميع هو اختصار لجمع البيانات من النموذج الأساسي.

اطّلِع على الغابات العشوائية في دورة "غابات القرارات" للحصول على مزيد من المعلومات.

شرط ثنائي

#df

في شجرة القرار، شرط يكون له نتيجتان محتملتان فقط، عادةً نعم أو لا. على سبيل المثال، في ما يلي شرط ثنائي:

temperature >= 100

يختلف هذا الشرط عن الشرط غير الثنائي.

اطّلِع على أنواع الشروط في دورة "غابات القرارات" للحصول على مزيد من المعلومات.

C

الشرط

#df

في شجرة القرار، أي عقدة تُقيّم تعبيرًا. على سبيل المثال، يحتوي الجزء التالي من شجيرة اتّخاذ القرار على شرطَين:

شجرة قرارات تتألّف من شرطَين: (x > 0) و
          (y > 0).

يُعرف الشرط أيضًا باسم القسمة أو الاختبار.

حالة التباين مع الورقة

انظر أيضًا:

اطّلِع على أنواع الشروط في دورة "غابات القرارات" للحصول على مزيد من المعلومات.

D

غابة القرارات

#df

نموذج تم إنشاؤه من أشجار قرارات متعددة. تُجري غابة القرارات توقّعات من خلال تجميع توقّعات أشجار القرارات. تشمل الأنواع الشائعة من غابات القرارات الغابات العشوائية والأشجار المحسّنة باستخدام التدرّج.

اطّلِع على قسم شدَّد القرارات في دورة "شدَّد القرارات" للحصول على مزيد من المعلومات.

شجرة القرار

#df

نموذج تعلُّم خاضع للإشراف يتألّف من مجموعة من الشروط والأوراق المنظَّمة بشكل هرمي على سبيل المثال، في ما يلي شجرة قرارات:

شجرة قرارات تتألّف من أربعة شروط مرتبة
          بشكل هرمي، وتؤدي إلى خمس أوراق

E

الإنتروبيا

#df
#Metric

في نظرية المعلومات، يشير القصور إلى مدى عدم إمكانية التنبؤ بتوزيع الاحتمالية. بدلاً من ذلك، يتم تعريف القصور أيضًا على أنّه مقدار المعلومات التي يحتوي عليها كل مثال. يكون للتوزيع أعلى قيمة ممكنة من الانتروبي عندما تكون جميع قيم المتغيّر العشوائي محتملة بالتساوي.

إنّ معلومات مجموعة تتضمّن قيمتَين محتملتَين "0" و "1" (مثل العلامات في مشكلة التصنيف الثنائي) لها الصيغة التالية:

  H = -p log p - q log q = -p log p - (1-p) * log (1-p)

حيث:

  • H هي الإنتروبيا.
  • p هو الكسر الخاص بعيّنات "1".
  • q هو الكسر الخاص بأمثلة "0". يُرجى العلم أنّ q = (1 - p).
  • السجلّ هو عادةً السجلّ2. في هذه الحالة، تكون وحدة التشويش هي بت.

على سبيل المثال، لنفترض ما يلي:

  • 100 مثال تحتوي على القيمة "1"
  • 300 مثال تحتوي على القيمة "0"

وبالتالي، تكون قيمة القصور هي:

  • p = 0.25
  • q = 0.75
  • H = (-0.25)log2(0.25) - (0.75)log2(0.75) = 0.81 بت لكل مثال

ستتضمّن المجموعة المتوازنة تمامًا (على سبيل المثال، 200 صفر و200 واحد) انتروبيا تبلغ 1.0 بت لكل نموذج. كلما أصبحت المجموعة أكثر اختلالًا، تحرّك القصور فيها نحو 0.0.

في أشجار القرارات، تساعد الانتروبي في صياغة تحصيل المعلومات لمساعدة المقسّم في اختيار الشروط أثناء نمو شجرة قرار التصنيف.

مقارنة الإنتروبيا بما يلي:

يُطلق على القصور غالبًا اسم قصور Shannon.

اطّلِع على المقسّم الدقيق للتصنيف الثنائي باستخدام سمات رقمية في دورة "غابات القرارات" للحصول على مزيد من المعلومات.

F

أهمية العناصر

#df
#Metric

مرادف لأهمية المتغيّرات.

G

gini impurity

#df
#Metric

مقياس مشابه للانتروبيا الفواصل تستخدِم قيمًا مستمَدة من إما نقص gini أو الانتروبي لإنشاء الشروط للتصنيف أشجار القرارات. يتم اشتقاق تحصيل المعلومات من قصور المعلومات. لا تتوفّر عبارة مكافئة مقبولة عالميًا للمقياس المستمَد من قياس gini للشوائب، ومع ذلك، هذا المقياس غير المُسمّى مهمّ تمامًا مثل مقياس معلومات التحسين.

يُطلق على محتوى الشوائب في مقياس جيني أيضًا اسم مؤشر جيني أو جيني ببساطة.

أشجار (قرارات) متزايدة التدرّج (GBT)

#df

نوع من غابات القرارات التي:

اطّلِع على أشجار القرارات المحسَّنة بالتعزيز في دورة "غابات القرارات" للحصول على مزيد من المعلومات.

التعزيز الاشتقاقي

#df

خوارزمية تدريب يتم فيها تدريب النماذج الضعيفة لتحسين جودة نموذج قوي (تقليل الخسارة) بشكلٍ متكرّر على سبيل المثال، قد يكون النموذج الضعيف نموذجًا خطيًا أو نموذج شجرة قرار صغيرًا. يصبح النموذج القوي مجموع كل النماذج المنخفضة الدقة التي تم تدريبها سابقًا.

في أبسط أشكال تحسين التدرّج، يتم تدريب نموذج ضعيف في كل تكرار لتوقّع تدرج الخسارة للنموذج القوي. بعد ذلك، يتم تعديل ناتج النموذج القوي من خلال طرح التدرّج المتوقّع، على غرار التدرّج التنازلي.

$$F_{0} = 0$$ $$F_{i+1} = F_i - \xi f_i $$

حيث:

  • $F_{0}$ هو النموذج القوي الأوّلي.
  • $F_{i+1}$ هو النموذج القوي التالي.
  • $F_{i}$ هو النموذج القوي الحالي.
  • ‫$\xi$ هي قيمة تتراوح بين 0.0 و1.0 تُعرف باسم الانكماش، وهي مشابهة لمعدل التعلّم في خوارزمية انحدار التدرج.
  • ‫$f_{i}$ هو النموذج الضعيف الذي تم تدريبه لتوقّع تدرج الخسارة لـ $F_{i}$.

تتضمّن الصيغ الحديثة لتعزيز التدرّج أيضًا المشتقة الثانية (Hessian) للخسارة في عملية الحساب.

تُستخدَم أشجار القرارات عادةً كنماذج ضعيفة في تعزيز التدرّج. راجِع أشجار (القرارات) المحسَّنة باستخدام التدرّج.

I

مسار الاستنتاج

#df

في شجرة القرارات، أثناء الاستنتاج، المسار الذي يسلكه مثال معيّن من الجذر إلى الشروط الأخرى، وينتهي عند الورقة. على سبيل المثال، في شجرة القرار التالية، تعرض السهمان السميكان مسار الاستنتاج لمثال يتضمّن قيم السمات التالية:

  • س = 7
  • y = 12
  • z = -3

يمرّ مسار الاستنتاج في الرسم التوضيحي التالي عبر ثلاثة شروط قبل الوصول إلى الورقة (Zeta).

شجرة قرارات تتألّف من أربعة شروط وخمس أوراق
          الشرط الجذر هو (x > 0). بما أنّ الإجابة هي "نعم"، ينتقل
          مسار الاستنتاج من الجذر إلى الشرط التالي (y > 0).
          بما أنّ الإجابة هي "نعم"، ينتقل مسار الاستنتاج بعد ذلك إلى
          الشرط التالي (z > 0). بما أنّ الإجابة هي "لا"، ينتقل مسار الاستنتاج
          إلى عقدته الطرفية، وهي الورقة (Zeta).

تعرِض الأسهم السميكة الثلاثة مسار الاستنتاج.

اطّلِع على أشجار القرارات في دورة "غابات القرارات" للحصول على مزيد من المعلومات.

اكتساب المعلومات

#df
#Metric

في غابات القرارات، الفرق بين القصور في أحد الأجزاء وsummation المرجح (حسب عدد الأمثلة) لقصور أجزائه الفرعية القصور في أحد الأجزاء هو القصور للعيّنات في ذلك الجزء.

على سبيل المثال، راجِع قيم التشويش التالية:

  • إنتروبيا العقدة الرئيسية = 0.6
  • قصور عقدة فرعية واحدة تتضمّن 16 مثالاً ذا صلة = 0.2
  • ينطبق القصور على عقدة فرعية أخرى تحتوي على 24 مثالاً ذا صلة = 0.1

وبالتالي، فإنّ% 40 من الأمثلة متوفّرة في عقدة فرعية واحدة و% 60 في العقدة الفرعية الأخرى. ولذلك:

  • مجموع القصور المرجح للعُقد الثانوية = (0.4 * 0.2) + (0.6 * 0.1) = 0.14

وبالتالي، فإنّ تحصيل المعلومات هو:

  • اكتساب المعلومات = قصور الجزء الأصلي - مجموع القصور المرجح للأجزاء الفرعية
  • معلومات مكتسَبة = 0.6 - 0.14 = 0.46

تسعى معظم الفاصلات إلى إنشاء شروط تحقّق أقصى قدر من المعلومات.

حالة ضمن المجموعة

#df

في شجرة قرارات، شرط يختبر توفّر عنصر واحد في مجموعة من العناصر. على سبيل المثال، في ما يلي شرط ضمن المجموعة:

  house-style in [tudor, colonial, cape]

أثناء الاستنتاج، إذا كانت قيمة سمة نمط المنزل هي tudor أو colonial أو cape، يتم تقييم هذا الشرط على أنّه "نعم". إذا كانت قيمة سمة تصميم المنزل مختلفة (على سبيل المثال، ranch)، سيتم تقييم هذا الشرط على أنّه "لا".

تؤدي الشروط ضمن المجموعة عادةً إلى أشجار قرارات أكثر فعالية مقارنةً بالشروط التي تختبر الميزات المُشفَّرة بترميز واحد ساخن.

L

ورقة شجر

#df

أي نقطة نهاية في شجرة قرارات. على عكس الشرط، لا تُجري الورقة اختبارًا. بدلاً من ذلك، تكون الورقة عبارة عن توقّع محتمل. وتكون الورقة أيضًا العقدة الطرفية لمسار الاستنتاج.

على سبيل المثال، تحتوي شجرة القرارات التالية على ثلاث أوراق:

شجرة قرارات تتضمّن شرطَين يؤديان إلى ثلاث أوراق

اطّلِع على أشجار القرارات في دورة "غابات القرارات" للحصول على مزيد من المعلومات.

لا

العقدة (شجرة القرار)

#df

في شجرة القرار، أي شرط أو ورقة

شجرة قرارات تتضمّن شرطَين وثلاث أوراق

اطّلِع على أشجار القرارات في دورة "غابات القرارات" للحصول على مزيد من المعلومات.

حالة غير ثنائية

#df

شرط يحتوي على أكثر من نتيجتين محتملتَين على سبيل المثال، يحتوي الشرط غير الثنائي التالي على ثلاثة نتائج محتملة:

شرط (عدد_المراحل = ?) يؤدي إلى ثلاث نتائج
          محتملة تؤدي إحدى النتائج (عدد_الأرجل = 8) إلى ورقة
          تُسمى عنكبوت. تؤدي النتيجة الثانية (عدد_الأرجل = 4) إلى
          ورقة باسم كلب. تؤدي النتيجة الثالثة (عدد_الأرجل = 2) إلى
          ورقة سميت بـ penguin.

اطّلِع على أنواع الشروط في دورة "غابات القرارات" للحصول على مزيد من المعلومات.

O

حالة مائلة

#df

في شجرة القرار، هو شرط يتضمّن أكثر من سمة واحدة. على سبيل المثال، إذا كان الارتفاع والعرض سمتَين، يكون الشرط التالي شرطًا غير مباشر:

  height > width

يختلف هذا الشرط عن الشرط المُحاذا للمحور.

اطّلِع على أنواع الشروط في دورة "غابات القرارات" للحصول على مزيد من المعلومات.

التقييم خارج الحزمة (تقييم خارج الحزمة)

#df

آلية لتقييم جودة غابة القرارات من خلال اختبار كل شجرة قرار باستخدام الأمثلة التي لم يتم استخدامها أثناء التدريب على شجرة القرار هذه. على سبيل المثال، في المخطّط البياني التالي، يُرجى ملاحظة أنّ النظام يُدرِّب كل شجرة قرارات على نحو ثلث الأمثلة تقريبًا، ثم يُقيّمها بالاستناد إلى الثلث المتبقّي من الأمثلة.

غابة قرارات تتألّف من ثلاث أشجار قرارات
          يتم تدريب شجرة قرار واحدة على ثلثي الأمثلة
          ثم استخدام الثلث المتبقّي للتقييم خارج النطاق.
          يتم تدريب شجرة قرارات ثانية على ثلثي مثال مختلفين
          عن شجرة القرارات السابقة، ثم
          يتم استخدام ثلث مختلف لتقييم خارج النطاق مقارنةً بشجرة القرارات السابقة.

التقييم خارج المجموعة هو تقرّيب محافظ وفعال من الناحية الحسابية لآلية التحقّق التبادلي. في التصديق المتقاطع، يتم تدريب نموذج واحد لكل جولة من جولات التصديق المتقاطع (على سبيل المثال، يتم تدريب 10 نماذج في عملية تصديق متقاطع مكوّنة من 10 مراحل). من خلال التقييم خارج النطاق، يتم تدريب نموذج واحد. بما أنّ أسلوب التجميع يُحجم عن استخدام بعض البيانات من كل شجرة أثناء التدريب، يمكن أن يستخدِم تقييم "خارج النطاق" هذه البيانات لتقريب التحقق من الصحة المتبادلة.

اطّلِع على التقييم خارج الحقيبة في دورة "غابات القرارات" للحصول على مزيد من المعلومات.

P

أهمية متغيّرات التبديل

#df
#Metric

نوع من أهمية المتغيّر الذي يُقيّم الزيادة في خطأ التوقّع لنموذج بعد تبديل قيم السمة إنّ أهمية متغيّر التبادل هو مقياس مستقل عن النموذج.

R

الغابة العشوائية

#df

مجموعة موحدة من أشجار القرارات يتم فيها تدريب كل شجرة قرارات باستخدام تشويش عشوائي محدّد، مثل التجميع

الغابات العشوائية هي نوع من غابات القرارات.

اطّلِع على Random Forest في دورة "غابات القرارات" للحصول على مزيد من المعلومات.

الجذر

#df

العقدة الأولى (أول شرط) في شجرة قرارات وفقًا للعرف، تضع المخططات البيانية الجذر في أعلى شجرة القرار. على سبيل المثال:

شجرة قرارات تتضمّن شرطَين وثلاث أوراق 
          الشرط الأولي (x > 2) هو الجذر.

S

جمع العيّنات مع الاستبدال

#df

طريقة لاختيار عناصر من مجموعة من العناصر المُحتمَلة التي يمكن فيها اختيار العنصر نفسه عدة مرات تعني عبارة "مع الاستبدال" أنّه بعد كل اختيار، يتم إرجاع العنصر المحدّد إلى مجموعة العناصر المرشّحة. أما الطريقة العكسية، وهي تحليل عيّنات بدون استبدال، فتعني أنّه لا يمكن اختيار عنصر مرشح إلا مرة واحدة.

على سبيل المثال، فكِّر في مجموعة الفواكه التالية:

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

لنفترض أنّ النظام اختار fig عشوائيًا كأول عنصر. في حال استخدام أسلوب أخذ العينات مع الاستبدال، يختار النظام العنصر الثاني من المجموعة التالية:

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

نعم، هذه هي المجموعة نفسها التي استخدمناها سابقًا، لذا قد يختار النظام fig مرة أخرى.

في حال استخدام أسلوب جمع العيّنات بدون الاستبدال، لا يمكن اختيار عيّنة مرة أخرى بعد اختيارها. على سبيل المثال، إذا اختار النظام fig بشكل عشوائي كأحد العيّنات الأولى، لا يمكن اختيار fig مرة أخرى. لذلك، يختار النظام العيّنة الثانية من المجموعة (المعدَّلة) التالية:

fruit = {kiwi, apple, pear, cherry, lime, mango}

التقلّص

#df

مَعلمة فائقة في التعزيز التدرّجي للتحكّم في التعلّم الزائد إنّ التقلّص في تحسين التدرّج يشبه معدّل التعلّم في النزول المتدرج. إنّ نسبة الانكماش هي قيمة صعِد عشري تتراوح بين 0.0 و1.0. تقلّل قيمة الانكماش الأقل من التكيّف المفرط أكثر من قيمة الانكماش الأكبر.

تقسيم

#df

في شجرة القرار، اسم آخر ل شرط.

مقسِّم

#df

أثناء تدريب شجرة قرارات، يكون الإجراء (والخوارزمية) المسؤول عن العثور على أفضل شرط في كل عقدة.

T

اختبار

#df

في شجرة القرار، اسم آخر ل شرط.

الحدّ (لأشجار القرارات)

#df

في شرط مُحاذاً للمحور، هي القيمة التي تتم المقارنة بينها السمة. على سبيل المثال، 75 هي قيمة الحدّ الأدنى في الشرط التالي:

grade >= 75

اطّلِع على المقسّم الدقيق للتصنيف الثنائي باستخدام الميزات الرقمية في دورة "غابات القرارات" للحصول على مزيد من المعلومات.

V

أهمية المتغيّرات

#df
#Metric

مجموعة من الدرجات التي تشير إلى الأهمية النسبية لكل سمة في النموذج

على سبيل المثال، نأخذ شجرة قرارات تُقدّر أسعار المنازل. لنفترض أنّ شجرة القرار هذه تستخدم ثلاث سمات: الحجم والعمر والأسلوب. إذا تم احتساب مجموعة من قيم متغيرات الأهمية للسمات الثلاث على النحو التالي: {size=5.8, age=2.5, style=4.7}، يكون المقاس أكثر أهمية في شجرة القرار من العمر أو الطراز.

تتوفّر مقاييس مختلفة لأهمية المتغيّرات، والتي يمكن أن تُعلِم خبراء الذكاء الاصطناعي (ML) عن الجوانب المختلفة للنماذج.

واط

حكمة الحشود

#df

إنّ فكرة احتساب متوسط آراء أو تقديرات مجموعة كبيرة من الأشخاص ("الجمهور") غالبًا ما تؤدي إلى نتائج جيدة بشكل مفاجئ. على سبيل المثال، لنفترض أنّ هناك لعبة يحاول فيها المستخدمون تخمين عدد حبات الجيلي التي تم تعبئتها في وعاء كبير. على الرغم من أنّ معظم الحلول الفردية ستكون غير دقيقة، تبيّن من خلال التجارب أنّ متوسط كل الحلول يقترب بشكل مفاجئ من العدد الفعلي لحبوب النعناع في المرطبان.

المجموعات هي تقنية برمجية تستند إلى حكمة الحشود. حتى إذا كانت النماذج الفردية تقدّم توقّعات غير دقيقة على الإطلاق، فإنّ جمع توقّعات العديد من النماذج يؤدي في أغلب الأحيان إلى توقّعات جيدة بشكل مفاجئ. على سبيل المثال، على الرغم من أنّه قد تُقدّم شجرة قرار فردية تنبؤات ضعيفة، غالبًا ما تُقدّم غابة قرارات تنبؤات جيدة جدًا.