Glossaire du machine learning: forêts de décision

Cette page contient les termes du glossaire des forêts d'arbres décisionnels. Pour consulter tous les termes du glossaire, cliquez ici.

A

échantillonnage d'attributs

#df

Stratégie d'entraînement d'une forêt de décision dans laquelle chaque arbre de décision ne prend en compte qu'un sous-ensemble aléatoire de caractéristiques possibles lors de l'apprentissage de la condition. En règle générale, un sous-ensemble différent de caractéristiques est échantillonné pour chaque nœud. En revanche, lors de l'entraînement d'un arbre de décision sans échantillonnage d'attributs, toutes les caractéristiques possibles sont prises en compte pour chaque nœud.

condition alignée sur l'axe

#df

Dans une arborescence de décision, une condition qui implique une seule caractéristique. Par exemple, si l'aire est une caractéristique, alors la condition suivante est alignée sur l'axe:

area > 200

À comparer à la condition oblique.

B

bagging

#df

Méthode d'entraînement d'un ensemble dans lequel chaque modèle s'entraîne sur un sous-ensemble aléatoire d'exemples d'entraînement échantillonnés avec remplacement. Par exemple, une forêt aléatoire est un ensemble d'arbres de décision entraînés à l'aide de bagging.

Le terme bagging est l'abréviation de bootstrap agrégat.

condition binaire

#df

Dans une arborescence de décision, une condition qui n'a que deux résultats possibles, généralement oui ou non. Par exemple, voici une condition binaire:

temperature >= 100

À comparer à la condition non binaire.

C

état

#df

Dans une arborescence de décision, tout nœud qui évalue une expression. Par exemple, la partie suivante d'un arbre de décision contient deux conditions:

Arbre de décision composé de deux conditions: (x > 0) et (y > 0).

Une condition est également appelée fractionnement ou test.

Comparer la condition avec la feuille.

Voir également :

D

forêt de décision

#df

Modèle créé à partir de plusieurs arbres de décision. Une forêt de décision effectue une prédiction en agrégeant les prédictions de ses arbres de décision. Les types courants de forêts de décision incluent les forêts aléatoires et les arbres à boosting de gradient.

arbre de décision

#df

Un modèle d'apprentissage supervisé composé d'un ensemble de conditions et de quis organisés de façon hiérarchique Voici un exemple d'arbre de décision:

Arbre de décision composé de quatre conditions organisées hiérarchiquement, conduisant à cinq feuilles.

E

entropie

#df

Dans la théorie de l'information, il s'agit d'une description du degré d'imprévisibilité d'une distribution de probabilités. L'entropie est également définie comme la quantité d'informations que contient chaque exemple. Une distribution possède l'entropie la plus élevée possible lorsque toutes les valeurs d'une variable aléatoire sont tout aussi probables.

L'entropie d'un ensemble avec deux valeurs possibles : "0" et "1" (par exemple, les étiquettes d'un problème de classification binaire) a la formule suivante :

  H = -p log p - q log q = -p log p - (1-p) * log (1-p)

où :

  • H est l'entropie.
  • p est la fraction des exemples "1".
  • q est la fraction des exemples "0". Notez que q = (1 - p)
  • log est généralement log2. Dans ce cas, l'unité d'entropie est un bit.

Par exemple, supposons les éléments suivants :

  • 100 exemples contiennent la valeur "1"
  • 300 exemples contiennent la valeur "0"

La valeur d'entropie est donc la suivante:

  • p = 0,25
  • q = 0,75
  • H = (-0,25)log2(0,25) - (0,75)log2(0,75) = 0,81 bit par exemple

Un ensemble parfaitement équilibré (par exemple, 200 "0" et 200 "1") possède une entropie de 1 bit par exemple. À mesure qu'un ensemble devient déséquilibré, son entropie se rapproche de 0,0.

Dans les arbres de décision, l'entropie permet de formuler des gains d'informations pour aider le séparateur à sélectionner les conditions lors de la croissance d'un arbre de décision de classification.

Comparez l'entropie avec:

L'entropie est souvent appelée entropie de Shannon.

F

importances des caractéristiques

#df

Synonyme d'importance des variables.

G

impureté de gini

#df

Métrique semblable à l'entropie. Les splitters utilisent des valeurs dérivées de l'impureté de Gini ou de l'entropie de Gini pour composer des conditions pour les arbres de décision de classification. Les données collectées sont issues de l'entropie. Il n'existe pas de terme équivalent universellement accepté pour la métrique dérivée de l'impure gini. Toutefois, cette métrique sans nom est tout aussi importante que l'acquisition d'informations.

L'impureté de Gini est également appelée indice de gini ou tout simplement gini.

Arbres de décision à boosting de gradient (GBT)

#df

Type de forêt de décision dans laquelle:

optimisation de gradient

#df

Algorithme d'entraînement dans lequel les modèles faibles sont entraînés pour améliorer de manière itérative la qualité (réduire la perte) d'un modèle fort. Par exemple, un modèle faible peut être un modèle linéaire ou à petit arbre de décision. Le modèle fort devient la somme de tous les modèles faibles entraînés précédemment.

Dans la forme la plus simple d'optimisation de gradient, à chaque itération, un modèle faible est entraîné à prédire le gradient de perte du modèle fort. Ensuite, la sortie du modèle efficace est mise à jour en soustrayant le gradient prédit, comme pour la descente de gradient.

$$F_{0} = 0$$ $$F_{i+1} = F_i - \xi f_i $$

où :

  • $F_{0}$ est le modèle fort de départ.
  • $F_{i+1}$ est le prochain modèle efficace.
  • $F_{i}$ est le modèle efficace actuel.
  • $\xi$ est une valeur comprise entre 0,0 et 1,0 appelée rétrécissement, qui est analogue au taux d'apprentissage dans la descente de gradient.
  • $f_{i}$ est le modèle faible entraîné pour prédire le gradient de perte de $F_{i}$.

Les variations modernes du boosting de gradient incluent également la dérivée secondaire (hessienne) de la perte dans leur calcul.

Les arbres de décision sont couramment utilisés comme modèles faibles dans l'optimisation de gradient. Consultez la section Arbres de décision à boosting de gradient.

I

chemin d'inférence

#df

Dans un arbre de décision, lors de l'inférence, l'itinéraire d'un exemple particulier part de la racine vers d'autres conditions, se terminant par une feuille. Par exemple, dans l'arbre de décision suivant, les flèches plus épaisses indiquent le chemin d'inférence d'un exemple avec les valeurs de caractéristiques suivantes:

  • x = 7
  • y = 12
  • z = -3

Dans l'illustration suivante, le chemin d'inférence parcourt trois conditions avant d'atteindre la feuille (Zeta).

Arbre de décision composé de quatre conditions et de cinq feuilles.
          La condition racine est (x > 0). Comme la réponse est "Oui", le chemin d'inférence va de la racine à la condition suivante (y > 0).
          Comme la réponse est "Oui", le chemin d'inférence passe ensuite à la condition suivante (z > 0). Puisque la réponse est "Non", le chemin d'inférence se déplace jusqu'à son nœud terminal, qui est la feuille (Zêta).

Les trois flèches épaisses indiquent le chemin d'inférence.

prise d'informations

#df

Dans les forêts de décision, il s'agit de la différence entre l'entropie d'un nœud et la somme pondérée (par nombre d'exemples) de l'entropie de ses nœuds enfants. L'entropie d'un nœud est l'entropie des exemples de ce nœud.

Prenons l'exemple des valeurs d'entropie suivantes:

  • entropie du nœud parent = 0,6
  • entropie d'un nœud enfant avec 16 exemples pertinents = 0,2
  • entropie d'un autre nœud enfant avec 24 exemples pertinents = 0,1

Ainsi, 40% des exemples se trouvent dans un nœud enfant et 60% dans l'autre nœud enfant. Par conséquent :

  • Somme d'entropie pondérée des nœuds enfants = (0,4 * 0,2) + (0,6 * 0,1) = 0,14

Le gain d'informations est donc:

  • gain d'informations = entropie du nœud parent - somme d'entropie pondérée des nœuds enfants
  • gain d'informations = 0,6 - 0,14 = 0,46

La plupart des séparateurs cherchent à créer des conditions qui maximisent les gains d'informations.

condition d'encart

#df

Dans une arborescence de décision, une condition qui teste la présence d'un élément dans un ensemble d'éléments. Par exemple, voici une condition de type "intégré" :

  house-style in [tudor, colonial, cape]

Lors de l'inférence, si la valeur de la caractéristique de style maison est tudor, colonial ou cape, cette condition est évaluée sur "Yes". Si la valeur de la caractéristique de style maison est différente (par exemple, ranch), cette condition est évaluée comme non.

Les conditions intégrées conduisent généralement à des arbres de décision plus efficaces que les conditions qui testent les caractéristiques à encodage one-hot.

L

feuille

#df

Tout point de terminaison d'un arbre de décision. Contrairement à une condition, une feuille n'effectue pas de test. Une feuille est plutôt une prédiction possible. Une feuille est également le nœud de terminal d'un chemin d'inférence.

Par exemple, l'arbre de décision suivant contient trois feuilles:

Arbre de décision avec deux conditions menant à trois feuilles.

N

nœud (arbre de décision)

#df

Dans une arborescence de décision, toute condition ou feuille.

Arbre de décision avec deux conditions et trois feuilles.

condition non binaire

#df

Une condition contenant plus de deux résultats possibles. Par exemple, la condition non binaire suivante contient trois résultats possibles:

Une condition (number_of_legs = ?) qui conduit à trois résultats possibles. Un résultat (number_of_legs = 8) mène à une feuille nommée "spider". Un deuxième résultat (number_of_legs = 4) mène à une feuille nommée "dog". Un troisième résultat (number_of_legs = 2) conduit à une feuille nommée "penguins".

O

condition oblique

#df

Dans un arbre de décision, une condition impliquant plusieurs caractéristiques. Par exemple, si la hauteur et la largeur sont toutes deux des caractéristiques, voici une condition oblique:

  height > width

À comparer à la condition alignée sur l'axe.

Évaluation lors de la sortie du bagage (évaluation lors de la première utilisation)

#df

Mécanisme permettant d'évaluer la qualité d'une forêt de décision en testant chaque arbre de décision par rapport aux exemples non utilisés lors de l'entraînement de cet arbre de décision. Par exemple, dans le schéma suivant, notez que le système entraîne chaque arbre de décision sur environ deux tiers des exemples, puis l'évalue sur le tiers restant des exemples.

Une forêt de décision composée de trois arbres de décision.
          Un arbre de décision est entraîné sur deux tiers des exemples, puis utilise le tiers restant pour l'évaluation de la programmation orientée objet.
          Un deuxième arbre de décision s'entraîne sur deux tiers différents des exemples de l'arbre de décision précédent, puis en utilise un tiers différent pour l'évaluation de la fonction OOB que l'arbre de décision précédent.

Cette évaluation est une approximation prudente et efficace du mécanisme de validation croisée. Dans la validation croisée, un modèle est entraîné pour chaque cycle de validation croisée (par exemple, 10 modèles sont entraînés lors d'une validation croisée en 10 fois). Avec l'évaluation OOB, un seul modèle est entraîné. Étant donné que le bagging héberge certaines données de chaque arbre pendant l'entraînement, l'évaluation des objets en ligne peut utiliser ces données pour estimer la validation croisée.

P

importances des variables de permutation

#df

Type d'importance variable qui évalue l'augmentation de l'erreur de prédiction d'un modèle après la permutation des valeurs de la caractéristique. L'importance de la variable de permutation est une métrique indépendante du modèle.

R

forêt aléatoire

#df

Ensemble d'arbres de décision dans lequel chaque arbre de décision est entraîné avec un bruit aléatoire spécifique, tel que le bagging.

Les forêts d'arbres décisionnels sont un type de forêt de décision.

racine

#df

Le nœud de départ (la première condition) d'une arborescence de décision. Par convention, les diagrammes placent la racine en haut de l'arbre de décision. Exemple :

Arbre de décision avec deux conditions et trois feuilles. La condition de départ (x > 2) est la racine.

S

échantillonnage avec remplacement

#df

Méthode de sélection d'éléments parmi un ensemble d'éléments candidats dans lequel le même élément peut être sélectionné plusieurs fois. L'expression "avec remplacement" signifie qu'après chaque sélection, l'élément sélectionné est renvoyé dans le pool d'éléments candidats. La méthode inverse, échantillonnage sans remplacement, signifie qu'un élément candidat ne peut être sélectionné qu'une seule fois.

Prenons l'exemple de l'ensemble de fruits suivant:

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

Supposons que le système sélectionne au hasard fig comme premier élément. Si vous utilisez l'échantillonnage avec remplacement, le système sélectionne le deuxième élément dans l'ensemble suivant:

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

Oui, c'est le même ensemble qu'avant. Le système peut donc potentiellement sélectionner à nouveau fig.

Si vous utilisez l'échantillonnage sans remplacement, une fois celui-ci sélectionné, un échantillon ne peut plus être sélectionné. Par exemple, si le système choisit de manière aléatoire fig comme premier échantillon, fig ne peut pas être choisi à nouveau. Par conséquent, le système sélectionne le deuxième échantillon dans l'ensemble (réduit) suivant:

fruit = {kiwi, apple, pear, cherry, lime, mango}

rétrécissement

#df

Un hyperparamètre dans l'optimisation de gradient qui contrôle le surapprentissage. La réduction de l'optimisation de gradient est analogue au taux d'apprentissage dans la descente de gradient. Le rétrécissement est une valeur décimale comprise entre 0,0 et 1,0. Une valeur de rétrécissement plus faible réduit davantage le surapprentissage qu'une valeur de rétrécissement plus élevée.

split

#df

Dans une arborescence de décision, autre nom d'une condition.

séparateur

#df

Lors de l'entraînement d'un arbre de décision, la routine (et l'algorithme) responsable de la recherche de la meilleure condition au niveau de chaque nœud.

T

test

#df

Dans une arborescence de décision, autre nom d'une condition.

seuil (pour les arbres de décision)

#df

Dans une condition alignée sur l'axe, il s'agit de la valeur à laquelle une caractéristique est comparée. Par exemple, 75 est la valeur de seuil dans la condition suivante:

grade >= 75

V

importances variables

#df

Ensemble de scores qui indiquent l'importance relative de chaque caractéristique pour le modèle.

Prenons l'exemple d'un arbre de décision qui estime le prix d'une maison. Supposons que cet arbre de décision utilise trois caractéristiques: la taille, l'âge et le style. Si un ensemble d'importances variables pour les trois caractéristiques est calculé comme étant {size=5.8, age=2.5, style=4.7}, la taille est plus importante pour l'arbre de décision que l'âge ou le style.

Il existe différentes métriques d'importance variable, qui peuvent informer les experts en ML sur différents aspects des modèles.

L

la sagesse de la foule

#df

L'idée que la moyenne des opinions ou estimations d'un grand groupe de personnes ("la foule") produit souvent des résultats étonnamment bons. Prenons l'exemple d'un jeu dans lequel les utilisateurs devinent le nombre de bonbons emballés dans un grand bocal. Bien que la plupart des estimations individuelles soient inexactes, il a été empiriquement démontré que la moyenne de toutes les suppositions est étonnamment proche du nombre réel de bonbons en pot.

Les ensembles sont une analogie logicielle du savoir de la population. Même si des modèles individuels effectuent des prédictions très imprécises, la moyenne des prédictions de nombreux modèles génère souvent des prédictions étonnamment bonnes. Par exemple, bien qu'un arbre de décision individuel puisse fournir des prédictions médiocres, une forêt de décision fournit souvent de très bonnes prédictions.