Glossaire du machine learning: forêts de décision

Cette page contient les termes du glossaire Decision Forests. Pour voir tous les termes du glossaire, cliquez ici.

A

échantillonnage d'attributs

#df

Tactique d'entraînement d'une forêt de décision dans laquelle chaque arbre de décision ne prend en compte qu'un sous-ensemble aléatoire de caractéristiques possibles lors de l'apprentissage de la condition. En règle générale, un sous-ensemble différent de caractéristiques est échantillonné pour chaque nœud. En revanche, lors de l'entraînement d'un arbre de décision sans échantillonnage d'attributs, toutes les caractéristiques possibles sont prises en compte pour chaque nœud.

condition d'alignement sur l'axe

#df

Dans un arbre de décision, condition n'impliquant qu'une seule fonctionnalité. Par exemple, si la zone est un élément géographique, alors la condition suivante est alignée sur l'axe:

area > 200

À comparer à la condition oblique.

B

bagging

#df

Méthode pour entraîner un ensemble, dans lequel chaque modèle s'entraîne sur un sous-ensemble aléatoire d'exemples d'entraînement échantillonnés avec remplacement. Par exemple, une forêt aléatoire est un ensemble d'arbres de décision entraînés avec le bagging.

Le terme bagging est l'abréviation de bootstrap aggregat.

condition binaire

#df

Dans un arbre de décision, une condition qui n'a que deux résultats possibles, généralement oui ou non. Par exemple, voici une condition binaire:

temperature >= 100

À comparer aux conditions non binaires.

C

état

#df

Dans un arbre de décision, tout nœud qui évalue une expression. Par exemple, la partie suivante d'un arbre de décision contient deux conditions:

Arbre de décision composé de deux conditions: (x > 0) et (y > 0).

Une condition est également appelée fractionnement ou test.

Contraste la condition avec la feuille.

Voir également :

D

forêt de décision

#df

Modèle créé à partir de plusieurs arbres de décision. Une forêt de décision effectue une prédiction en agrégeant les prédictions de ses arbres de décision. Les types de forêts de décision les plus courants incluent les forêts aléatoires et les arbres à boosting de gradient.

arbre de décision

#df

Modèle d'apprentissage supervisé composé d'un ensemble de conditions et de parts organisés de manière hiérarchique. Voici un exemple d'arbre de décision:

Arbre de décision composé de quatre conditions classées hiérarchiquement, conduisant à cinq feuilles.

E

entropie

#df

Dans la théorie de l'information, il s'agit d'une description du degré d'imprévisibilité d'une distribution de probabilité. L'entropie est également définie comme la quantité d'informations contenues dans chaque exemple. Une distribution présente l'entropie la plus élevée lorsque toutes les valeurs d'une variable aléatoire sont d'une probabilité égale.

L'entropie d'un ensemble avec deux valeurs possibles "0" et "1" (par exemple, les étiquettes d'un problème de classification binaire) a la formule suivante:

  H = -p log p - q log q = -p log p - (1-p) * log (1-p)

où :

  • H est l'entropie.
  • p est la fraction des exemples "1".
  • q est la fraction des exemples "0". Notez que q = (1 - p)
  • log est généralement log2. Dans ce cas, l'unité d'entropie est un bit.

Par exemple, supposons les éléments suivants :

  • 100 exemples contiennent la valeur "1"
  • 300 exemples contiennent la valeur "0"

Par conséquent, la valeur d'entropie est la suivante:

  • p = 0,25
  • q = 0,75
  • H = (-0,25)log2(0,25) - (0,75)log2(0,75) = 0,81 bit par exemple

Un ensemble parfaitement équilibré (par exemple, 200 "0" et 200 "1") possède une entropie de 1 bit par exemple. À mesure qu'un ensemble devient plus déséquilibré, son entropie se rapproche de 0,0.

Dans les arbres de décision, l'entropie permet de formuler des gains d'informations pour aider le séparateur à sélectionner les conditions lors de la croissance d'un arbre de décision de classification.

Comparez l'entropie avec:

L'entropie est souvent appelée entropie de Shannon.

F.

importances des caractéristiques

#df

Synonyme d'importance des variables.

G

impureté de gini

#df

Métrique semblable à l'entropie. Les séparateurs utilisent des valeurs dérivées de l'impureté ou de l'entropie de Gini pour composer les conditions d'arborescence de décision de classification. Le acquisition d'informations est dérivé de l'entropie. Il n'existe pas de terme équivalent universellement accepté pour désigner la métrique dérivée de l'impureté de Gini. Toutefois, cette métrique sans nom est tout aussi importante que les données recueillies.

L'impureté de Gini est également appelée indice de gini, ou simplement gini.

arbres de décision à boosting de gradient (GBT)

#df

Type de forêt de décision dans laquelle:

boosting de gradient

#df

Algorithme d'entraînement dans lequel les modèles faibles sont entraînés pour améliorer de manière itérative la qualité (réduire la perte) d'un modèle fort. Par exemple, un modèle faible peut être un modèle linéaire ou à arbre de décision de petite taille. Le modèle fort devient la somme de tous les modèles faibles précédemment entraînés.

Dans la forme la plus simple d'optimisation de gradient, à chaque itération, un modèle faible est entraîné à prédire le gradient de perte du modèle fort. Ensuite, la sortie du modèle efficace est mise à jour en soustrayant le gradient prédit, comme pour la descente de gradient.

$$F_{0} = 0$$ $$F_{i+1} = F_i - \xi f_i $$

où :

  • $F_{0}$ est le modèle fort de départ.
  • $F_{i+1}$ est le prochain modèle performant.
  • $F_{i}$ est le modèle solide actuel.
  • $\xi$ est une valeur comprise entre 0,0 et 1,0 appelée rétrécissement, qui est analogue au taux d'apprentissage dans la descente de gradient.
  • $f_{i}$ est le modèle faible entraîné pour prédire le gradient de perte de $F_{i}$.

Les variantes modernes de l'amélioration des gradients incluent également la seconde dérivée (hessienne) de la perte dans leur calcul.

Les arbres de décision sont couramment utilisés comme modèles faibles dans l'optimisation de gradient. Consultez la section Arborescences de décision à boosting de gradient.

I

chemin d'inférence

#df

Dans un arbre de décision, lors de l'inférence, l'itinéraire d'un exemple particulier part de la racine vers d'autres conditions, se terminant par une feuille. Par exemple, dans l'arbre de décision suivant, les flèches plus épaisses indiquent le chemin d'inférence pour un exemple avec les valeurs de caractéristiques suivantes:

  • x = 7
  • y = 12
  • z = -3

Dans l'illustration suivante, le chemin d'inférence passe par trois conditions avant d'atteindre la feuille (Zeta).

Arbre de décision composé de quatre conditions et de cinq feuilles.
          La condition racine est (x > 0). Puisque la réponse est "Oui", le chemin d'inférence va de la racine à la condition suivante (y > 0).
          Puisque la réponse est "Oui", le chemin d'inférence passe ensuite à la condition suivante (z > 0). Puisque la réponse est "Non", le chemin d'inférence aboutit à son nœud terminal, qui est la feuille (Zeta).

Les trois épaisses flèches indiquent le chemin d'inférence.

gain d'informations

#df

Dans les forêts de décision, différence entre l'entropie d'un nœud et la somme pondérée (par nombre d'exemples) de l'entropie de ses nœuds enfants. L'entropie d'un nœud est l'entropie des exemples de ce nœud.

Prenons l'exemple des valeurs d'entropie suivantes:

  • entropie du nœud parent = 0,6
  • entropie d'un nœud enfant avec 16 exemples pertinents = 0,2
  • entropie d'un autre nœud enfant avec 24 exemples pertinents = 0,1

Ainsi, 40% des exemples se trouvent dans un nœud enfant et 60% dans l'autre nœud enfant. Par conséquent :

  • Somme d'entropie pondérée des nœuds enfants = (0,4 * 0,2) + (0,6 * 0,1) = 0,14

Le gain d'informations est donc:

  • gain d'informations = entropie du nœud parent - somme d'entropie pondérée des nœuds enfants
  • gain d'informations = 0,6 - 0,14 = 0,46

La plupart des séparateurs cherchent à créer des conditions qui maximisent le gain d'informations.

état intégré à l'ensemble

#df

Dans un arbre de décision, condition qui teste la présence d'un élément dans un ensemble d'éléments. Par exemple, voici une condition intégrée:

  house-style in [tudor, colonial, cape]

Lors de l'inférence, si la valeur de l'élément de style maison est tudor, colonial ou cape, cette condition prend la valeur "Oui". Si la valeur de l'élément géographique de style maison est différente (par exemple, ranch), cette condition prend la valeur "Non".

Les conditions intégrées conduisent généralement à des arbres de décision plus efficaces que les conditions qui testent les caractéristiques à encodage one-hot.

L

feuille

#df

Tout point de terminaison d'un arbre de décision. Contrairement à une condition, une feuille n'effectue pas de test. Une feuille est plutôt une prédiction possible. Une feuille est également le nœud terminal d'un chemin d'inférence.

Par exemple, l'arbre de décision suivant contient trois feuilles:

Arbre de décision avec deux conditions menant à trois feuilles.

N

nœud (arbre de décision)

#df

Dans un arbre de décision, toute condition ou feuille.

Arbre de décision avec deux conditions et trois feuilles.

condition non binaire

#df

Une condition contenant plus de deux résultats possibles. Par exemple, la condition non binaire suivante contient trois résultats possibles:

Une condition (number_of_legs = ?) qui conduit à trois résultats possibles. Un résultat (number_of_legs = 8) mène à une feuille nommée "araignée". Un deuxième résultat (number_of_legs = 4) mène à une feuille nommée "dog". Un troisième résultat (number_of_legs = 2) mène à une feuille nommée "manchot".

O

condition oblique

#df

Dans un arbre de décision, une condition impliquant plusieurs fonctionnalités. Par exemple, si la hauteur et la largeur sont toutes deux des caractéristiques, ce qui suit est une condition oblique:

  height > width

À comparer à la condition alignée sur l'axe.

Évaluation lors de la sortie des bagages (évaluation lors de la première utilisation)

#df

Mécanisme permettant d'évaluer la qualité d'une forêt de décision en testant chaque arbre de décision par rapport aux exemples non utilisés lors de l'entraînement de cet arbre de décision. Par exemple, dans le schéma suivant, notez que le système entraîne chaque arbre de décision sur environ deux tiers des exemples, puis l'évalue sur le tiers restant des exemples.

Forêt de décision composée de trois arbres de décision.
          Un arbre de décision est entraîné sur deux tiers des exemples, puis utilise le tiers restant pour l'évaluation OOB.
          Un deuxième arbre de décision s'entraîne sur un tiers différent des exemples de l'arbre de décision précédent, puis utilise un tiers différent pour l'évaluation OOB de l'arbre de décision précédent.

L'évaluation "Out-of-bag" est une approximation prudente et efficace du calcul du mécanisme de validation croisée. Lors de la validation croisée, un modèle est entraîné pour chaque cycle de validation croisée (par exemple, 10 modèles sont entraînés lors d'une validation croisée en 10 fois). Avec l'évaluation OOB, un seul modèle est entraîné. Étant donné que le bagging retient certaines données de chaque arbre pendant l'entraînement, l'évaluation OOB peut utiliser ces données pour estimer la validation croisée.

P

importances des variables de permutation

#df

Type d'importance variable qui évalue l'augmentation de l'erreur de prédiction d'un modèle après la permutation des valeurs de la caractéristique. L'importance de la variable de permutation est une métrique indépendante du modèle.

R

forêt aléatoire

#df

Un ensemble d'arbres de décision dans lequel chaque arbre de décision est entraîné avec un bruit aléatoire spécifique, tel que le bagage.

Les forêts aléatoires sont un type de forêt de décision.

root

#df

Nœud de départ (la première condition) d'un arbre de décision. Par convention, les diagrammes placent la racine en haut de l'arbre de décision. Exemple :

Arbre de décision avec deux conditions et trois feuilles. La condition de départ (x > 2) est la racine.

S

échantillonnage avec remplacement

#df

Méthode de sélection d'éléments dans un ensemble d'éléments candidats dans lesquels le même élément peut être sélectionné plusieurs fois. L'expression "avec remplacement" signifie qu'après chaque sélection, l'élément sélectionné est renvoyé dans le pool d'éléments candidats. La méthode inverse, l'échantillonnage sans remplacement, signifie qu'un élément candidat ne peut être sélectionné qu'une seule fois.

Prenons l'exemple du jeu de fruits suivant:

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

Supposons que le système choisit fig de manière aléatoire comme premier élément. Si vous utilisez l'échantillonnage avec remplacement, le système choisit le deuxième élément de l'ensemble suivant:

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

Oui, il s'agit du même ensemble qu'auparavant. Le système pourrait donc potentiellement sélectionner à nouveau fig.

Si vous utilisez l'échantillonnage sans remplacement, une fois sélectionné, l'échantillon ne peut plus être sélectionné. Par exemple, si le système choisit aléatoirement fig comme premier échantillon, fig ne peut pas être choisi à nouveau. Par conséquent, le système choisit le deuxième échantillon dans l'ensemble réduit suivant:

fruit = {kiwi, apple, pear, cherry, lime, mango}

rétrécissement

#df

Un hyperparamètre dans l'optimisation de gradient qui contrôle le surapprentissage. Le rétrécissement lors de l'optimisation de gradient est analogue au taux d'apprentissage dans la descente de gradient. Le rétrécissement est une valeur décimale entre 0,0 et 1,0. Une valeur de rétrécissement plus faible réduit le surapprentissage plus qu'une valeur de rétrécissement plus élevée.

split

#df

Dans une arborescence de décision, autre nom attribué à une condition.

séparateur

#df

Lors de l'entraînement d'un arbre de décision, la routine (et l'algorithme) responsables de la recherche de la meilleure condition sur chaque nœud

T

test

#df

Dans une arborescence de décision, autre nom attribué à une condition.

seuil (pour les arbres de décision)

#df

Dans une condition alignée sur l'axe, valeur à laquelle une caractéristique est comparée. Par exemple, 75 est la valeur de seuil dans la condition suivante:

grade >= 75

V

importances des variables

#df

Ensemble de scores qui indique l'importance relative de chaque caractéristique pour le modèle.

Prenons l'exemple d'un arbre de décision qui estime les prix d'une maison. Supposons que cet arbre de décision utilise trois caractéristiques: la taille, l'âge et le style. Si un ensemble d'importances variables pour les trois éléments géographiques est calculé comme étant {size=5.8, age=2.5, style=4.7}, la taille est plus importante pour l'arbre de décision que l'âge ou le style.

Il existe différentes métriques d'importance variable, qui peuvent informer les experts en ML des différents aspects des modèles.

 W

la sagesse des foules

#df

L'idée que calculer la moyenne des opinions ou des estimations d'un grand groupe de personnes ("la foule") produit souvent des résultats étonnamment bons. Prenons l'exemple d'un jeu dans lequel les gens devinent le nombre de bonbons emballés dans un grand bocal. Bien que la plupart des estimations individuelles soient inexactes, il a été démontré empiriquement que la moyenne de toutes les suppositions est étonnamment proche du nombre réel de fèves dans le bocal.

Les ensembles sont une analogie logicielle de la sagesse des gens. Même si des modèles individuels effectuent des prédictions extrêmement imprécises, la moyenne des prédictions de nombreux modèles génère souvent des prédictions étonnamment bonnes. Par exemple, bien qu'un arbre de décision individuel puisse faire de mauvaises prédictions, une forêt de décision donne souvent de très bonnes prédictions.