Cette page contient les termes du glossaire de Decision Forests. Pour connaître tous les termes du glossaire, cliquez ici.
A
Échantillonnage d'attributs
Stratégie d'entraînement d'une forêt de décision dans laquelle chaque arbre de décision ne prend en compte qu'un sous-ensemble aléatoire des caractéristiques possibles lors de l'apprentissage de la condition. En général, un sous-ensemble différent de fonctionnalités est échantillonné pour chaque nœud. En revanche, lors de l'entraînement d'un arbre de décision sans échantillonnage d'attributs, toutes les caractéristiques possibles sont prises en compte pour chaque nœud.
condition alignée sur l'axe
Dans un arbre de décision, condition ne concernant qu'une seule fonctionnalité. Par exemple, si area
est une fonctionnalité, la condition suivante est une condition alignée sur l'axe:
area > 200
À comparer à la condition oblique.
B
bagging
Méthode permettant d'entraîner un ensemble, où chaque modèle constituant s'entraîne sur un sous-ensemble aléatoire d'exemples d'entraînement échantillonnés avec remplacement. Par exemple, une forêt d'arbres décisionnels est une collection d'arbres de décision entraînés avec le bagging.
Le terme bagging est l'abréviation de bootstrap aggregating.
Pour en savoir plus, consultez la section Forêts d'arbres aléatoires du cours "Forêts d'arbres décisionnels".
condition binaire
Dans un arbre de décision, condition qui n'a que deux résultats possibles, généralement oui ou non. Par exemple, la condition suivante est une condition binaire:
temperature >= 100
À comparer à la condition non binaire.
Pour en savoir plus, consultez la section Types de conditions du cours sur les forêts décisionnelles.
C
état
Dans un arbre de décision, tout nœud qui évalue une expression. Par exemple, la partie suivante d'un arbre de décision contient deux conditions:
Une condition est également appelée "split" ou "test".
Condition de contraste avec la feuille.
Voir également :
Pour en savoir plus, consultez la section Types de conditions du cours sur les forêts décisionnelles.
D
forêt de décision
Modèle créé à partir de plusieurs arbres de décision. Une forêt de décision effectue une prédiction en agrégation des prédictions de ses arbres de décision. Parmi les types de forêts d'arbres décisionnels populaires, citons les forêts aléatoires et les arbres de décision à boosting de gradient.
Pour en savoir plus, consultez la section Forêts de décision du cours sur les forêts de décision.
arbre de décision
Modèle d'apprentissage supervisé composé d'un ensemble de conditions et de feuilles organisées hiérarchiquement. Voici un exemple d'arbre de décision:
E
entropie
Dans la théorie de l'information, description de l'imprévisibilité d'une distribution de probabilité. L'entropie est également définie comme la quantité d'informations contenue dans chaque exemple. Une distribution a l'entropie la plus élevée possible lorsque toutes les valeurs d'une variable aléatoire sont également probables.
L'entropie d'un ensemble avec deux valeurs possibles, "0" et "1" (par exemple, les libellés dans un problème de classification binaire) se calcule comme suit:
H = -p log p - q log q = -p log p - (1-p) * log (1-p)
où :
- H est l'entropie.
- p est la fraction des exemples "1".
- q est la fraction des exemples "0". Notez que q = (1 - p).
- log est généralement log2. Dans ce cas, l'unité d'entropie est un bit.
Par exemple, supposons les éléments suivants :
- 100 exemples contiennent la valeur "1"
- 300 exemples contiennent la valeur "0"
La valeur d'entropie est donc la suivante:
- p = 0,25
- q = 0,75
- H = (-0,25)log2(0,25) - (0,75)log2(0,75) = 0,81 bit par exemple
Un ensemble parfaitement équilibré (par exemple, 200 "0" et 200 "1") aurait une entropie de 1,0 bit par exemple. À mesure qu'un ensemble devient plus déséquilibré, son entropie tend vers 0,0.
Dans les arbres de décision, l'entropie permet de formuler le gain d'information pour aider le séparateur à sélectionner les conditions au cours de la croissance d'un arbre de décision de classification.
Comparez l'entropie à:
- impureté de Gini
- Fonction de perte entropie croisée
L'entropie est souvent appelée entropie de Shannon.
Pour en savoir plus, consultez la section Diviseur exact pour la classification binaire avec des caractéristiques numériques dans le cours sur les forêts de décision.
F
importance des caractéristiques
Synonyme de importance des variables.
G
impureté de Gini
Métrique semblable à l'entropie. Les séparateurs utilisent des valeurs dérivées de l'impureté de Gini ou de l'entropie pour composer des conditions de classification des arbres de décision. Le gain d'information est dérivé de l'entropie. Il n'existe pas de terme équivalent universellement accepté pour la métrique dérivée de l'impureté de Gini. Toutefois, cette métrique sans nom est tout aussi importante que le gain d'informations.
L'impureté de Gini est également appelée indice de Gini ou simplement Gini.
Arbres de décision à boosting de gradient (GBT)
Type de forêt de décision dans lequel:
- L'entraînement repose sur le boosting par gradient.
- Le modèle faible est un arbre de décision.
Pour en savoir plus, consultez la section Arbres de décision à boosting de gradient du cours sur les forêts de décision.
boostage par gradient
Algorithme d'entraînement dans lequel des modèles faibles sont entraînés pour améliorer de manière itérative la qualité (réduire la perte) d'un modèle fort. Par exemple, un modèle faible peut être un modèle linéaire ou un petit modèle d'arbre de décision. Le modèle fort devient la somme de tous les modèles faibles précédemment entraînés.
Dans la forme la plus simple du renforcement par gradient, à chaque itération, un modèle faible est entraîné pour prédire le gradient de perte du modèle fort. Ensuite, la sortie du modèle fort est mise à jour en soustrayant le gradient prévu, comme dans la descente du gradient.
où :
- $F_{0}$ est le modèle fort de départ.
- $F_{i+1}$ est le prochain modèle performant.
- $F_{i}$ est le modèle fort actuel.
- $\xi$ est une valeur comprise entre 0,0 et 1,0 appelée rétrécissement, qui est analogue au taux d'apprentissage dans la descente du gradient.
- $f_{i}$ est le modèle faible entraîné pour prédire le gradient de perte de $F_{i}$.
Les variantes modernes du boosting par gradient incluent également la seconde dérivée (Hessian) de la perte dans leur calcul.
Les arbres de décision sont couramment utilisés comme modèles faibles dans le boosting par gradient. Consultez les arbres de décision à boosting de gradient.
I
chemin d'inférence
Dans un arbre de décision, lors de l'inférence, le chemin qu'un exemple particulier emprunte de la racine à d'autres conditions se termine par une feuille. Par exemple, dans l'arborescence de décision suivante, les flèches plus épaisses indiquent le chemin d'inférence pour un exemple avec les valeurs de caractéristique suivantes:
- x = 7
- y = 12
- z = -3
Le chemin d'inférence de l'illustration suivante passe par trois conditions avant d'atteindre la feuille (Zeta
).
Les trois flèches épaisses indiquent le chemin d'inférence.
Pour en savoir plus, consultez la section Arbres de décision du cours "Forêts de décision".
gain d'informations
Dans les forêts de décision, différence entre l'entropie d'un nœud et la somme pondérée (par le nombre d'exemples) de l'entropie de ses nœuds enfants. L'entropie d'un nœud correspond à l'entropie des exemples de ce nœud.
Prenons l'exemple des valeurs d'entropie suivantes:
- Entropie du nœud parent = 0,6
- Entropie d'un nœud enfant avec 16 exemples pertinents = 0,2
- Entropie d'un autre nœud enfant avec 24 exemples pertinents = 0,1
Ainsi, 40% des exemples se trouvent dans un nœud enfant et 60% dans l'autre. Par conséquent :
- Somme pondérée de l'entropie des nœuds enfants = (0,4 * 0,2) + (0,6 * 0,1) = 0,14
Le gain d'information est donc le suivant:
- Gain d'information = entropie du nœud parent - somme pondérée de l'entropie des nœuds enfants
- Gain d'information = 0,6 - 0,14 = 0,46
La plupart des séparateurs cherchent à créer des conditions qui maximisent le gain d'informations.
condition définie
Dans un arbre de décision, condition qui vérifie la présence d'un élément dans un ensemble d'éléments. Par exemple, la condition suivante est définie dans un ensemble:
house-style in [tudor, colonial, cape]
Lors de l'inférence, si la valeur de la fonctionnalité de style de maison est tudor
, colonial
ou cape
, cette condition est évaluée à "Oui". Si la valeur de la fonctionnalité de style de maison est différente (par exemple, ranch
), cette condition renvoie la valeur "Non".
Les conditions du jeu de données génèrent généralement des arbres de décision plus efficaces que les conditions qui testent des caractéristiques encodées en one-hot.
L
feuille
Tout point de terminaison dans un arbre de décision. Contrairement à une condition, une feuille n'effectue pas de test. Il s'agit plutôt d'une prédiction possible. Une feuille est également le nœud terminal d'un chemin d'inférence.
Par exemple, l'arbre de décision suivant contient trois feuilles:
N
nœud (arbre de décision)
Dans un arbre de décision, toute condition ou feuille.
condition non binaire
Condition contenant plus de deux résultats possibles. Par exemple, la condition non binaire suivante contient trois résultats possibles:
O
condition oblique
Dans un arbre de décision, condition impliquant plusieurs caractéristiques. Par exemple, si la hauteur et la largeur sont toutes deux des caractéristiques, la condition suivante est oblique:
height > width
À comparer à la condition alignée sur l'axe.
évaluation hors échantillon (évaluation hors échantillon)
Mécanisme permettant d'évaluer la qualité d'une forêt d'arbres de décision en testant chaque arbre de décision avec les exemples non utilisés lors de l'entraînement de cet arbre de décision. Par exemple, dans le diagramme suivant, notez que le système entraîne chaque arbre de décision sur environ deux tiers des exemples, puis les évalue par rapport au tiers restant.
L'évaluation hors échantillon est une approximation efficace et conservatrice du mécanisme de validation croisée. Dans la validation croisée, un modèle est entraîné pour chaque cycle de validation croisée (par exemple, 10 modèles sont entraînés dans une validation croisée à 10 fois). Avec l'évaluation hors bande, un seul modèle est entraîné. Étant donné que le bagging retient certaines données de chaque arbre pendant l'entraînement, l'évaluation hors échantillon peut utiliser ces données pour approximer la validation croisée.
P
Importances des variables de permutation
Type d'importance des variables qui évalue l'augmentation de l'erreur de prédiction d'un modèle après avoir permuté les valeurs de la caractéristique. L'importance des variables de permutation est une métrique indépendante du modèle.
R
forêt d'arbres décisionnels
Ensemble d'arbres de décision dans lequel chaque arbre de décision est entraîné avec un bruit aléatoire spécifique, tel que le bagging.
Les forêts d'arbres décisionnels sont un type de forêt de décision.
root
Nœud de départ (première condition) d'un arbre de décision. Par convention, les diagrammes placent la racine en haut de l'arbre de décision. Exemple :
S
Échantillonnage avec remplacement
Méthode permettant de sélectionner des éléments parmi un ensemble d'éléments candidats dans lequel le même élément peut être sélectionné plusieurs fois. L'expression "avec remplacement" signifie qu'après chaque sélection, l'élément sélectionné est renvoyé dans l'ensemble d'éléments candidats. La méthode inverse, l'échantillonnage sans remplacement, signifie qu'un élément candidat ne peut être sélectionné qu'une seule fois.
Prenons l'exemple suivant:
fruit = {kiwi, apple, pear, fig, cherry, lime, mango}
Supposons que le système choisisse de manière aléatoire fig
comme premier élément.
Si vous utilisez l'échantillonnage avec remplacement, le système sélectionne le deuxième élément de l'ensemble suivant:
fruit = {kiwi, apple, pear, fig, cherry, lime, mango}
Oui, il s'agit du même ensemble qu'auparavant. Le système pourrait donc choisir fig
à nouveau.
Si vous utilisez l'échantillonnage sans remplacement, une fois qu'un échantillon a été sélectionné, vous ne pouvez plus le sélectionner à nouveau. Par exemple, si le système choisit de manière aléatoire fig
comme premier échantillon, fig
ne peut plus être sélectionné. Par conséquent, le système choisit le deuxième échantillon de l'ensemble (réduit) suivant:
fruit = {kiwi, apple, pear, cherry, lime, mango}
rétrécissement
Hyperparamètre dans le boosting par gradient qui contrôle l'surajustement. La rétraction dans le boosting par gradient est analogue au taux d'apprentissage dans la descente de gradient. Le rétrécissement est une valeur décimale comprise entre 0,0 et 1,0. Une valeur de rétrécissement plus faible réduit le surajustement plus qu'une valeur de rétrécissement plus élevée.
split
Dans un arbre de décision, autre nom d'une condition.
séparateur
Lors de l'entraînement d'un arbre de décision, routine (et algorithme) chargée de trouver la meilleure condition à chaque nœud.
T
test
Dans un arbre de décision, autre nom d'une condition.
seuil (pour les arbres de décision)
Dans une condition alignée sur l'axe, valeur à laquelle une entité est comparée. Par exemple, 75 est la valeur de seuil dans la condition suivante:
grade >= 75
V
importance des variables
Ensemble de scores qui indique l'importance relative de chaque caractéristique pour le modèle.
Prenons l'exemple d'un arbre de décision qui estime les prix des maisons. Supposons que cet arbre de décision utilise trois caractéristiques: la taille, l'âge et le style. Si un ensemble d'importances de variables pour les trois caractéristiques est calculé comme étant {size=5.8, age=2.5, style=4.7}, la taille est plus importante pour l'arbre de décision que l'âge ou le style.
Il existe différentes métriques d'importance des variables, qui peuvent renseigner les experts en ML sur différents aspects des modèles.
W
Sagesse de la foule
Idée selon laquelle la moyenne des opinions ou des estimations d'un grand groupe de personnes (la "foule") produit souvent des résultats étonnamment bons. Prenons l'exemple d'un jeu dans lequel les participants doivent deviner le nombre de bonbons enrobés dans un grand bocal. Bien que la plupart des estimations individuelles soient inexactes, la moyenne de toutes les estimations s'est avérée empiriquement étonnamment proche du nombre réel de bonbons dans le pot.
Les ensembles sont un équivalent logiciel de la sagesse de la foule. Même si des modèles individuels font des prédictions extrêmement inexactes, la moyenne des prédictions de nombreux modèles génère souvent des prédictions étonnamment bonnes. Par exemple, bien qu'un arbre de décision individuel puisse effectuer de mauvaises prédictions, une forêt de décision génère souvent de très bonnes prédictions.