Arbres de décision

Les modèles de forêt de décision sont composés d'arbres de décision. Forêt de décision les algorithmes d'apprentissage automatique (comme les forêts d'arbres décisionnels) reposent, au moins en partie, pour l'apprentissage des arbres de décision.

Dans cette section du cours, vous étudierez un petit exemple de jeu de données et apprendrez comment un seul arbre de décision est entraîné. Dans les sections suivantes, vous apprendrez les arbres de décision sont combinés pour entraîner les forêts de décision.

Code YDF

Dans YDF, utilisez l'apprenant CART pour entraîner des modèles d'arbre de décision individuels:

# https://ydf.readthedocs.io/en/latest/py_api/CartLearner
import ydf
model = ydf.CartLearner(label="my_label").train(dataset)

Le modèle

Un arbre de décision est un modèle composé d'un ensemble de "questions" organisé hiérarchiquement sous la forme d’un arbre. Les questions sont généralement appelées condition, split ou test. Nous utiliserons le terme "état" dans ce cours. Chaque nœud non-feuille contient une condition, et chaque nœud feuille contient une prédiction.

Les arbres botaniques poussent généralement avec la racine située à la base. Toutefois, la décision les arbres sont généralement représentés par la racine (le premier nœud) en haut.

Arbre de décision contenant deux conditions et trois feuilles. Le premier
condition (la racine) est num_legs >= 3 ; la deuxième condition est
num_eyes >= 3. Les trois feuilles sont un pingouin, une araignée,
et "chien".

<ph type="x-smartling-placeholder"></ph> Figure 1. Un arbre de décision de classification simple. La légende en vert ne fait pas partie de l'arbre de décision.

 

L'inférence d'un modèle d'arbre de décision est calculée en acheminant un exemple à partir de racine (en haut) à l'un des nœuds feuilles (en bas) selon le et conditions d'exploitation. La valeur de la feuille atteinte est la prédiction de l'arbre de décision. L'ensemble des nœuds visités est appelé chemin d'inférence. Par exemple : considérez les valeurs de caractéristique suivantes:

num_legs num_eyes
4 2

La prédiction serait dog. Le chemin d'inférence est le suivant:

  1. num_legs ≥ 3 → Oui
  2. num_eyes ≥ 3 → Non

Même illustration que la figure 1, mais cette illustration montre les
  chemin d&#39;inférence à travers deux conditions, se terminant dans la feuille pour &quot;dog&quot;.

<ph type="x-smartling-placeholder"></ph> Figure 2. Chemin d'inférence qui culmine dans la feuille *chien* dans l'exemple *{num_legs : 4, num_eyes : 2}*.

 

Dans l'exemple précédent, les feuilles de l'arbre de décision contiennent des prédictions ; c'est-à-dire que chaque feuille contient une espèce animale parmi un ensemble d'espèces possibles.

De même, les arbres de décision peuvent prédire des valeurs numériques en étiquetant les feuilles avec des prédictions régressives (valeurs numériques). Par exemple, la décision suivante "tree" prédit un score numérique indiquant le côté mignon d'un animal, compris entre 0 et 10.

Arbre de décision dans lequel chaque feuille contient une valeur différente
  numéro.

<ph type="x-smartling-placeholder"></ph> Figure 3. Arbre de décision qui effectue une prédiction numérique.