Importances variables

L'importance variable (également appelée importance des caractéristiques) est un score qui indique l'importance d'une caractéristique pour le modèle. Par exemple, si pour un modèle donné comportant deux caractéristiques d'entrée "f1" et "f2", les importances des variables sont {f1=5.8, f2=2.5}, la caractéristique "f1" est plus "importante" pour le modèle que la caractéristique "f2". Comme pour les autres modèles de machine learning, l'importance variable est un moyen simple de comprendre le fonctionnement d'un arbre de décision.

Vous pouvez appliquer aux arbres de décision des importances des variables indépendantes du modèle, telles que l'importance des variables de permutation.

Les arbres de décision ont également des importances variables spécifiques, telles que:

  • La somme des scores de fractionnement avec une variable donnée.
  • Nombre de nœuds avec une variable donnée.
  • Profondeur moyenne de la première occurrence d'un élément géographique sur l'ensemble des chemins de l'arbre.

Les importances variables peuvent varier en fonction de qualités telles que:

  • sémantique
  • Google.
  • du bucket

De plus, les importances variables fournissent différents types d'informations sur:

  • le modèle
  • le jeu de données
  • le processus d'entraînement

Par exemple, le nombre de conditions contenant une caractéristique spécifique indique l'importance que l'arbre de décision examine pour cette caractéristique spécifique, ce qui peut indiquer une importance variable. Après tout, l'algorithme d'apprentissage n'aurait pas utilisé une caractéristique dans plusieurs conditions si cela n'avait pas d'importance. Toutefois, l'apparition de la même caractéristique dans plusieurs conditions peut également indiquer qu'un modèle tente de généraliser le modèle d'une caractéristique, mais ne parvient pas à la généraliser. Cela peut se produire, par exemple, lorsqu'une caractéristique n'est qu'un exemple d'identifiant sans aucune information à généraliser.

En revanche, une valeur élevée pour une importance élevée de la variable de permutation indique que la suppression d'une caractéristique nuit au modèle, ce qui indique une importance variable. Toutefois, si le modèle est robuste, la suppression d'une seule caractéristique ne lui nuirea pas.

Étant donné que les différentes importances des variables renseignent sur les différents aspects des modèles, l'analyse simultanée de plusieurs importances variables en même temps est instructif. Par exemple, si une caractéristique est importante compte tenu de toutes les importances variables, elle est probablement importante. Autre exemple : si une caractéristique a une importance variable "nombre de nœuds" élevée et une importance variable "permutation" faible, cette caractéristique peut être difficile à généraliser et nuire à la qualité du modèle.

Code YDF
Dans YDF, vous pouvez voir l'importance variable d'un modèle en appelant model.describe() et en consultant l'onglet "Importance de la variable". Pour en savoir plus, consultez le tutoriel de compréhension des modèles.