Importance des variables

L'importance des variables (également appelée importance des caractéristiques) est un score qui indique l'importance d'une caractéristique pour le modèle. Par exemple, si pour un modèle donné avec deux caractéristiques d'entrée "f1" et "f2", les importances des variables sont {f1=5,8, f2=2,5}, la caractéristique "f1" est plus "importante" pour le modèle que la caractéristique "f2". Comme pour les autres modèles de machine learning, l'importance des variables est un moyen simple de comprendre le fonctionnement d'un arbre de décision.

Vous pouvez appliquer des importances de variables indépendantes du modèle, telles que les importances des variables de permutation, aux arbres de décision.

Les arbres de décision ont également des importances de variables spécifiques, par exemple:

  • Somme du score de fractionnement avec une variable donnée.
  • Nombre de nœuds avec une variable donnée.
  • Profondeur moyenne de la première occurrence d'une fonctionnalité dans tous les chemins d'arborescence.

L'importance des variables peut varier en fonction de certaines qualités, par exemple:

  • sémantique
  • Google.
  • du bucket

De plus, l'importance des variables fournit différents types d'informations sur:

  • le modèle
  • l'ensemble de données ;
  • le processus d'entraînement ;

Par exemple, le nombre de conditions contenant une caractéristique spécifique indique dans quelle mesure un arbre de décision examine cette caractéristique spécifique, ce qui peut indiquer une importance variable. Après tout, l'algorithme d'apprentissage n'aurait pas utilisé une fonctionnalité dans plusieurs conditions si elle n'avait pas d'importance. Toutefois, la présence d'une même fonctionnalité dans plusieurs conditions peut également indiquer qu'un modèle tente de généraliser le schéma d'une fonctionnalité, mais ne parvient pas à le faire. Par exemple, cela peut se produire lorsqu'une fonctionnalité n'est qu'un exemple d'identifiant sans information à généraliser.

En revanche, une valeur élevée pour l'importance des variables de permutation indique que la suppression d'une caractéristique nuit au modèle, ce qui est une indication de l'importance des variables. Toutefois, si le modèle est robuste, la suppression d'une caractéristique ne risque pas de l'affecter.

Étant donné que différentes importances des variables fournissent des informations sur différents aspects des modèles, examiner plusieurs importances des variables en même temps est utile. Par exemple, si une caractéristique est importante selon toutes les importances des variables, elle est probablement importante. Autre exemple : si une caractéristique a une importance de variable "nombre de nœuds" élevée et une importance de variable "permutation" faible, cette caractéristique peut être difficile à généraliser et peut nuire à la qualité du modèle.

Code YDF
Dans YDF, vous pouvez afficher l'importance des variables d'un modèle en appelant model.describe() et en consultant l'onglet "Importance des variables". Pour en savoir plus, consultez le tutoriel sur la compréhension des modèles.