Importancias de las variables

La importancia de la variable (también conocida como importancia de los atributos) es una puntuación que indica qué tan “importante” es un atributo para el modelo. Por ejemplo, si para un modelo determinado con dos atributos de entrada "f1" y "f2", las importancias de las variables son {f1=5.8, f2=2.5}, entonces el atributo "f1" es más "importante" para el modelo que el atributo "f2". Al igual que con otros modelos de aprendizaje automático, la importancia variable es una forma sencilla de comprender cómo funciona un árbol de decisiones.

Puedes aplicar importancias de variables agnósticas al modelo, como las importancias de variables de permutación, a árboles de decisión.

Los árboles de decisiones también tienen importancias de variables específicas, como las siguientes:

  • Es la suma de la puntuación de la división con una variable determinada.
  • Es la cantidad de nodos con una variable determinada.
  • La profundidad promedio del primer caso de un atributo en todas las rutas de árbol.

Las importancias de las variables pueden diferir en cualidades como las siguientes:

  • semántica
  • de Google.
  • properties

Además, las importancias variables proporcionan diferentes tipos de información sobre lo siguiente:

  • el modelo
  • el conjunto de datos
  • el proceso de entrenamiento

Por ejemplo, la cantidad de condiciones que contienen un atributo específico indica cuánto tiempo un árbol de decisión está observando ese atributo específico, lo que podría indicar la importancia de la variable. Después de todo, el algoritmo de aprendizaje no habría usado un atributo en varias condiciones si no hubiera tenido importancia. Sin embargo, el mismo atributo que aparece en varias condiciones también puede indicar que un modelo está intentando generalizar el patrón de un atributo, pero no lo hace. Por ejemplo, esto puede ocurrir cuando un atributo es solo un identificador de ejemplo sin información para generalizar.

Por otro lado, un valor alto para una importancia de variable de permutación alta indica que quitar un atributo perjudica el modelo, lo que indica que tiene una importancia variable. Sin embargo, si el modelo es sólido, quitar un atributo podría no dañarlo.

Debido a que las diferentes importancias de las variables informan sobre los distintos aspectos de los modelos, observar varias importancias de las variables al mismo tiempo es informativo. Por ejemplo, si un atributo es importante según todas las importancias de las variables, es probable que esta función también lo sea. Otro ejemplo, si un atributo tiene una importancia variable de “cantidad de nodos” alta y una importancia variable de “permutación” pequeña, es posible que este atributo sea difícil de generalizar y pueda dañar la calidad del modelo.

Código YDF
En YDF, puedes ver la importancia de las variables de un modelo llamando a model.describe() y observando la pestaña "importancia de la variable". Consulta el instructivo de comprensión del modelo para obtener más detalles.