Importancias de las variables
La importancia de las variables (también conocida como importancia de los atributos) es una puntuación que indica qué tan "importante" es un atributo para el modelo. Por ejemplo, si para un modelo determinado con dos características de entrada "f1" y "f2", las importancias de las variables son {f1=5.8, f2=2.5}, entonces la característica "f1" es más "importante" para el modelo que la característica "f2". Al igual que con otros modelos de aprendizaje automático, la importancia de las variables es una manera simple de comprender cómo funciona un árbol de decisión.
Puedes aplicar importancias de variables independientes del modelo, como las importancias de las variables de permutación, a los árboles de decisión.
Los árboles de decisión también tienen importancias de variables específicas, como las siguientes:
- Es la suma de la puntuación de división con una variable determinada.
- Es la cantidad de nodos con una variable determinada.
- Es la profundidad promedio de la primera ocurrencia de un componente en todas las rutas del árbol.
Las importancias de las variables pueden diferir según cualidades como las siguientes:
- semántica
- de Google.
- properties
Además, las importancias de las variables proporcionan diferentes tipos de información sobre lo siguiente:
- el modelo
- el conjunto de datos
- el proceso de entrenamiento
Por ejemplo, la cantidad de condiciones que contienen un atributo específico indica cuánto un árbol de decisión analiza este atributo específico, lo que podría indicar la importancia de la variable. Después de todo, el algoritmo de aprendizaje no habría usado una función en varias condiciones si no fuera importante. Sin embargo, la misma función que aparece en varias condiciones también puede indicar que un modelo intenta generalizar el patrón de una función, pero no lo logra. Por ejemplo, esto puede ocurrir cuando un componente es solo un identificador de ejemplo sin información para generalizar.
Por otro lado, un valor alto para una importancia de variable de permutación alta indica que quitar un atributo perjudica al modelo, lo que es una indicación de la importancia de la variable. Sin embargo, si el modelo es sólido, quitar cualquier característica podría no perjudicarlo.
Dado que las diferentes importancias de las variables informan sobre diferentes aspectos de los modelos, es informativo observar varias importancias de las variables al mismo tiempo. Por ejemplo, si un atributo es importante según todas las importancias de las variables, es probable que sea importante. Como otro ejemplo, si un atributo tiene una importancia alta de la variable "cantidad de nodos" y una importancia baja de la variable "permutación", es posible que sea difícil generalizar este atributo y que pueda perjudicar la calidad del modelo.
model.describe()
y mirando la pestaña "importancia de las variables".
Consulta el
instructivo de comprensión de modelos para obtener más detalles.