Importações variáveis
A importância da variável, também conhecida como importância do atributo, é uma pontuação que indica a importância de um atributo para o modelo. Por exemplo, se em um determinado modelo com dois atributos de entrada "f1" e "f2", as importâncias das variáveis são {f1=5.8, f2=2.5}, o atributo "f1" é mais "importante" para o modelo do que o atributo "f2". Tal como acontece com outros modelos de machine learning, a importância variável é uma maneira simples de entender como uma árvore de decisão funciona.
É possível aplicar importâncias de variáveis independentes de modelo, como importâncias de variáveis de permutação, a árvores de decisão.
As árvores de decisão também têm importâncias variáveis específicas, como:
- A soma da pontuação da divisão com uma determinada variável.
- O número de nós com uma determinada variável.
- A profundidade média da primeira ocorrência de um recurso em todos os caminhos de árvore.
As importâncias das variáveis podem variar de acordo com as qualidades, como:
- semântica
- escalonar
- properties
Além disso, as importâncias de variáveis fornecem diferentes tipos de informações sobre:
- o modelo
- o conjunto de dados
- o processo de treinamento
Por exemplo, o número de condições que contêm um atributo específico indica quanto uma árvore de decisão está analisando esse atributo específico, o que pode indicar a importância variável. Afinal, o algoritmo de aprendizado não teria usado um recurso em várias condições se isso não importasse. No entanto, o mesmo atributo que aparece em várias condições também pode indicar que um modelo está tentando, mas falhando em generalizar o padrão de um recurso. Por exemplo, isso pode acontecer quando um recurso é apenas um identificador de exemplo, sem informações para generalizar.
Por outro lado, um valor alto para uma importância variável de alta permutação indica que a remoção de um atributo prejudica o modelo, o que é uma indicação de importância variável. No entanto, se o modelo for robusto, remover qualquer atributo pode não prejudicá-lo.
Como diferentes importâncias de variáveis informam aspectos distintos dos modelos, analisar várias importâncias de variáveis ao mesmo tempo é informativo. Por exemplo, se um atributo for importante de acordo com todas as importâncias de variáveis, ele provavelmente será importante. Como outro exemplo, se um recurso tiver uma importância variável de "número de nós" e uma importância variável de "permutação" pequena, esse recurso pode ser difícil de generalizar e pode prejudicar a qualidade do modelo.
model.describe()
e analisando a guia "importância da variável".
Consulte o
tutorial de compreensão de modelo para mais detalhes.