Importância das variáveis
A importância da variável (também conhecida como importância do recurso) é uma pontuação que indica o quanto um recurso é "importante" para o modelo. Por exemplo, se para um determinado modelo com duas características de entrada "f1" e "f2", as importâncias das variáveis forem {f1=5,8, f2=2,5}, o recurso "f1" é mais "importante" para o modelo do que o recurso "f2". Assim como em outros modelos de aprendizado de máquina, a importância da variável é uma maneira simples de entender como uma árvore de decisão funciona.
É possível aplicar importâncias de variáveis independentes do modelo, como importâncias de variáveis de permutação, a árvores de decisão.
As árvores de decisão também têm importâncias variáveis específicas, como:
- A soma da pontuação da divisão com uma variável específica.
- O número de nós com uma determinada variável.
- A profundidade média da primeira ocorrência de um elemento em todos os caminhos da árvore.
A importância das variáveis pode variar de acordo com qualidades como:
- semântica
- escalonar
- properties
Além disso, as importâncias das variáveis fornecem diferentes tipos de informações sobre:
- o modelo
- o conjunto de dados
- o processo de treinamento
Por exemplo, o número de condições que contêm um recurso específico indica o quanto uma árvore de decisão está analisando esse recurso específico, o que pode indicar a importância da variável. Afinal, o algoritmo de aprendizado não teria usado um recurso em várias condições se não fosse importante. No entanto, o mesmo recurso que aparece em várias condições também pode indicar que um modelo está tentando, mas não consegue, generalizar o padrão de um recurso. Por exemplo, isso pode acontecer quando um recurso é apenas um identificador de exemplo sem informações para generalizar.
Por outro lado, um valor alto para uma importância de variável de permutação alta indica que a remoção de um recurso prejudica o modelo, o que é uma indicação de importância variável. No entanto, se o modelo for robusto, a remoção de um recurso pode não prejudicar o modelo.
Como diferentes importâncias de variáveis informam sobre diferentes aspectos dos modelos, analisar várias importâncias de variáveis ao mesmo tempo é informativo. Por exemplo, se um recurso for importante de acordo com todas as importâncias variáveis, ele provavelmente será importante. Como outro exemplo, se um recurso tiver uma importância de variável alta de "número de nós" e uma importância de variável pequena de "permutação", esse recurso pode ser difícil de generalizar e prejudicar a qualidade do modelo.
model.describe()
e conferindo a guia "importância da variável".
Consulte o
tutorial de compreensão de modelos para mais detalhes.