Avaliação fora da bagagem
Florestas aleatórias não exigem um conjunto de dados de validação. A maioria das florestas aleatórias usa uma técnica chamada out-of-bag-evaluation (out-of-bag-evaluation, out-of-bag-evaluation, na sigla em inglês) para avaliar a qualidade do modelo. A avaliação OOB trata o conjunto de treinamento como se estivesse no conjunto de teste de uma validação cruzada.
Conforme explicado anteriormente, cada árvore de decisão em uma floresta aleatória é normalmente treinada em cerca de 67% dos exemplos de treinamento. Portanto, cada árvore de decisão não observa cerca de 33% dos exemplos de treinamento. O conceito central da avaliação da OOB é o seguinte:
- Avaliar a floresta aleatória no conjunto de treinamento
- Para cada exemplo, use apenas as árvores de decisão que não viram o exemplo durante o treinamento.
A tabela a seguir ilustra a avaliação OOB de uma floresta aleatória com três árvores de decisão treinadas em seis exemplos. (Sim, esta é a mesma tabela da seção "Bagagem"). A tabela mostra qual árvore de decisão é usada com qual exemplo durante a avaliação OOB.
Tabela 7. Avaliação OOB: os números representam o número de vezes que um determinado exemplo de treinamento é usado durante o treinamento do exemplo em questão.
Exemplos de treinamento | Exemplos de avaliação OOB | ||||||
---|---|---|---|---|---|---|---|
#1 | #2 | #3 | #4 | #5 | #6 | ||
conjunto de dados original | 1 | 1 | 1 | 1 | 1 | 1 | |
árvore de decisão 1 | 1 | 1 | 0 | 2 | 1 | 1 | #3 |
árvore de decisão 2 | 3 | 0 | 1 | 0 | 2 | 0 | 2, 4 e 6 |
árvore de decisão 3 | 0 | 1 | 3 | 1 | 0 | 1 | 1 e 5 |
No exemplo mostrado na Tabela 7, as previsões de OOB para o exemplo de treinamento 1 serão calculadas com a árvore de decisão 3, já que as árvores de decisão 1 e 2 usaram esse exemplo para treinamento. Na prática, em um conjunto de dados de tamanho razoável e com algumas árvores de decisão, todos os exemplos têm uma previsão OOB.
compute_oob_performances=True
.
A avaliação OOB também é eficaz para calcular a importância da variável de permutação para modelos de floresta aleatórios. Em Importâncias variáveis, a importância da variável de permutação mede a importância de uma variável ao medir a queda na qualidade do modelo quando essa variável é embaralhada. A "importância da variável de permutação OOB" da floresta aleatória é uma importância de variável de permutação calculada usando a avaliação de OOB.
compute_oob_variable_importances=True
.