Avaliação fora do saco
As florestas aleatórias não exigem um conjunto de dados de validação. A maioria das florestas aleatórias usa uma técnica chamada avaliação fora do saco (OOB avaliação) para avaliar a qualidade do modelo. A avaliação OOB trata o conjunto de treinamento como se estivesse no conjunto de teste de uma validação cruzada.
Como explicado anteriormente, cada árvore de decisão em uma floresta aleatória é normalmente treinada em cerca de 67% dos exemplos de treinamento. Portanto, cada árvore de decisão não tem acesso a aproximadamente 33% dos exemplos de treinamento. A ideia central da avaliação OOB é a seguinte:
- Avaliar a floresta aleatória no conjunto de treinamento.
- Para cada exemplo, use apenas as árvores de decisão que não viram o exemplo durante o treinamento.
A tabela a seguir ilustra a avaliação OOB de uma floresta aleatória com três árvores de decisão treinadas em seis exemplos. Sim, esta é a mesma tabela da seção "Embalagem". A tabela mostra qual árvore de decisão é usada com qual exemplo durante a avaliação OOB.
Tabela 7. Avaliação OOB: os números representam o número de vezes que um determinado exemplo de treinamento é usado durante o treinamento do exemplo especificado.
Exemplos de treinamento | Exemplos de avaliação de OOB | ||||||
---|---|---|---|---|---|---|---|
#1 | #2 | #3 | #4 | #5 | #6 | ||
conjunto de dados original | 1 | 1 | 1 | 1 | 1 | 1 | |
árvore de decisão 1 | 1 | 1 | 0 | 2 | 1 | 1 | #3 |
árvore de decisão 2 | 3 | 0 | 1 | 0 | 2 | 0 | 2, 4 e 6 |
árvore de decisão 3 | 0 | 1 | 3 | 1 | 0 | 1 | #1 e #5 |
No exemplo mostrado na Tabela 7, as previsões OOB para o exemplo de treinamento 1 serão computadas com a árvore de decisão 3, já que as árvores de decisão 1 e 2 usaram esse exemplo para treinamento. Na prática, em um conjunto de dados de tamanho razoável e com algumas árvores de decisão, todos os exemplos têm uma previsão OOB.
compute_oob_performances=True
.
A avaliação OOB também é eficaz para calcular a importância da variável de permutação para modelos de floresta aleatória. Lembre-se de que, em Importância da variável, a importância da variável de permutação mede a importância de uma variável medindo a queda na qualidade do modelo quando essa variável é embaralhada. A "importância da variável de permutação fora do limite" da floresta aleatória é uma importância da variável de permutação computada usando a avaliação fora do limite.
compute_oob_variable_importances=True
.