Avaliação fora do saco

As florestas aleatórias não exigem um conjunto de dados de validação. A maioria das florestas aleatórias usa uma técnica chamada avaliação fora do saco (OOB avaliação) para avaliar a qualidade do modelo. A avaliação OOB trata o conjunto de treinamento como se estivesse no conjunto de teste de uma validação cruzada.

Como explicado anteriormente, cada árvore de decisão em uma floresta aleatória é normalmente treinada em cerca de 67% dos exemplos de treinamento. Portanto, cada árvore de decisão não tem acesso a aproximadamente 33% dos exemplos de treinamento. A ideia central da avaliação OOB é a seguinte:

  • Avaliar a floresta aleatória no conjunto de treinamento.
  • Para cada exemplo, use apenas as árvores de decisão que não viram o exemplo durante o treinamento.

A tabela a seguir ilustra a avaliação OOB de uma floresta aleatória com três árvores de decisão treinadas em seis exemplos. Sim, esta é a mesma tabela da seção "Embalagem". A tabela mostra qual árvore de decisão é usada com qual exemplo durante a avaliação OOB.

Tabela 7. Avaliação OOB: os números representam o número de vezes que um determinado exemplo de treinamento é usado durante o treinamento do exemplo especificado.

Exemplos de treinamento Exemplos de avaliação de OOB
#1 #2 #3 #4 #5 #6
conjunto de dados original 1 1 1 1 1 1
árvore de decisão 1 1 1 0 2 1 1 #3
árvore de decisão 2 3 0 1 0 2 0 2, 4 e 6
árvore de decisão 3 0 1 3 1 0 1 #1 e #5

No exemplo mostrado na Tabela 7, as previsões OOB para o exemplo de treinamento 1 serão computadas com a árvore de decisão 3, já que as árvores de decisão 1 e 2 usaram esse exemplo para treinamento. Na prática, em um conjunto de dados de tamanho razoável e com algumas árvores de decisão, todos os exemplos têm uma previsão OOB.

Código YDF
No YDF, a avaliação OOB está disponível nos registros de treinamento se o modelo for treinado com compute_oob_performances=True.

A avaliação OOB também é eficaz para calcular a importância da variável de permutação para modelos de floresta aleatória. Lembre-se de que, em Importância da variável, a importância da variável de permutação mede a importância de uma variável medindo a queda na qualidade do modelo quando essa variável é embaralhada. A "importância da variável de permutação fora do limite" da floresta aleatória é uma importância da variável de permutação computada usando a avaliação fora do limite.

Código YDF
No YDF, as importâncias da variável de permutação fora da caixa estão disponíveis nos registros de treinamento se o modelo for treinado com compute_oob_variable_importances=True.