Avaliação fora da bagagem

Florestas aleatórias não exigem um conjunto de dados de validação. A maioria das florestas aleatórias usa uma técnica chamada out-of-bag-evaluation (out-of-bag-evaluation, out-of-bag-evaluation, na sigla em inglês) para avaliar a qualidade do modelo. A avaliação OOB trata o conjunto de treinamento como se estivesse no conjunto de teste de uma validação cruzada.

Conforme explicado anteriormente, cada árvore de decisão em uma floresta aleatória é normalmente treinada em cerca de 67% dos exemplos de treinamento. Portanto, cada árvore de decisão não observa cerca de 33% dos exemplos de treinamento. O conceito central da avaliação da OOB é o seguinte:

  • Avaliar a floresta aleatória no conjunto de treinamento
  • Para cada exemplo, use apenas as árvores de decisão que não viram o exemplo durante o treinamento.

A tabela a seguir ilustra a avaliação OOB de uma floresta aleatória com três árvores de decisão treinadas em seis exemplos. (Sim, esta é a mesma tabela da seção "Bagagem"). A tabela mostra qual árvore de decisão é usada com qual exemplo durante a avaliação OOB.

Tabela 7. Avaliação OOB: os números representam o número de vezes que um determinado exemplo de treinamento é usado durante o treinamento do exemplo em questão.

Exemplos de treinamento Exemplos de avaliação OOB
#1 #2 #3 #4 #5 #6
conjunto de dados original 1 1 1 1 1 1
árvore de decisão 1 1 1 0 2 1 1 #3
árvore de decisão 2 3 0 1 0 2 0 2, 4 e 6
árvore de decisão 3 0 1 3 1 0 1 1 e 5

No exemplo mostrado na Tabela 7, as previsões de OOB para o exemplo de treinamento 1 serão calculadas com a árvore de decisão 3, já que as árvores de decisão 1 e 2 usaram esse exemplo para treinamento. Na prática, em um conjunto de dados de tamanho razoável e com algumas árvores de decisão, todos os exemplos têm uma previsão OOB.

Código YDF
No YDF, a avaliação de OOB estará disponível nos registros de treinamento se o modelo for treinado com compute_oob_performances=True.

A avaliação OOB também é eficaz para calcular a importância da variável de permutação para modelos de floresta aleatórios. Em Importâncias variáveis, a importância da variável de permutação mede a importância de uma variável ao medir a queda na qualidade do modelo quando essa variável é embaralhada. A "importância da variável de permutação OOB" da floresta aleatória é uma importância de variável de permutação calculada usando a avaliação de OOB.

Código YDF
No YDF, as importâncias da variável de permutação OOB estão disponíveis nos registros de treinamento se o modelo for treinado com compute_oob_variable_importances=True.