Glossário de machine learning: florestas de decisão

Esta página contém os termos do glossário da Decision Forests. Para todos os termos do glossário, clique aqui.

A

amostragem de atributos

#df

Uma tática para treinar uma floresta de decisão em que cada A árvore de decisão considera apenas um subconjunto aleatório de possíveis recursos ao descobrir a condição. Geralmente, um subconjunto diferente de atributos é amostrado para cada . Por outro lado, ao treinar uma árvore de decisão, sem amostragem de atributos, todos os atributos possíveis serão considerados para cada nó.

condição alinhada ao eixo

#df

Em uma árvore de decisão, uma condição que envolve apenas um único recurso. Por exemplo, se a área é um atributo, a seguinte condição é alinhada ao eixo:

area > 200

Contraste com a condição oblíqua.

B

ensabo

#df

Um método para treinar um ensemble em que cada O modelo integrante é treinado em um subconjunto aleatório de exemplos amostrados com substituição. Por exemplo, uma floresta aleatória é uma coleção de árvores de decisão treinadas com bagging.

O termo bagging é uma abreviação de botstrap aggregating.

condição binária

#df

Em uma árvore de decisão, uma condição que tem apenas dois resultados possíveis, normalmente sim ou não. Por exemplo, esta é uma condição binária:

temperature >= 100

Contraste com a condição não binária.

C

transição

#df

Em uma árvore de decisão, qualquer que avalia uma expressão. Por exemplo, a seguinte parte de um a árvore de decisão contém duas condições:

Uma árvore de decisão composta de duas condições: (x > 0) e
          (y > 0).

Uma condição também é chamada de divisão ou teste.

Contraste a condição com leaf.

Consulte também:

D

floresta de decisão

#df

Um modelo criado a partir de várias árvores de decisão. Uma floresta de decisão faz uma previsão agregando as previsões de as árvores de decisão. Os tipos conhecidos de florestas de decisão incluem florestas aleatórias e árvores otimizadas com gradiente.

árvore de decisão

#df

Um modelo de aprendizado supervisionado composto por um conjunto de condições e saias organizadas hierarquicamente. Por exemplo, veja a seguir uma árvore de decisão:

Uma árvore de decisão composta de quatro condições organizadas
          hierarquicamente, o que leva a cinco folhas.

E

entropia

#df

Em teoria da informação, uma descrição do quão imprevisível é uma probabilidade e a distribuição do Terraform. Por outro lado, a entropia também é definida como informações que cada exemplo contém. Uma distribuição tem a maior entropia possível quando todos os valores de uma variável aleatória igualmente prováveis.

A entropia de um conjunto com dois valores possíveis "0" e "1" (por exemplo, os rótulos em um problema de classificação binária) tem a seguinte fórmula:

H = -p log p - q log q = -p log p - (1-p) * log (1-p)

em que:

  • H é a entropia.
  • p é a fração de "1" exemplos.
  • q é a fração de "0" exemplos. Observe que q = (1 - p)
  • log geralmente é log2. Nesse caso, a entropia unidade é um pouco.

Por exemplo, suponha que:

  • 100 exemplos contêm o valor "1"
  • 300 exemplos contêm o valor "0"

Portanto, o valor de entropia é:

  • p = 0,25
  • q = 0,75
  • H = (-0,25)log2(0,25) - (0,75)log2(0,75) = 0,81 bits por exemplo

Um conjunto que é perfeitamente equilibrado (por exemplo, 200 "0" e 200 "1") teria uma entropia de 1,0 bit por exemplo. À medida que um conjunto se torna desequilibrado, a entropia dele se move para 0,0.

Em árvores de decisão, a entropia ajuda a formular ganhos de informações para ajudar os divisor seleciona as condições durante o crescimento de uma árvore de decisão de classificação.

Comparar a entropia com:

A entropia é frequentemente chamada de entropia de Shannon.

F

importâncias dos atributos

#df

Sinônimo de importâncias de variáveis.

G

impureza de gini

#df

Uma métrica semelhante à entropia. Divisores usar valores derivados da impureza do gini ou da entropia para compor condições para classificação árvores de decisão. O ganho de informação é derivado da entropia. Não há um termo equivalente universalmente aceito para a métrica derivada da impureza do gini, No entanto, essa métrica sem nome é tão importante quanto ganho de informações.

A impureza de Gini também é chamada de índice de gini ou simplesmente gini.

árvores otimizadas com gradiente (GBT)

#df

Um tipo de floresta de decisão em que:

aumento do gradiente

#df

Algoritmo de treinamento em que os modelos fracos são treinados para melhorar a qualidade (reduzir a perda) de um modelo forte. Por exemplo: um modelo fraco pode ser linear ou de árvore de decisão pequena. O modelo forte se torna a soma de todos os modelos fracos treinados anteriormente.

Na forma mais simples de aumento de gradiente, a cada iteração, um modelo fraco é treinado para prever o gradiente de perda do modelo forte. Depois, a saída de um modelo forte é atualizada subtraindo o gradiente previsto, semelhante ao gradiente descendente.

$$F_{0} = 0$$ $$F_{i+1} = F_i - \xi f_i $$

em que:

  • $F_{0}$ é o modelo forte inicial.
  • $F_{i+1}$ é o próximo modelo forte.
  • $F_{i}$ é o modelo forte atual.
  • $\xi$ é um valor entre 0,0 e 1,0 chamado redução, que é análoga à taxa de aprendizado em gradiente descendente.
  • $f_{i}$ é o modelo fraco treinado para prever o gradiente de perda de $F_{i}$.

Variações modernas de aprimoramento de gradiente também incluem a segunda derivada (hessiano) da perda do cálculo.

As árvores de decisão costumam ser usadas como modelos fracos em o aumento do gradiente. Consulte árvores otimizadas com gradiente (decisão).

I

caminho de inferência

#df

Em uma árvore de decisão, durante a inferência, o trajeto que um exemplo específico faz na root para outras condições, terminando com uma folha. Por exemplo, na árvore de decisão a seguir, a setas mais grossas mostram o caminho de inferência para um exemplo com o seguinte valores de atributos:

  • x = 7
  • y = 12
  • z = -3

O caminho de inferência na ilustração a seguir percorre três antes de chegar à folha (Zeta).

Uma árvore de decisão composta de quatro condições e cinco folhas.
          A condição raiz é (x > 0). Como a resposta é “Sim”, o
          o caminho de inferência percorre da raiz até a próxima condição (y > 0).
          Como a resposta é "Sim", o caminho de inferência vai até
          próxima condição (z > 0). Como a resposta é "Não", o caminho de inferência
          viaja até seu nó terminal, que é a folha (Zeta).

As três setas grossas mostram o caminho de inferência.

ganho de informações

#df

Em florestas de decisão, a diferença entre a entropia de um nó e o peso (por número de exemplos) soma da entropia dos nós filhos. A entropia de um nó é a entropia dos exemplos nesse nó.

Por exemplo, considere os seguintes valores de entropia:

  • entropia do nó pai = 0,6
  • entropia de um nó filho com 16 exemplos relevantes = 0,2
  • entropia de outro nó filho com 24 exemplos relevantes = 0,1

Portanto, 40% dos exemplos estão em um nó filho e 60% no e o outro nó filho. Assim:

  • soma de entropia ponderada dos nós filhos = (0,4 * 0,2) + (0,6 * 0,1) = 0,14

Assim, o ganho de informação é:

  • ganho de informações = entropia do nó pai - soma da entropia ponderada dos nós filhos
  • ganho de informação = 0,6 - 0,14 = 0,46

A maioria dos divisores buscam criar condições que maximizam o ganho de informações.

condição inserida

#df

Em uma árvore de decisão, uma condição que testa a presença de um item em um conjunto de itens. Por exemplo, esta é uma condição inserida:

  house-style in [tudor, colonial, cape]

Durante a inferência, se o valor do feature de estilo interno for tudor, colonial ou cape, essa condição será avaliada como Sim. Se o valor do atributo de estilo de casa for outra coisa (por exemplo, ranch). essa condição avaliará como Não.

Condições inseridas geralmente levam a árvores de decisão mais eficientes do que condições que testam atributos com codificação one-hot.

L

folha

#df

Qualquer endpoint em uma árvore de decisão. Ao contrário de um condition, uma folha não realiza um teste. Em vez disso, uma folha é uma previsão possível. Uma folha também é o terminal node de um caminho de inferência.

Por exemplo, a seguinte árvore de decisão contém três folhas:

Uma árvore de decisão com duas condições que levam a três folhas.

N

nó (árvore de decisão)

#df

Em uma árvore de decisão, qualquer condition ou leaf.

Uma árvore de decisão com duas condições e três folhas.

condição não binária

#df

Uma condição que contém mais de dois resultados possíveis. Por exemplo, a seguinte condição não binária contém três possíveis resultados:

Uma condição (number_of_legs = ?) que leva a três possíveis
          resultados melhores. Um resultado (number_of_legs = 8) leva a uma folha
          chamada de aranha. Um segundo resultado (number_of_legs = 4) leva a
          uma folha chamada "cão". Um terceiro resultado (number_of_legs = 2) leva a
          uma folha chamada pinguim.

O

condição oblíqua

#df

Em uma árvore de decisão, uma condição que envolve mais de um recurso. Por exemplo, se altura e largura forem ambos atributos, então esta é uma condição oblíqua:

  height > width

Contraste com a condição de alinhamento do eixo.

avaliação pronta para uso (avaliação OOB)

#df

Mecanismo para avaliar a qualidade de uma floresta de decisão testando cada árvore de decisão em relação ao exemplos não usados durante treinamento dessa árvore de decisão. Por exemplo, na No diagrama a seguir, o sistema treina cada árvore de decisão em cerca de dois terços dos exemplos e, em seguida, avalia em relação aos um terço restante dos exemplos.

Uma floresta de decisão composta de três árvores de decisão.
          Uma árvore de decisão treina em dois terços dos exemplos
          e usa o terço restante para a avaliação OOB.
          Uma segunda árvore de decisão treina em dois terços diferentes
          dos exemplos do que a árvore de decisão anterior e, em seguida,
          usa um terço para a avaliação OOB diferente
          árvore de decisão anterior.

A avaliação pontual é uma ferramenta de computação conservadora aproximação do mecanismo de validação cruzada. Na validação cruzada, um modelo é treinado para cada rodada de validação cruzada. Por exemplo, 10 modelos são treinados em uma validação cruzada de 10 vezes. Com a avaliação OOB, um único modelo é treinado. Como a simplificação retém alguns dados de cada árvore durante o treinamento, a avaliação OOB pode usar esses dados para aproximar a validação cruzada.

P

importâncias das variáveis de troca

#df

Um tipo de importância de variável que avalia o aumento no erro de previsão de um modelo após a troca de valores do atributo. A importância da variável de troca é um fator métrica.

R

floresta aleatória

#df

Um ensemble de árvores de decisão em em que cada árvore de decisão é treinada com um ruído aleatório específico, como bagging.

As florestas aleatórias são um tipo de floresta de decisão.

root

#df

O inicial (o primeiro condition) em uma árvore de decisão. Por convenção, os diagramas colocam a raiz no topo da árvore de decisão. Exemplo:

Uma árvore de decisão com duas condições e três folhas. A
          condição inicial (x > 2) é a raiz.

S

Amostragem com substituição

#df

um método de escolher itens de um conjunto de itens candidatos em que a mesma item pode ser escolhido várias vezes. A frase "com substituição" significa após cada seleção, o item selecionado é retornado ao pool. de itens candidatos. O método inverso, ou seja, amostragem sem substituição, significa que cada item candidato só pode ser escolhido uma vez.

Por exemplo, considere o seguinte conjunto de frutas:

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

Suponha que o sistema escolha aleatoriamente fig como o primeiro item. Se estiver usando amostragem com substituição, o sistema selecionará o segundo item do seguinte conjunto:

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

Sim, o mesmo conjunto de antes, então o sistema pode potencialmente escolha fig novamente.

Se você usar amostragem sem substituição, depois de escolhida, não será possível escolhido novamente. Por exemplo, se o sistema escolher aleatoriamente fig como o primeira amostra, depois fig não poderão ser escolhidos de novo. Portanto, o sistema escolhe a segunda amostra a partir do seguinte conjunto (reduzido):

fruit = {kiwi, apple, pear, cherry, lime, mango}

redução

#df

Um hiperparâmetro na intensificação do gradiente que controla overfitting. Redução na otimização do gradiente é análogo à taxa de aprendizado em gradiente descendente. O encolhimento é um número decimal entre 0,0 e 1,0. Um valor de redução menor reduz o overfitting maior do que um valor de redução maior.

dividir

#df

Em uma árvore de decisão, outro nome para uma condition [estado].

divisor

#df

Ao treinar uma árvore de decisão, a rotina (e algoritmo) responsável por encontrar a melhor condition em cada .

T

teste

#df

Em uma árvore de decisão, outro nome para uma condition [estado].

limite (para árvores de decisão)

#df

Em uma condição de alinhamento em eixo, o valor que uma feature está sendo comparado. Por exemplo, 75 é o o valor limite na seguinte condição:

grade >= 75

V

importâncias de variáveis

#df

Um conjunto de pontuações que indica a importância relativa de cada feature ao modelo.

Por exemplo, considere uma árvore de decisão que estima os preços das casas. Suponha que essa árvore de decisão use três atributos: tamanho, idade e estilo. Se um conjunto de variáveis é importante dos três atributos são calculados como {size=5.8, age=2.5, style=4.7}, então o tamanho é mais importante para o árvore de decisão do que idade ou estilo.

Existem diferentes métricas de importância variáveis, que podem informar especialistas em ML sobre diferentes aspectos dos modelos.

W

sabedoria da multidão

#df

Ideia de que calcular a média de opiniões ou estimativas de um grande grupo muitas vezes produz resultados surpreendentemente bons. Por exemplo, considere um jogo em que as pessoas adivinham o número de jujubas embaladas em um pote grande. Embora a maioria das palpites serão imprecisos, a média de todos os palpites será é surpreendentemente próxima do número real jujubas no pote.

Os Ensembles são um software análogo à sabedoria do público. Mesmo que modelos individuais façam previsões muito imprecisas, em média, as previsões de vários modelos gera para ter boas previsões. Por exemplo, embora uma pessoa árvore de decisão pode fazer previsões ruins, uma A floresta de decisão geralmente faz previsões muito boas.