Esta página foi traduzida pela API Cloud Translation.

Glossário de machine learning: florestas de decisão

Esta página contém os termos do glossário das Florestas de Decisão. Para conferir todos os termos do glossário, clique aqui.

A

amostragem de atributos

#df

Uma tática para treinar uma floresta de decisão em que cada árvore de decisão considera apenas um subconjunto aleatório de possíveis recursos ao aprender a condição. Geralmente, um subconjunto diferente de recursos é amostrado para cada nó. Por outro lado, ao treinar uma árvore de decisão sem a amostragem de atributos, todos os recursos possíveis são considerados para cada nó.

condição alinhada ao eixo

#df

Em uma árvore de decisão, uma condição envolve apenas um recurso. Por exemplo, se area for um recurso, a seguir está uma condição alinhada ao eixo:

area > 200

Contraste com a condição oblíqua.

B

sacolas

#df

Um método para treinar um conjunto em que cada modelo constituinte é treinado em um subconjunto aleatório de exemplos de treinamento amostrado com substituição. Por exemplo, uma floresta aleatória é um conjunto de árvores de decisão treinadas com agrupamento.

O termo bagging é a abreviação de bootstrap aggregating.

Consulte Florestas aleatórias no curso de florestas de decisão para mais informações.

condição binária

#df

Em uma árvore de decisão, uma condição que tem apenas dois resultados possíveis, normalmente sim ou não. Por exemplo, a seguir está uma condição binária:

temperature >= 100

Compare com a condição não binária.

Consulte Tipos de condições no curso sobre florestas de decisão para mais informações.

C

condição

#df

Em uma árvore de decisão, qualquer nó que avalia uma expressão. Por exemplo, a parte a seguir de uma árvore de decisão contém duas condições:

Uma árvore de decisão que consiste em duas condições: (x > 0) e (y > 0).

Uma condição também é chamada de divisão ou teste.

Contraste a condição com folha.

Consulte também:

Condição binária
condição não binária.
axis-aligned-condition
oblique-condition

Consulte Tipos de condições no curso sobre florestas de decisão para mais informações.

D

floresta de decisão

#df

Um modelo criado a partir de várias árvores de decisão. Uma floresta de decisão faz uma previsão agrupando as previsões das árvores de decisão. Os tipos mais conhecidos de florestas de decisão incluem florestas aleatórias e árvores impulsionadas por gradiente.

Consulte a seção Decision Forests no curso de Decision Forests para mais informações.

árvore de decisão

#df

Um modelo de aprendizado supervisionado composto por um conjunto de condições e folhas organizadas hierarquicamente. Por exemplo, confira a árvore de decisões a seguir:

Uma árvore de decisão composta por quatro condições organizadas
hierarquicamente, que levam a cinco folhas.

E

entropia

#df

#Metric

Na teoria da informação, uma descrição de como uma distribuição de probabilidade é imprevisível. Como alternativa, a entropia também é definida como a quantidade de informações que cada exemplo contém. Uma distribuição tem a entropia mais alta possível quando todos os valores de uma variável aleatória têm a mesma probabilidade.

A entropia de um conjunto com dois valores possíveis "0" e "1" (por exemplo, os rótulos em um problema de classificação binária) tem a seguinte fórmula:

H = -p log p - q log q = -p log p - (1-p) * log (1-p)

em que:

H é a entropia.
p é a fração dos exemplos "1".
q é a fração dos exemplos "0". Observe que q = (1 - p)
log geralmente é log₂. Nesse caso, a unidade de entropia é um bit.

Por exemplo, suponha que:

100 exemplos contêm o valor "1"
300 exemplos contêm o valor "0"

Portanto, o valor de entropia é:

p = 0,25
q = 0,75
H = (-0,25)log₂(0,25) - (0,75)log₂(0,75) = 0,81 bits por exemplo

Um conjunto perfeitamente equilibrado (por exemplo, 200 "0"s e 200 "1"s) teria uma entropia de 1,0 bit por exemplo. À medida que um conjunto fica mais desbalanceado, a entropia dele se move em direção a 0,0.

Nas árvores de decisão, a entropia ajuda a formular ganho de informação para ajudar o divisor a selecionar as condições durante o crescimento de uma árvore de decisão de classificação.

Compare a entropia com:

Impuridade de Gini
Função de perda de entropia cruzada

A entropia é frequentemente chamada de entropia de Shannon.

Consulte Divisor exato para classificação binária com recursos numéricos no curso de florestas de decisão para mais informações.

F

importância dos recursos

#df

#Metric

Sinônimo de importâncias de variáveis.

G

impureza de Gini

#df

#Metric

Uma métrica semelhante à entropia. Os divisores usam valores derivados da impureza de Gini ou da entropia para compor condições para a classificação árvores de decisão. O ganho de informação é derivado da entropia. Não há um termo equivalente universalmente aceito para a métrica derivada da impureza de Gini. No entanto, essa métrica sem nome é tão importante quanto o ganho de informação.

A impureza de Gini também é chamada de índice de Gini ou simplesmente Gini.

Clique no ícone para conferir detalhes matemáticos sobre a impureza de Gini.

A impureza de Gini é a probabilidade de classificar erroneamente um novo dado extraí do mesmo conjunto. A impureza de Gini de um conjunto com dois valores possíveis "0" e "1" (por exemplo, os rótulos em um problema de classificação binária) é calculada com base na seguinte fórmula:

I = 1 - (p² + q²) = 1 - (p² + (1-p)²)

em que:

I é a impureza de Gini.
p é a fração dos exemplos "1".
q é a fração dos exemplos "0". Observe que q = 1-p

Por exemplo, considere o seguinte conjunto de dados:

100 rótulos (0,25 do conjunto de dados) contêm o valor "1"
300 rótulos (0,75 do conjunto de dados) contêm o valor "0"

Portanto, a impureza de Gini é:

p = 0,25
q = 0,75
I = 1 - (0,25² + 0,75²) = 0,375

Consequentemente, um rótulo aleatório do mesmo conjunto de dados teria 37,5% de chance de ser classificado incorretamente e 62,5% de chance de ser classificado corretamente.

Um rótulo perfeitamente equilibrado (por exemplo, 200 "0" e 200 "1") teria uma impureza de Gini de 0,5. Um rótulo desequilibrado teria uma impureza de Gini próxima de 0,0.

árvores de decisão aprimoradas por gradiente (GBTs)

#df

Um tipo de floresta de decisão em que:

O treinamento usa a intensificação de gradiente.
O modelo fraco é uma árvore de decisão.

Consulte Árvores de decisão com aprimoramento por gradiente no curso de florestas de decisão para mais informações.

aumento do gradiente

#df

Um algoritmo de treinamento em que modelos fracos são treinados para melhorar de forma iterativa a qualidade (reduzir a perda) de um modelo forte. Por exemplo, um modelo fraco pode ser um modelo linear ou uma pequena árvore de decisões. O modelo forte se torna a soma de todos os modelos fracos treinados anteriormente.

Na forma mais simples de otimização por gradiente, em cada iteração, um modelo fraco é treinado para prever o gradiente de perda do modelo forte. Em seguida, a saída do modelo forte é atualizada subtraindo o gradiente previsto, semelhante à gradiente descendente.

$F_{0} = 0$

$F_{i+1} = F_i - \xi f_i$

em que:

$F_{0}$ é o modelo forte inicial.
$F_{i+1}$ é o próximo modelo forte.
$F_{i}$ é o modelo forte atual.
$\xi$ é um valor entre 0,0 e 1,0 chamado de redução, que é análogo à taxa de aprendizado em gradiente.
$f_{i}$ é o modelo fraco treinado para prever o gradiente de perda de $F_{i}$ .

As variações modernas do aumento de gradiente também incluem a segunda derivada (Hessian) da perda na computação.

As árvores de decisão são usadas com frequência como modelos fracos no otimização por gradiente. Consulte árvores de decisão aprimoradas por gradiente.

I

caminho de inferência

#df

Em uma árvore de decisão, durante a inferência, o caminho que um exemplo específico faz da raiz para outras condições, terminando com uma folha. Por exemplo, na árvore de decisão a seguir, as setas mais grossas mostram o caminho de inferência para um exemplo com os seguintes valores de atributos:

x = 7
y = 12
z = -3

O caminho de inferência na ilustração a seguir passa por três condições antes de chegar à folha (Zeta).

Uma árvore de decisão com quatro condições e cinco folhas.
A condição raiz é (x > 0). Como a resposta é "Sim", o caminho de inferência vai da raiz para a próxima condição (y > 0).
Como a resposta é "Sim", o caminho de inferência passa para a próxima condição (z > 0). Como a resposta é "Não", o caminho de inferência
vai até o nó terminal, que é a folha (Zeta).

As três setas grossas mostram o caminho de inferência.

Consulte Árvores de decisão no curso de florestas de decisão para mais informações.

ganho de informações

#df

#Metric

Nas florestas de decisão, a diferença entre a entropia de um nó e a soma ponderada (pelo número de exemplos) da entropia dos nós filhos. A entropia de um nó é a entropia dos exemplos nesse nó.

Por exemplo, considere os seguintes valores de entropia:

entropia do nó pai = 0,6
entropia de um nó filho com 16 exemplos relevantes = 0,2
entropia de outro nó filho com 24 exemplos relevantes = 0,1

Assim, 40% dos exemplos estão em um nó filho e 60% estão no outro nó filho. Assim:

Soma da entropia ponderada dos nós filhos = (0,4 * 0,2) + (0,6 * 0,1) = 0,14

Portanto, o ganho de informação é:

ganho de informação = entropia do nó pai - soma de entropia ponderada dos nós filhos
ganho de informação = 0,6 - 0,14 = 0,46

A maioria dos divisores procura criar condições que maximizem o ganho de informações.

condição no conjunto

#df

Em uma árvore de decisão, uma condição que testa a presença de um item em um conjunto de itens. Por exemplo, a condição a seguir é uma condição no conjunto:

  house-style in [tudor, colonial, cape]

Durante a inferência, se o valor do feature do estilo da casa for tudor ou colonial ou cape, essa condição será avaliada como "Sim". Se o valor do elemento de estilo de casa for outro (por exemplo, ranch), essa condição será avaliada como "Não".

As condições do conjunto geralmente levam a árvores de decisão mais eficientes do que condições que testam atributos codificados one-hot.

L

folha

#df

Qualquer endpoint em uma árvore de decisão. Ao contrário de uma condição, uma folha não executa um teste. Em vez disso, uma folha é uma possível previsão. Uma folha também é o nó terminal de um caminho de inferência.

Por exemplo, a árvore de decisão a seguir contém três folhas:

Uma árvore de decisão com duas condições que levam a três folhas.

Consulte Árvores de decisão no curso de florestas de decisão para mais informações.

N

nó (árvore de decisão)

#df

Em uma árvore de decisão, qualquer condição ou folha.

Uma árvore de decisão com duas condições e três folhas.

Consulte Árvores de decisão no curso de florestas de decisão para mais informações.

condição não binária

#df

Uma condição com mais de dois resultados possíveis. Por exemplo, a condição não binária a seguir contém três resultados possíveis:

Uma condição (number_of_legs = ?) que leva a três resultados possíveis. Um resultado (number_of_legs = 8) leva a uma folha
chamada aranha. Um segundo resultado (number_of_legs = 4) leva a
uma folha chamada "dog". Um terceiro resultado (number_of_legs = 2) leva a
uma folha chamada pinguim.

Consulte Tipos de condições no curso sobre florestas de decisão para mais informações.

O

condição oblíqua

#df

Em uma árvore de decisão, uma condição que envolve mais de um recurso. Por exemplo, se altura e largura forem recursos, a condição oblíqua será a seguinte:

  height > width

Compare com a condição alinhada ao eixo.

Consulte Tipos de condições no curso sobre florestas de decisão para mais informações.

avaliação fora da embalagem (OOB)

#df

Um mecanismo para avaliar a qualidade de uma floresta de decisões testando cada árvore de decisão em relação aos exemplos não usados durante o treinamento dessa árvore de decisão. Por exemplo, no diagrama abaixo, observe que o sistema treina cada árvore de decisão em cerca de dois terços dos exemplos e, em seguida, avalia o terço restante dos exemplos.

A avaliação fora da embalagem é uma aproximação computacionalmente eficiente e conservadora do mecanismo de validação cruzada. Na validação cruzada, um modelo é treinado para cada rodada de validação cruzada. Por exemplo, 10 modelos são treinados em uma validação cruzada de 10 vezes. Com a avaliação fora da caixa, um único modelo é treinado. Como o bagging retém alguns dados de cada árvore durante o treinamento, a avaliação OOB pode usar esses dados para aproximar a validação cruzada.

Consulte Avaliação fora da sacola no curso de florestas de decisão para mais informações.

P

importâncias das variáveis de permutação

#df

#Metric

Um tipo de importância da variável que avalia o aumento no erro de previsão de um modelo depois de trocar os valores do atributo. A importância da variável de permutação é uma métrica independente do modelo.

R

floresta aleatória

#df

Um conjunto de árvores de decisão em que cada árvore de decisão é treinada com um ruído aleatório específico, como bagging.

As florestas aleatórias são um tipo de floresta de decisão.

Consulte Floresta aleatória no curso de florestas de decisão para mais informações.

root

#df

O nó inicial (a primeira condição) em uma árvore de decisão. Por convenção, os diagramas colocam a raiz na parte de cima da árvore de decisões. Exemplo:

Uma árvore de decisão com duas condições e três folhas. A
condição inicial (x > 2) é a raiz.

S

amostragem com substituição

#df

Um método de seleção de itens de um conjunto de itens candidatos em que o mesmo item pode ser escolhido várias vezes. A frase "com substituição" significa que, após cada seleção, o item selecionado é retornado ao conjunto de itens candidatos. O método inverso, amostragem sem substituição, significa que um item candidato só pode ser escolhido uma vez.

Por exemplo, considere o seguinte conjunto de frutas:

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

Suponha que o sistema escolha aleatoriamente fig como o primeiro item. Se você usar a amostragem com substituição, o sistema vai escolher o segundo item do seguinte conjunto:

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

Sim, é o mesmo conjunto de antes, então o sistema pode escolher fig novamente.

Se você usar a amostragem sem substituição, uma amostra não poderá ser escolhida novamente. Por exemplo, se o sistema escolher aleatoriamente fig como a primeira amostra, fig não poderá ser escolhido novamente. Portanto, o sistema escolhe a segunda amostra do seguinte conjunto (reduzido):

fruit = {kiwi, apple, pear, cherry, lime, mango}

Clique no ícone para ver outras notas.

A palavra substituição em amostragem com substituição confunde muitas pessoas. Em inglês, replacement significa "substituição". No entanto, a amostragem com substituição usa a definição francesa de substituição, que significa "colocar algo de volta".

A palavra em inglês replacement é traduzida como a palavra em francês remplacement.

encolhimento

#df

Um hiperparâmetro no aprimoramento por gradiente que controla o ajuste excessivo. A redução no aumento de gradiente é análoga à taxa de aprendizado no gradiente descendente. A redução é um valor decimal entre 0,0 e 1,0. Um valor de encolhimento menor reduz a superadaptação mais do que um valor de encolhimento maior.

dividir

#df

Em uma árvore de decisão, outro nome para uma condição.

divisor

#df

Durante o treinamento de uma árvore de decisão, a rotina (e o algoritmo) responsável por encontrar a melhor condição em cada nó.

T

teste

#df

Em uma árvore de decisão, outro nome para uma condição.

limite (para árvores de decisão)

#df

Em uma condição alinhada ao eixo, o valor que um elemento está sendo comparado. Por exemplo, 75 é o valor de limite na seguinte condição:

grade >= 75

Consulte Divisor exato para classificação binária com recursos numéricos no curso de florestas de decisão para mais informações.

V

importância das variáveis

#df

#Metric

Um conjunto de pontuações que indica a importância relativa de cada recurso para o modelo.

Por exemplo, considere uma árvore de decisão que estima os preços das casas. Suponha que essa árvore de decisão use três características: tamanho, idade e estilo. Se um conjunto de importâncias de variáveis para os três atributos for calculado como {size=5.8, age=2.5, style=4.7}, o tamanho será mais importante para a árvore de decisão do que a idade ou o estilo.

Existem diferentes métricas de importância de variáveis, que podem informar especialistas em aprendizado de máquina sobre diferentes aspectos dos modelos.

W

sabedoria da multidão

#df

A ideia de que a média das opiniões ou estimativas de um grande grupo de pessoas (a "multidão") geralmente produz resultados surpreendentemente bons. Por exemplo, considere um jogo em que as pessoas precisam adivinhar o número de balas de gelatina embaladas em um frasco grande. Embora a maioria das tentativas individuais seja imprecisa, a média de todas as tentativas foi demonstrada empiricamente como surpreendentemente próxima do número real de confetes no pote.

Os Ensembles são um software análogo à sabedoria da multidão. Mesmo que os modelos individuais façam previsões muito imprecisas, a média das previsões de muitos modelos geralmente gera previsões surpreendentemente boas. Por exemplo, embora uma árvore de decisão individual possa fazer previsões ruins, uma floresta de decisão geralmente faz previsões muito boas.