Glossario del machine learning: foreste decisionali

Questa pagina contiene i termini del glossario relativi alle foreste decisionali. Per tutti i termini del glossario, fai clic qui.

A

campionamento degli attributi

#df

Una tattica per addestrare una foresta decisionale in cui ogni L'albero decisionale prende in considerazione solo un sottoinsieme casuale di possibili features durante l'apprendimento della condizione. Di solito, viene campionato un sottoinsieme diverso di caratteristiche per node. Al contrario, quando addestra un albero decisionale senza campionamento degli attributi, vengono prese in considerazione tutte le possibili caratteristiche per ciascun nodo.

condizione allineata all'asse

#df

In un albero decisionale, una condizione che riguarda una sola caratteristica. Ad esempio, se l'area è una caratteristica, la seguente è una condizione allineata all'asse:

area > 200

Contrasta la condizione obliqua.

B

insaccare

#df

Un metodo per addestrare un ensemble in cui ogni il modello del componente viene addestrato su un sottoinsieme casuale di esempi campionati con sostituzione. Ad esempio, una foresta casuale è una raccolta di alberi decisionali addestrati con il bagging.

Il termine bagging è l'abbreviazione di bootstrap aggregating.

condizione binaria

#df

In un albero decisionale, una condizione che ha solo due possibili risultati, in genere o no. Ad esempio, la seguente è una condizione binaria:

temperature >= 100

Confrontare con condizione non binaria.

C

condizione

#df

In un albero decisionale, qualsiasi nodo che valuta un'espressione. Ad esempio, la seguente parte di l'albero decisionale contiene due condizioni:

Una struttura decisionale composta da due condizioni: (x > 0) e
          (y > 0).

Una condizione viene chiamata anche suddivisione o test.

Contrasta la condizione con foglia.

Vedi anche:

D

foresta decisionale

#df

Un modello creato da più alberi decisionali. Una foresta decisionale effettua una previsione aggregando le previsioni ai suoi alberi decisionali. Tra i tipi più diffusi di foreste decisionali ci sono foreste casuali e alberi ad alto gradiente.

albero decisionale

#df

Un modello di apprendimento supervisionato composto da un insieme condizioni e lascia organizzate in modo gerarchico. Ad esempio, di seguito è riportato un albero decisionale:

Un albero decisionale composto da quattro condizioni disposte
          in modo gerarchico, che porta a cinque foglie.

E

entropia

#df

Nella teoria dell'informazione, una descrizione di quanto sia imprevedibile una probabilità distribuzione dei contenuti. In alternativa, l'entropia è definita anche quanto le informazioni contenute in ogni esempio. Una distribuzione ha l'entropia più alta possibile quando tutti i valori di una variabile casuale sono altrettanto probabile.

L'entropia di un insieme con due possibili valori "0" e "1" (ad esempio, le etichette in un problema di classificazione binaria) ha la seguente formula:

H = -p log p - q log q = -p log p - (1-p) * log (1-p) .

dove:

  • H è l'entropia.
  • p è la frazione di "1" esempi.
  • q è la frazione di "0" esempi. Tieni presente che q = (1 - p)
  • log è generalmente log2. In questo caso, l'entropia unità è un po'.

Ad esempio, supponiamo che:

  • 100 esempi contengono il valore "1"
  • 300 esempi contengono il valore "0"

Pertanto, il valore di entropia è:

  • p = 0,25
  • q = 0,75
  • H = (-0,25)log2(0,25) - (0,75)log2(0,75) = 0,81 bit per esempio

Un insieme perfettamente bilanciato (ad esempio, 200 "0" e 200 "1" avrà un'entropia di 1,0 bit per esempio. Man mano che l'insieme diventa sempre più sbilanciato, la sua entropia si sposta verso 0,0.

Negli alberi decisionali, l'entropia aiuta a formulare di ottenere informazioni per aiutare le splitter seleziona le condizioni durante la crescita di un albero decisionale di classificazione.

Confrontare l'entropia con:

L'entropia è spesso chiamata entropia di Shannon.

F

importanza delle caratteristiche

#df

Sinonimo di importazioni variabili.

G

impurità di gini

#df

Una metrica simile all'entropia. Separatori utilizzare i valori derivati dall'impurità o dall'entropia di gini per comporre condizioni per la classificazione alberi decisionali. L'aumento di informazioni deriva dall'entropia. Non esiste un termine equivalente universalmente accettato per la metrica derivata dall'impurità di gini; Tuttavia, questa metrica senza nome è importante quanto guadagno di informazioni.

L'impurità di Gini è anche chiamata indice di gini o semplicemente gini.

alberi a gradiente (decision) (GBT)

#df

Un tipo di foresta decisionale in cui:

incremento del gradiente

#df

Un algoritmo di addestramento in cui i modelli deboli vengono addestrati in modo iterativo migliorare la qualità (ridurre la perdita) di un modello efficace. Ad esempio: un modello debole potrebbe essere un modello ad albero decisionale lineare o piccolo. Un modello forte diventa la somma di tutti i modelli deboli addestrati in precedenza.

Nella forma più semplice di aumento del gradiente, a ogni iterazione, un modello debole addestrato per prevedere il gradiente di perdita del modello forte. Quindi, l'output del modello efficace viene aggiornato sottraendo il gradiente previsto, in modo simile alla discesa del gradiente.

$$F_{0} = 0$$ $$F_{i+1} = F_i - \xi f_i $$

dove:

  • $F_{0}$ è il modello iniziale efficace.
  • $F_{i+1}$ è il prossimo modello molto efficace.
  • $F_{i}$ è il modello attualmente forte.
  • $\xi$ è un valore compreso tra 0,0 e 1,0 chiamato shrinkage, in modo analogo tasso di apprendimento in della discesa del gradiente.
  • $f_{i}$ è il modello debole addestrato per prevedere il gradiente di perdita di $F_{i}$.

Le varianti moderne dell'incremento del gradiente includono anche la derivata seconda (Hessian) della perdita nel calcolo.

Gli alberi decisionali sono comunemente utilizzati come modelli deboli l'incremento del gradiente. Consulta alberi ad alto gradiente (decisione).

I

percorso di inferenza

#df

In un albero decisionale, durante l'inferenza, il percorso intrapreso da un particolare esempio dalla root ad altre condizioni, terminando con una foglia. Ad esempio, nel seguente albero decisionale, frecce più spesse mostrano il percorso di inferenza per un esempio con il seguente valori delle caratteristiche:

  • x = 7
  • y = 12
  • z = -3

Il percorso di inferenza nella seguente illustrazione si snoda attraverso tre prima di raggiungere la foglia (Zeta).

Un albero decisionale costituito da quattro condizioni e cinque foglie.
          La condizione principale è (x > 0). Poiché la risposta è Sì,
          il percorso di inferenza si sposta dalla radice alla condizione successiva (y > 0).
          Poiché la risposta è Sì, il percorso di inferenza si sposta
          condizione successiva (z > 0). Poiché la risposta è No, il percorso di inferenza
          viaggia verso il suo nodo terminale, che è la foglia (Zeta).

Le tre frecce spesse mostrano il percorso di inferenza.

guadagno di informazioni

#df

Nelle foreste decisionali, la differenza l'entropia di un nodo e la ponderazione (per il numero di esempi) somma dell'entropia dei nodi figlio. L'entropia di un nodo è l'entropia di esempi in quel nodo.

Ad esempio, considera i seguenti valori di entropia:

  • entropia del nodo padre = 0,6
  • entropia di un nodo figlio con 16 esempi pertinenti = 0,2
  • entropia di un altro nodo figlio con 24 esempi pertinenti = 0,1

Il 40% degli esempi si trova in un nodo figlio e il 60% nella dall'altro nodo figlio. Pertanto:

  • somma dell'entropia ponderata dei nodi figlio = (0,4 * 0,2) + (0,6 * 0,1) = 0,14

Quindi, l'acquisizione di informazioni è:

  • guadagno di informazioni = entropia del nodo padre - somma di entropia ponderata dei nodi figlio
  • guadagno di informazioni = 0,6 - 0,14 = 0,46

La maggior parte degli splitter cerca di creare condizioni che massimizzano il guadagno di informazioni.

condizione integrata

#df

In un albero decisionale, una condizione che verifica la presenza di un elemento in un insieme di elementi. Ad esempio, la seguente è una condizione predefinita:

  house-style in [tudor, colonial, cape]

Durante l'inferenza, se il valore della caratteristica in stile casa è tudor, colonial o cape, questa condizione restituisce Sì. Se il valore della caratteristica casalinga è un altro (ad esempio, ranch), questa condizione restituisce n.

Le condizioni in sede di solito portano a alberi decisionali più efficienti rispetto a che verificano le caratteristiche con codifica one-hot.

L

foglia

#df

Qualsiasi endpoint in un albero decisionale. Non mi piace più condition, una foglia non esegue un test. Piuttosto, una foglia è una possibile previsione. Una foglia è anche il terminale nodo di un percorso di inferenza.

Ad esempio, il seguente albero decisionale contiene tre foglie:

Un albero decisionale con due condizioni che portano a tre foglie.

N

nodo (albero decisionale)

#df

In un albero decisionale, qualsiasi condition o leaf.

Un albero decisionale con due condizioni e tre foglie.

condizione non binaria

#df

Una condizione contenente più di due risultati possibili. Ad esempio, la seguente condizione non binaria contiene tre possibili dei risultati:

Una condizione (number_of_legs = ?) che porta a tre possibili
          i risultati. Un risultato (number_of_legs = 8) porta a una foglia
          chiamato spider. Un secondo risultato (number_of_legs = 4) porta a
          una foglia con il nome "cane". Un terzo risultato (number_of_legs = 2) porta a
          una foglia chiamata pinguino.

O

condizione obliqua

#df

In un albero decisionale, una condizione che includa più di una funzionalità. Ad esempio, se altezza e larghezza sono entrambe caratteristiche, la seguente è una condizione obliqua:

  height > width

Contrasta con la condizione allineata all'asse.

valutazione out-of-bag (valutazione OOB)

#df

Un meccanismo per valutare la qualità di un foresta decisionale testando ogni albero decisionale rispetto alla esempi non utilizzati durante formazione per l'albero decisionale. Ad esempio, nel nel diagramma seguente, noterai che il sistema addestra ciascun albero decisionale su circa due terzi degli esempi e poi valuta in base restante un terzo degli esempi.

Una foresta decisionale composta da tre alberi decisionali.
          Un albero decisionale si addestra su due terzi degli esempi
          e poi utilizza un terzo rimanente per la valutazione OOB.
          Un secondo albero decisionale si addestra su due terzi diversi
          degli esempi rispetto alla struttura decisionale precedente
          utilizza un terzo diverso per la valutazione OOB rispetto
          precedente albero decisionale.

La valutazione immediata è una valutazione conservativa ed efficiente dal punto di vista approssimazione del meccanismo di convalida incrociata. Nella convalida incrociata viene addestrato un modello per ogni fase di convalida incrociata (ad esempio, 10 modelli vengono addestrati con una convalida incrociata di 10 volte). Con la valutazione OOB, viene addestrato un singolo modello. Poiché il bagging nasconde alcuni dati da ogni albero durante l'addestramento, per approssimare la convalida incrociata.

P

importanza delle variabili di permutazione

#df

Un tipo di importanza variabile che valuta l'aumento dell'errore di previsione di un modello dopo la modifica i valori delle caratteristiche. L'importanza delle variabili di permutazione è indipendente dal modello in un file di dati.

R

foresta casuale

#df

Un insieme di alberi decisionali a in cui ogni albero decisionale viene addestrato con uno specifico rumore casuale, come bagging.

Le foreste casuali sono un tipo di foresta decisionale.

root

#df

Il nodo iniziale (il primo condition) in un albero decisionale. Per convenzione, i diagrammi mettono la radice nella parte superiore dell'albero decisionale. Ad esempio:

Un albero decisionale con due condizioni e tre foglie. La
          la condizione iniziale (x > 2) è la radice.

S

campionamento con sostituzione

#df

Un metodo per scegliere elementi da un insieme di elementi candidati in cui lo stesso l'elemento può essere selezionato più volte. La frase "con sostituzione" significa che dopo ogni selezione l'elemento selezionato venga restituito di candidati. Il metodo inverso, campionamento senza sostituzione, significa che un elemento candidato può essere selezionato una sola volta.

Ad esempio, considera il seguente insieme di frutta:

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

Supponiamo che il sistema scelga in modo casuale fig come primo elemento. Se si utilizza il campionamento con sostituzione, il sistema seleziona secondo elemento della serie seguente:

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

Sì, è lo stesso set di prima, quindi il sistema potrebbe scegli di nuovo fig.

Se si utilizza il campionamento senza sostituzione, una volta scelto, un campione non può scelto di nuovo. Ad esempio, se il sistema sceglie in modo casuale fig come primo campione, fig non può più essere selezionato. Pertanto, il sistema sceglie il secondo campione dal seguente set (ridotto):

fruit = {kiwi, apple, pear, cherry, lime, mango}

restringimento

#df

Un iperparametro in l'incremento del gradiente che controlla overfitting. Riduzione nell'incremento del gradiente è analogo al tasso di apprendimento in discesa del gradiente. Lo restringimento è un numero decimale compreso tra 0,0 e 1,0. Un valore di shrinkage più basso riduce l'overfitting di un valore di shrinkage maggiore.

Spalato

#df

In un albero decisionale, un altro nome per condition.

divisore

#df

Durante l'addestramento di un albero decisionale, la routine (e algoritmo) responsabile di trovare condition a ogni nodo.

T

test

#df

In un albero decisionale, un altro nome per condition.

soglia (per gli alberi decisionali)

#df

In una condizione allineata all'asse, il valore di un con cui viene confrontata la funzionalità feature. Ad esempio, 75 è il di soglia nella seguente condizione:

grade >= 75

V

importanza delle variabili

#df

Un insieme di punteggi che indica l'importanza relativa di ciascuno feature al modello.

Ad esempio, considera un albero decisionale che stima i prezzi delle abitazioni. Supponiamo che questo albero decisionale utilizzi caratteristiche: taglia, età e stile. Se un insieme di valori di importanza per le tre caratteristiche vengono calcolate come {size=5.8, age=2.5, style=4.7}, la taglia è più importante per la albero decisionale rispetto all'età o allo stile.

Esistono diverse metriche di importanza delle variabili, che possono esperti di ML su diversi aspetti dei modelli.

M

saggezza della folla

#df

L'idea che la media delle opinioni o delle stime di un grande gruppo di persone ("la folla") spesso produce risultati sorprendenti. Ad esempio, considera un gioco in cui le persone indovinano il numero caramelle gommose in un barattolo grande. Sebbene la maggior parte dei singoli non saranno precise, la media di tutte le ipotesi è stata dimostrato empiricamente essere sorprendentemente vicino al numero effettivo di caramelle gommose nel barattolo.

Gli insiemi sono un analogo del software alla saggezza della folla. Anche se i singoli modelli fanno previsioni molto imprecise, la media delle previsioni di molti modelli genera spesso in modo sorprendente buone previsioni. Ad esempio, anche se un individuo albero decisionale potrebbe generare previsioni sbagliate, le foreste decisionali spesso fornisce previsioni molto buone.