Glossario del machine learning: foreste decisionali

Questa pagina contiene i termini del glossario delle foreste decisionali. Per tutti i termini del glossario, fai clic qui.

A

campionamento degli attributi

#df

Una tattica per addestrare un bosco decisionale in cui ogni albero decisionale prende in considerazione solo un sottoinsieme casuale di possibili caratteristiche quando apprende la condizione. In genere, viene campionato un sottoinsieme diverso di funzionalità per ogni nodo. Al contrario, durante l'addestramento di un albero decisionale senza campionamento degli attributi, vengono prese in considerazione tutte le funzionalità possibili.

condizione allineata all'asse

#df

In un albero decisionale, una condizione che prevede una sola funzionalità. Ad esempio, se l'area è una caratteristica, di seguito è riportata una condizione allineata all'asse:

area > 200

In contrasto con la condizione obbligatoria.

B

insaccamento

#df

Un metodo per addestrare un insieme in cui ogni costituente modello viene addestrato su un sottoinsieme casuale di esempi di addestramento campionati con sostituzione. Ad esempio, una foresta casuale è una raccolta di alberi decisionali addestrati con l'insufficienza.

Il termine bagging è l'acronimo di bootstrap aggregating.

condizione binaria

#df

In un albero decisionale, una condizione che ha solo due risultati possibili, in genere yes o no. Ad esempio, di seguito è riportata una condizione binaria:

temperature >= 100

È in contrasto con la condizione non binaria.

C

Condizione

#df

In un albero decisionale, qualsiasi nodo che valuti un'espressione. Ad esempio, la seguente porzione di un albero decisionale contiene due condizioni:

Una struttura decisionale composta da due condizioni: (x > 0) e
          (y > 0).

Una condizione è anche chiamata suddivisione o test.

Condizione di contrasto con leaf.

Vedi anche:

D

Decision Forest

#df

Un modello creato a partire da più alberi decisionali. Una foresta decisionale esegue una previsione aggregando le previsioni dei suoi alberi decisionali. Tra i tipi più diffusi di foreste decisionali ci sono foreste casuali e alberi potenziati da gradiente.

albero decisionale

#df

Un modello di apprendimento supervisionato composto da un insieme di conditions e conditions organizzate in modo gerarchico. Ad esempio, di seguito è riportato un albero decisionale:

Una struttura decisionale composta da quattro condizioni organizzate gerarchicamente che portano a cinque foglie.

E

entropia

#df

Nella teoria dell'informazione, una descrizione di quanto sia imprevedibile una distribuzione di probabilità. In alternativa, l'entropia è definita anche come la quantità di informazioni contenute in ogni esempio. Una distribuzione ha la più alta entropia possibile quando tutti i valori di una variabile casuale hanno la stessa probabilità.

L'entropia di un insieme con due possibili valori "0" e "1" (ad esempio, le etichette in un problema di classificazione binaria) ha la seguente formula:

  H = -p log p - q log q = -p log p - (1-p) * log (1-p)

dove:

  • H è l'entropia.
  • p è la frazione di "1".
  • q è la frazione degli esempi "0". Nota che q = (1 - p)
  • log corrisponde in genere a log2. In questo caso, l'unità di entropia è un po'.

Supponiamo, ad esempio, che:

  • 100 esempi contengono il valore "1"
  • 300 esempi contengono il valore "0"

Di conseguenza, il valore entropia è:

  • p = 0,25
  • q = 0,75
  • H = (-0,25) log2(0,25) - (0,75)log2(0,75) = 0,81 bit per esempio

Un insieme perfettamente bilanciato (ad esempio 200 "0" e 200 "1") avrebbe un'entropia di 1, 0 bit per esempio. Man mano che un insieme diventa più sbilanciato, la sua entropia si sposta verso 0,0.

Negli alberi decisionali, l'entropia aiuta a formulare il aumento delle informazioni per aiutare lo strumento splitter a selezionare le condizioni durante la crescita di un albero decisionale della classificazione.

Confronta l'entropia con:

L'entropia di Shannon è spesso chiamata entropia di Shannon.

F

importanza delle caratteristiche

#df

Sinonimo di importanza delle variabili.

G

impurità gini

#df

Una metrica simile ad entropia. I suddivise utilizzano valori derivati dall'impurità o dall'entropia di gini per comporre le condizioni per la classificazione degli alberi decisionali. Il guadagno di informazioni deriva dall'entropia. Non esiste un termine equivalente universalmente accettato per la metrica derivata dall'impurità gini; tuttavia, questa metrica senza nome è importante quanto il guadagno di informazioni.

L'impurità di Gini è anche chiamata gini index o semplicemente gini.

Alberi a decisioni (GBT) potenziato con gradiente

#df

Un tipo di foresta decisionale in cui:

boosting del gradiente

#df

Un algoritmo di addestramento in cui i modelli deboli vengono addestrati per migliorare iterativamente la qualità di un modello forte. Ad esempio, un modello debole può essere lineare o con albero decisionale piccolo. Il modello forte diventa la somma di tutti i modelli deboli addestrati in precedenza.

Nella forma più semplice di boosting del gradiente, a ogni iterazione viene addestrato un modello debole per prevedere il gradiente di perdita del modello forte. Poi, l'output del modello efficace viene aggiornato sottraendo il gradiente previsto, in modo simile alla discesa del gradiente.

$$F_{0} = 0$$ $$F_{i+1} = F_i - \xi f_i $$

dove:

  • $F_{0}$ è il modello iniziale efficace.
  • $F_{i+1}$ è il prossimo modello potente.
  • $F_{i}$ è l'attuale modello efficace.
  • $\xi$ è un valore compreso tra 0,0 e 1,0 chiamato retrazione, che è analogo al tasso di apprendimento nella discesa del gradiente.
  • $f_{i}$ è il modello debole addestrato per prevedere il gradiente di perdita di $F_{i}$.

Le varianti moderne di gradienting del boosting includono anche la derivata seconda (Hessian) della perdita nel calcolo.

Gli alberi decisionali vengono comunemente utilizzati come modelli deboli nel incremento del gradiente. Vedi gli alberi con gradiente (decision).

I

percorso di inferenza

#df

In un albero decisionale, durante l'inferenza, il routing di un determinato esempio prende dalla principale ad altre condizioni, terminando con una leaf. Ad esempio, nel seguente albero decisionale, le frecce più spesse mostrano il percorso di inferenza per un esempio con i seguenti valori delle funzionalità:

  • x = 7
  • y = 12
  • z = -3

Il percorso di inferenza nella seguente illustrazione attraversa tre condizioni prima di raggiungere la foglia (Zeta).

Un albero decisionale composto da quattro condizioni e cinque foglie.
          La condizione principale è (x > 0). Poiché la risposta è Sì, il percorso di inferenza si sposta dalla radice alla condizione successiva (y > 0).
          Poiché la risposta è Sì, il percorso di inferenza si sposta alla condizione successiva (z > 0). Poiché la risposta è No, il percorso di inferenza si sposta verso il suo nodo terminale, che è la foglia (Zeta).

Le tre frecce spesse mostrano il percorso di inferenza.

guadagno di informazioni

#df

Nelle foreste decisionali, la differenza tra l'entropia di un nodo e la somma ponderata (per numero di esempi) dell'entropia dei nodi figlio. L'entropia di un nodo è l'entropia degli esempi in quel nodo.

Ad esempio, considera i seguenti valori di entropia:

  • entropia del nodo padre = 0,6
  • entropia di un nodo figlio con 16 esempi pertinenti = 0,2
  • entropia di un altro nodo figlio con 24 esempi pertinenti = 0,1

Quindi il 40% degli esempi si trova in un nodo figlio e il 60% nell'altro nodo figlio. Pertanto:

  • somma entropia ponderata dei nodi figlio = (0,4 * 0,2) + (0,6 * 0,1) = 0,14

Quindi, le informazioni ottenute sono:

  • guadagno di informazioni = entropia del nodo principale - somma di entropia ponderata dei nodi figlio
  • guadagno di informazioni = 0,6 - 0,14 = 0,46

La maggior parte dei splitter cerca di creare condizioni che massimizzano il guadagno di informazioni.

condizione impostata

#df

In un albero decisionale, una condizione che verifica la presenza di un elemento in un insieme di elementi. Ad esempio, quella che segue è una condizione impostata:

  house-style in [tudor, colonial, cape]

Durante l'inferenza, se il valore della feature in stile autopromozionale è tudor, colonial o cape, questa condizione restituisce Sì. Se il valore della caratteristica autopromozionale è qualcos'altro (ad esempio, ranch), la condizione ha come risultato No.

Le condizioni in-set di solito portano a alberi decisionali più efficienti rispetto alle condizioni che testano le funzionalità con codifica one-hot.

L

foglia

#df

Qualsiasi endpoint in un albero decisionale. A differenza di una condizione, una foglia non esegue un test. Piuttosto, una foglia è una possibile previsione. Una foglia è anche il nodo terminale di un percorso di inferenza.

Ad esempio, il seguente albero decisionale contiene tre foglie:

Un albero decisionale con due condizioni che portano a tre foglie.

N

nodo (albero decisionale)

#df

In un albero decisionale, qualsiasi condizione o foglia.

Un albero decisionale con due condizioni e tre foglie.

condizione non binaria

#df

Una condizione che contiene più di due risultati possibili. Ad esempio, la seguente condizione non binaria contiene tre possibili risultati:

Una condizione (number_of_legs = ?) che genera tre possibili risultati. Un risultato (number_of_legs = 8) porta a una foglia
          denominata ragno. Un secondo risultato (number_of_legs = 4) porta a una foglia di nome cane. Un terzo risultato (number_of_legs = 2) porta a una foglia chiamata pinguino.

O

condizione obliqua

#df

In un albero decisionale, una condizione che include più di una funzionalità. Ad esempio, se altezza e larghezza sono entrambe caratteristiche, la seguente condizione è una obliqua:

  height > width

Il contrasto con la condizione allineata all'asse.

valutazione out-of-bag (valutazione OOB)

#df

Un meccanismo per valutare la qualità di un albero decisionale, testando ogni albero decisionale rispetto agli esempi non utilizzati durante l'addestramento di quell'albero decisionale. Ad esempio, nel seguente diagramma, nota che il sistema addestra ogni albero decisionale su circa due terzi degli esempi, quindi valuta in base a un terzo rimanente degli esempi.

Una foresta decisionale composta da tre alberi decisionali.
          Un albero decisionale viene addestrato su due terzi degli esempi,
          quindi utilizza il terzo rimanente per la valutazione OOB.
          Un secondo albero decisionale viene addestrato su due terzi diversi degli esempi rispetto alla struttura decisionale precedente, quindi utilizza un terzo diverso per la valutazione OOB rispetto alla struttura decisionale precedente.

La valutazione out-of-bag è un'approssimazione conservativa e efficiente dal punto di vista computazionale del meccanismo di convalida incrociata. Nella convalida incrociata, viene addestrato un modello per ogni round di convalida incrociata (ad esempio, 10 modelli vengono addestrati con una convalida incrociata di 10 volte). Con la valutazione OOB, viene addestrato un singolo modello. Poiché l'insufficienza di dati trattene alcuni dati di ogni albero durante l'addestramento, la valutazione OOB può utilizzare questi dati per approssimare la convalida incrociata.

P

importanza delle variabili di permutazione

#df

Un tipo di importanza della variabile che valuta l'aumento dell'errore di previsione di un modello dopo aver autorizzato i valori della caratteristica. L'importanza della variabile di permutazione è una metrica indipendente dal modello.

R

Random Forest

#df

Un insieme di alberi decisionali in cui ogni albero decisionale viene addestrato con un rumore casuale specifico, ad esempio insaus.

Le foreste casuali sono un tipo di foresta decisionale.

root

#df

Il nodo iniziale (la prima condizione) in un albero decisionale. Per convenzione, i diagrammi mettono la radice in cima all'albero decisionale. Ad esempio:

Un albero decisionale con due condizioni e tre foglie. La
          condizione iniziale (x > 2) è la condizione radice.

S

campionamento con sostituzione

#df

Metodo per scegliere elementi da un insieme di elementi candidati in cui lo stesso elemento può essere selezionato più volte. La frase "con sostituzione" indica che, dopo ogni selezione, l'elemento selezionato viene restituito al pool di elementi candidati. Il metodo inverso, campionamento senza sostituzione, significa che un elemento candidato può essere scelto una sola volta.

Ad esempio, considera la seguente serie di frutta:

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

Supponiamo che il sistema scelga in modo casuale fig come primo elemento. Se utilizzi il campionamento con la sostituzione, il sistema sceglie la seconda voce dall'insieme seguente:

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

Sì, è lo stesso impostato di prima, quindi il sistema potrebbe scegliere di nuovo fig.

Se utilizzi il campionamento senza sostituzione, una volta scelto, non sarà più possibile scegliere un campione. Ad esempio, se il sistema sceglie in modo casuale fig come primo campione, allora fig non potrà essere scelto di nuovo. Di conseguenza, il sistema sceglie il secondo campione dal seguente insieme (ridotto):

fruit = {kiwi, apple, pear, cherry, lime, mango}

restringimento

#df

Un iperparametro in Boost gradienting che controlla il overfitting. La riduzione nell'incremento del gradiente è simile al tasso di apprendimento nella discesa del gradiente. La riduzione è un valore decimale compreso tra 0,0 e 1,0. Un valore di restringimento più basso riduce l'overfitting di più rispetto a un valore di restringimento maggiore.

split

#df

In un albero decisionale, un altro nome per una condizione.

divisore

#df

Durante l'addestramento di un albero decisionale, la routine (e l'algoritmo) responsabili della ricerca della condizione migliore in ogni nodo.

T

test

#df

In un albero decisionale, un altro nome per una condizione.

soglia (per gli alberi decisionali)

#df

In una condizione allineata all'asse, il valore con cui viene confrontata una funzionalità. Ad esempio, 75 è il valore di soglia nella seguente condizione:

grade >= 75

V

importanza delle variabili

#df

Un insieme di punteggi che indica l'importanza relativa di ogni funzionalità per il modello.

Ad esempio, prendiamo in considerazione un albero decisionale che stima i prezzi delle case. Supponiamo che questo albero decisionale utilizzi tre caratteristiche: dimensione, età e stile. Se si calcola che un insieme di importanza delle variabili per le tre caratteristiche sia {size=5.8, age=2.5, style=4.7}, la dimensione è più importante per l'albero decisionale dell'età o dello stile.

Esistono metriche di importanza variabile diverse, che possono informare gli esperti di ML sui diversi aspetti dei modelli.

M

saggezza della folla

#df

L'idea che la media delle opinioni o delle stime di un grande gruppo di persone ("la folla") spesso produce risultati sorprendentemente positivi. Ad esempio, un gioco consiste nel indovinare il numero di caramelle gommose in un barattolo grande. Anche se la maggior parte delle singole supposizioni non sarà accurata, è stato dimostrato empiricamente che la media di tutte le ipotesi è sorprendentemente vicina al numero effettivo di jelly bean nel barattolo.

Gli ensemble sono un analogo software della saggezza del pubblico. Anche se i singoli modelli fanno previsioni molto imprecise, la media delle previsioni di molti modelli genera spesso previsioni sorprendentemente valide. Ad esempio, anche se un singolo albero decisionale potrebbe generare previsioni scadenti, un bosco decisionale spesso è in grado di fornire previsioni molto efficaci.