Questa pagina è stata tradotta dall'API Cloud Translation.

Glossario del machine learning: foreste decisionali

Questa pagina contiene i termini del glossario delle foreste decisionali. Per tutti i termini del glossario, fai clic qui.

A

campionamento degli attributi

#df

Una tattica per addestrare un bosco decisionale in cui ogni albero decisionale prende in considerazione solo un sottoinsieme casuale di possibili caratteristiche quando apprende la condizione. In genere, viene campionato un sottoinsieme diverso di funzionalità per ogni nodo. Al contrario, durante l'addestramento di un albero decisionale senza campionamento degli attributi, vengono prese in considerazione tutte le funzionalità possibili.

condizione allineata all'asse

#df

In un albero decisionale, una condizione che prevede una sola funzionalità. Ad esempio, se l'area è una caratteristica, di seguito è riportata una condizione allineata all'asse:

area > 200

In contrasto con la condizione obbligatoria.

B

insaccamento

#df

Un metodo per addestrare un insieme in cui ogni costituente modello viene addestrato su un sottoinsieme casuale di esempi di addestramento campionati con sostituzione. Ad esempio, una foresta casuale è una raccolta di alberi decisionali addestrati con l'insufficienza.

Il termine bagging è l'acronimo di bootstrap aggregating.

condizione binaria

#df

In un albero decisionale, una condizione che ha solo due risultati possibili, in genere yes o no. Ad esempio, di seguito è riportata una condizione binaria:

temperature >= 100

È in contrasto con la condizione non binaria.

C

Condizione

#df

In un albero decisionale, qualsiasi nodo che valuti un'espressione. Ad esempio, la seguente porzione di un albero decisionale contiene due condizioni:

Una struttura decisionale composta da due condizioni: (x > 0) e
(y > 0).

Una condizione è anche chiamata suddivisione o test.

Condizione di contrasto con leaf.

Vedi anche:

condizione binaria
condizione non binaria.
condizione-allineata-asse
condizione-obliqua

D

Decision Forest

#df

Un modello creato a partire da più alberi decisionali. Una foresta decisionale esegue una previsione aggregando le previsioni dei suoi alberi decisionali. Tra i tipi più diffusi di foreste decisionali ci sono foreste casuali e alberi potenziati da gradiente.

albero decisionale

#df

Un modello di apprendimento supervisionato composto da un insieme di conditions e conditions organizzate in modo gerarchico. Ad esempio, di seguito è riportato un albero decisionale:

Una struttura decisionale composta da quattro condizioni organizzate gerarchicamente che portano a cinque foglie.

E

entropia

#df

Nella teoria dell'informazione, una descrizione di quanto sia imprevedibile una distribuzione di probabilità. In alternativa, l'entropia è definita anche come la quantità di informazioni contenute in ogni esempio. Una distribuzione ha la più alta entropia possibile quando tutti i valori di una variabile casuale hanno la stessa probabilità.

L'entropia di un insieme con due possibili valori "0" e "1" (ad esempio, le etichette in un problema di classificazione binaria) ha la seguente formula:

H = -p log p - q log q = -p log p - (1-p) * log (1-p)

dove:

H è l'entropia.
p è la frazione di "1".
q è la frazione degli esempi "0". Nota che q = (1 - p)
log corrisponde in genere a log₂. In questo caso, l'unità di entropia è un po'.

Supponiamo, ad esempio, che:

100 esempi contengono il valore "1"
300 esempi contengono il valore "0"

Di conseguenza, il valore entropia è:

p = 0,25
q = 0,75
H = (-0,25) log₂(0,25) - (0,75)log₂(0,75) = 0,81 bit per esempio

Un insieme perfettamente bilanciato (ad esempio 200 "0" e 200 "1") avrebbe un'entropia di 1, 0 bit per esempio. Man mano che un insieme diventa più sbilanciato, la sua entropia si sposta verso 0,0.

Negli alberi decisionali, l'entropia aiuta a formulare il aumento delle informazioni per aiutare lo strumento splitter a selezionare le condizioni durante la crescita di un albero decisionale della classificazione.

Confronta l'entropia con:

impurità gini
Funzione di perdita di entropia incrociata

L'entropia di Shannon è spesso chiamata entropia di Shannon.

F

importanza delle caratteristiche

#df

Sinonimo di importanza delle variabili.

G

impurità gini

#df

Una metrica simile ad entropia. I suddivise utilizzano valori derivati dall'impurità o dall'entropia di gini per comporre le condizioni per la classificazione degli alberi decisionali. Il guadagno di informazioni deriva dall'entropia. Non esiste un termine equivalente universalmente accettato per la metrica derivata dall'impurità gini; tuttavia, questa metrica senza nome è importante quanto il guadagno di informazioni.

L'impurità di Gini è anche chiamata gini index o semplicemente gini.

Fai clic sull'icona per dettagli matematici sull'impurità di gini.

L'impurità di Gini è la probabilità di classificare erroneamente un nuovo dati preso dalla stessa distribuzione. L'impurità gini di un insieme con due possibili valori "0" e "1" (ad esempio, le etichette in un problema di classificazione binaria) viene calcolata dalla seguente formula:

I = 1 - (p² + q²) = 1 - (p² + (1-p)²)

dove:

I è l'impurità della gini.
p è la frazione di "1".
q è la frazione degli esempi "0". Tieni presente che q = 1-p

Ad esempio, considera il seguente set di dati:

100 etichette (0,25 del set di dati) contengono il valore "1"
300 etichette (0,75 del set di dati) contengono il valore "0"

Pertanto, l'impurità della gini è:

p = 0,25
q = 0,75
I = 1 - (0,25² + 0,75²) = 0,375

Di conseguenza, un'etichetta casuale dello stesso set di dati avrebbe una probabilità del 37,5% di essere classificata in modo errato e del 62,5% di una classificazione corretta.

Un'etichetta perfettamente bilanciata (ad esempio 200 "0" e 200 "1") avrebbe un'impurità di gini pari a 0, 5. Un'etichetta molto sbilanciata avrebbe un'impurità gini vicina a 0,0.

Alberi a decisioni (GBT) potenziato con gradiente

#df

Un tipo di foresta decisionale in cui:

L'addestramento si basa sul incremento del gradiente.
Il modello debole è un albero decisionale.

boosting del gradiente

#df

Un algoritmo di addestramento in cui i modelli deboli vengono addestrati per migliorare iterativamente la qualità di un modello forte. Ad esempio, un modello debole può essere lineare o con albero decisionale piccolo. Il modello forte diventa la somma di tutti i modelli deboli addestrati in precedenza.

Nella forma più semplice di boosting del gradiente, a ogni iterazione viene addestrato un modello debole per prevedere il gradiente di perdita del modello forte. Poi, l'output del modello efficace viene aggiornato sottraendo il gradiente previsto, in modo simile alla discesa del gradiente.

$$F_{0} = 0$$ $$F_{i+1} = F_i - \xi f_i $$

dove:

$F_{0}$ è il modello iniziale efficace.
$F_{i+1}$ è il prossimo modello potente.
$F_{i}$ è l'attuale modello efficace.
$\xi$ è un valore compreso tra 0,0 e 1,0 chiamato retrazione, che è analogo al tasso di apprendimento nella discesa del gradiente.
$f_{i}$ è il modello debole addestrato per prevedere il gradiente di perdita di $F_{i}$.

Le varianti moderne di gradienting del boosting includono anche la derivata seconda (Hessian) della perdita nel calcolo.

Gli alberi decisionali vengono comunemente utilizzati come modelli deboli nel incremento del gradiente. Vedi gli alberi con gradiente (decision).

I

percorso di inferenza

#df

In un albero decisionale, durante l'inferenza, il routing di un determinato esempio prende dalla principale ad altre condizioni, terminando con una leaf. Ad esempio, nel seguente albero decisionale, le frecce più spesse mostrano il percorso di inferenza per un esempio con i seguenti valori delle funzionalità:

x = 7
y = 12
z = -3

Il percorso di inferenza nella seguente illustrazione attraversa tre condizioni prima di raggiungere la foglia (Zeta).

Le tre frecce spesse mostrano il percorso di inferenza.

guadagno di informazioni

#df

Nelle foreste decisionali, la differenza tra l'entropia di un nodo e la somma ponderata (per numero di esempi) dell'entropia dei nodi figlio. L'entropia di un nodo è l'entropia degli esempi in quel nodo.

Ad esempio, considera i seguenti valori di entropia:

entropia del nodo padre = 0,6
entropia di un nodo figlio con 16 esempi pertinenti = 0,2
entropia di un altro nodo figlio con 24 esempi pertinenti = 0,1

Quindi il 40% degli esempi si trova in un nodo figlio e il 60% nell'altro nodo figlio. Pertanto:

somma entropia ponderata dei nodi figlio = (0,4 * 0,2) + (0,6 * 0,1) = 0,14

Quindi, le informazioni ottenute sono:

guadagno di informazioni = entropia del nodo principale - somma di entropia ponderata dei nodi figlio
guadagno di informazioni = 0,6 - 0,14 = 0,46

La maggior parte dei splitter cerca di creare condizioni che massimizzano il guadagno di informazioni.

condizione impostata

#df

In un albero decisionale, una condizione che verifica la presenza di un elemento in un insieme di elementi. Ad esempio, quella che segue è una condizione impostata:

  house-style in [tudor, colonial, cape]

Durante l'inferenza, se il valore della feature in stile autopromozionale è tudor, colonial o cape, questa condizione restituisce Sì. Se il valore della caratteristica autopromozionale è qualcos'altro (ad esempio, ranch), la condizione ha come risultato No.

Le condizioni in-set di solito portano a alberi decisionali più efficienti rispetto alle condizioni che testano le funzionalità con codifica one-hot.

L

foglia

#df

Qualsiasi endpoint in un albero decisionale. A differenza di una condizione, una foglia non esegue un test. Piuttosto, una foglia è una possibile previsione. Una foglia è anche il nodo terminale di un percorso di inferenza.

Ad esempio, il seguente albero decisionale contiene tre foglie:

Un albero decisionale con due condizioni che portano a tre foglie.

N

nodo (albero decisionale)

#df

In un albero decisionale, qualsiasi condizione o foglia.

Un albero decisionale con due condizioni e tre foglie.

condizione non binaria

#df

Una condizione che contiene più di due risultati possibili. Ad esempio, la seguente condizione non binaria contiene tre possibili risultati:

Una condizione (number_of_legs = ?) che genera tre possibili risultati. Un risultato (number_of_legs = 8) porta a una foglia
denominata ragno. Un secondo risultato (number_of_legs = 4) porta a una foglia di nome cane. Un terzo risultato (number_of_legs = 2) porta a una foglia chiamata pinguino.

O

condizione obliqua

#df

In un albero decisionale, una condizione che include più di una funzionalità. Ad esempio, se altezza e larghezza sono entrambe caratteristiche, la seguente condizione è una obliqua:

  height > width

Il contrasto con la condizione allineata all'asse.

valutazione out-of-bag (valutazione OOB)

#df

Un meccanismo per valutare la qualità di un albero decisionale, testando ogni albero decisionale rispetto agli esempi non utilizzati durante l'addestramento di quell'albero decisionale. Ad esempio, nel seguente diagramma, nota che il sistema addestra ogni albero decisionale su circa due terzi degli esempi, quindi valuta in base a un terzo rimanente degli esempi.

La valutazione out-of-bag è un'approssimazione conservativa e efficiente dal punto di vista computazionale del meccanismo di convalida incrociata. Nella convalida incrociata, viene addestrato un modello per ogni round di convalida incrociata (ad esempio, 10 modelli vengono addestrati con una convalida incrociata di 10 volte). Con la valutazione OOB, viene addestrato un singolo modello. Poiché l'insufficienza di dati trattene alcuni dati di ogni albero durante l'addestramento, la valutazione OOB può utilizzare questi dati per approssimare la convalida incrociata.

P

importanza delle variabili di permutazione

#df

Un tipo di importanza della variabile che valuta l'aumento dell'errore di previsione di un modello dopo aver autorizzato i valori della caratteristica. L'importanza della variabile di permutazione è una metrica indipendente dal modello.

R

Random Forest

#df

Un insieme di alberi decisionali in cui ogni albero decisionale viene addestrato con un rumore casuale specifico, ad esempio insaus.

Le foreste casuali sono un tipo di foresta decisionale.

root

#df

Il nodo iniziale (la prima condizione) in un albero decisionale. Per convenzione, i diagrammi mettono la radice in cima all'albero decisionale. Ad esempio:

Un albero decisionale con due condizioni e tre foglie. La
condizione iniziale (x > 2) è la condizione radice.

S

campionamento con sostituzione

#df

Metodo per scegliere elementi da un insieme di elementi candidati in cui lo stesso elemento può essere selezionato più volte. La frase "con sostituzione" indica che, dopo ogni selezione, l'elemento selezionato viene restituito al pool di elementi candidati. Il metodo inverso, campionamento senza sostituzione, significa che un elemento candidato può essere scelto una sola volta.

Ad esempio, considera la seguente serie di frutta:

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

Supponiamo che il sistema scelga in modo casuale fig come primo elemento. Se utilizzi il campionamento con la sostituzione, il sistema sceglie la seconda voce dall'insieme seguente:

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

Sì, è lo stesso impostato di prima, quindi il sistema potrebbe scegliere di nuovo fig.

Se utilizzi il campionamento senza sostituzione, una volta scelto, non sarà più possibile scegliere un campione. Ad esempio, se il sistema sceglie in modo casuale fig come primo campione, allora fig non potrà essere scelto di nuovo. Di conseguenza, il sistema sceglie il secondo campione dal seguente insieme (ridotto):

fruit = {kiwi, apple, pear, cherry, lime, mango}

Fai clic sull'icona per le note aggiuntive.

La parola sostituzione nel campionamento con sostituzione confonde molte persone. In inglese, sostituzione significa "sostituzione". Tuttavia, per il campionamento con sostituzione viene utilizzata in realtà la definizione francese di sostituzione, che significa "reinserire qualcosa".

La parola inglese replacement si traduce in francese remplacement.

restringimento

#df

Un iperparametro in Boost gradienting che controlla il overfitting. La riduzione nell'incremento del gradiente è simile al tasso di apprendimento nella discesa del gradiente. La riduzione è un valore decimale compreso tra 0,0 e 1,0. Un valore di restringimento più basso riduce l'overfitting di più rispetto a un valore di restringimento maggiore.

split

#df

In un albero decisionale, un altro nome per una condizione.

divisore

#df

Durante l'addestramento di un albero decisionale, la routine (e l'algoritmo) responsabili della ricerca della condizione migliore in ogni nodo.

T

test

#df

In un albero decisionale, un altro nome per una condizione.

soglia (per gli alberi decisionali)

#df

In una condizione allineata all'asse, il valore con cui viene confrontata una funzionalità. Ad esempio, 75 è il valore di soglia nella seguente condizione:

grade >= 75

V

importanza delle variabili

#df

Un insieme di punteggi che indica l'importanza relativa di ogni funzionalità per il modello.

Ad esempio, prendiamo in considerazione un albero decisionale che stima i prezzi delle case. Supponiamo che questo albero decisionale utilizzi tre caratteristiche: dimensione, età e stile. Se si calcola che un insieme di importanza delle variabili per le tre caratteristiche sia {size=5.8, age=2.5, style=4.7}, la dimensione è più importante per l'albero decisionale dell'età o dello stile.

Esistono metriche di importanza variabile diverse, che possono informare gli esperti di ML sui diversi aspetti dei modelli.

M

saggezza della folla

#df

L'idea che la media delle opinioni o delle stime di un grande gruppo di persone ("la folla") spesso produce risultati sorprendentemente positivi. Ad esempio, un gioco consiste nel indovinare il numero di caramelle gommose in un barattolo grande. Anche se la maggior parte delle singole supposizioni non sarà accurata, è stato dimostrato empiricamente che la media di tutte le ipotesi è sorprendentemente vicina al numero effettivo di jelly bean nel barattolo.

Gli ensemble sono un analogo software della saggezza del pubblico. Anche se i singoli modelli fanno previsioni molto imprecise, la media delle previsioni di molti modelli genera spesso previsioni sorprendentemente valide. Ad esempio, anche se un singolo albero decisionale potrebbe generare previsioni scadenti, un bosco decisionale spesso è in grado di fornire previsioni molto efficaci.