Questa pagina contiene i termini del glossario di Decision Forests. Per tutti i termini del glossario, fai clic qui.
A
Campionamento degli attributi
Una tattica per l'addestramento di una foresta decisionale in cui ogni albero decisionale prende in considerazione solo un sottoinsieme casuale di possibili caratteristiche durante l'apprendimento della condizione. In genere, viene campionato un sottoinsieme diverso di funzionalità per ogni nodo. Al contrario, durante l'addestramento di un albero decisionale senza campionamento degli attributi, vengono prese in considerazione tutte le possibili caratteristiche per ogni nodo.
condizione allineata all'asse
In un albero decisionale, una condizione che coinvolge una sola caratteristica. Ad esempio, se area
è un elemento, la seguente è una condizione allineata all'asse:
area > 200
È diverso dalla condizione obliqua.
B
bagging
Un metodo per addestrare un ensemble in cui ogni modello costituente viene addestrato su un sottoinsieme random di esempi di addestramento campionati con sostituzione. Ad esempio, una foresta casuale è una raccolta di alberi decisionali addestrati con il bagging.
Il termine bagging è l'abbreviazione di bootstrap aggregating.
Per ulteriori informazioni, consulta la sezione Foreste casuali nel corso Foreste di decisione.
condizione binaria
In un albero decisionale, una condizione con due soli possibili risultati, in genere sì o no. Ad esempio, la seguente è una condizione binaria:
temperature >= 100
È il contrario della condizione non binaria.
Per ulteriori informazioni, consulta la sezione Tipi di condizioni nel corso Foreste di decisione.
C
condizione
In un albero decisionale, qualsiasi nodo che valuta un'espressione. Ad esempio, la seguente parte di un albero decisionale contiene due condizioni:
Una condizione è chiamata anche suddivisione o test.
Condizione di contrasto con foglia.
Vedi anche:
Per ulteriori informazioni, consulta la sezione Tipi di condizioni nel corso Foreste di decisione.
D
foresta decisionale
Un modello creato da più alberi decisionali. Una foresta decisionale effettua una previsione aggregando le previsioni dei suoi alberi decisionali. I tipi più diffusi di foreste decisionali includono foreste casuali e alberi con boosting della curva di distribuzione.
Per ulteriori informazioni, consulta la sezione Foreste di decisione nel corso Foreste di decisione.
albero decisionale
Un modello di apprendimento supervisionato composto da un insieme di condizioni e foglie organizzate in modo gerarchico. Ad esempio, di seguito è riportato un albero decisionale:
E
entropia
In teoria dell'informazione, una descrizione dell'imprevedibilità di una distribuzione di probabilità. In alternativa, l'entropia è definita anche come la quantità di informazione contenuta in ogni esempio. Una distribuzione ha la massima entropia possibile quando tutti i valori di una variabile aleatoria sono sempre possibili.
L'entropia di un insieme con due possibili valori "0" e "1" (ad esempio, le etichette in un problema di classificazione binaria) ha la seguente formula:
H = -p log p - q log q = -p log p - (1-p) * log (1-p)
dove:
- H è l'entropia.
- p è la frazione di esempi "1".
- q è la frazione di esempi "0". Tieni presente che q = (1 - p)
- log è generalmente log2. In questo caso, l'unità di misura dell'entropia è un bit.
Ad esempio, supponiamo quanto segue:
- 100 esempi contengono il valore "1"
- 300 esempi contengono il valore "0"
Pertanto, il valore di entropia è:
- p = 0,25
- q = 0,75
- H = (-0,25)log2(0,25) - (0,75)log2(0,75) = 0,81 bit per esempio
Un insieme perfettamente bilanciato (ad esempio 200 "0" e 200 "1") avrebbe un'entropia di 1, 0 bit per esempio. Man mano che un insieme diventa più sbilanciato, la sua entropia si sposta verso 0,0.
Negli alberi decisionali, l'entropia aiuta a formulare il guadagno di informazione per aiutare lo strumento di suddivisione a selezionare le condizioni durante la crescita di un albero decisionale di classificazione.
Confronta l'entropia con:
- impurità gini
- Funzione di perdita di entropia incrociata
L'entropia viene spesso chiamata entropia di Shannon.
Per ulteriori informazioni, consulta Spartito esatto per la classificazione binaria con caratteristiche numeriche nel corso sulle foreste di decisione.
F
importanza delle caratteristiche
Sinonimo di importanza delle variabili.
G
Impurità di Gini
Una metrica simile all'entropia. Gli strumenti di suddivisione utilizzano i valori derivati dall'impurità di Gini o dall'entropia per comporre condizioni per la classificazione degli alberi decisionali. Il guadagno di informazione deriva dall'entropia. Non esiste un termine equivalente universalmente accettato per la metrica ricavata dall'impurità di Gini. Tuttavia, questa metrica senza nome è importante quanto il guadagno di informazione.
L'impurità di Gini è chiamata anche indice di Gini o semplicemente Gini.
alberi (decisionali) con boosting per gradiente (GBT)
Un tipo di foresta decisionale in cui:
- L'addestramento si basa su boosting per gradiente.
- Il modello debole è un albero decisionale.
Per ulteriori informazioni, consulta la sezione Albero decisionale con boosting della regressione nel corso Foreste decisionali.
boosting del gradiente
Un algoritmo di addestramento in cui i modelli deboli vengono addestrati per migliorare in modo iterativo la qualità (ridurre la perdita) di un modello efficace. Ad esempio, un modello debole potrebbe essere un modello di albero decisionale lineare o di piccole dimensioni. Il modello efficace diventa la somma di tutti i modelli deboli addestrati in precedenza.
Nella forma più semplice del boosting per gradiente, a ogni iterazione viene addestrato un modello debole per prevedere il gradiente di perdita del modello forte. Poi, l'output del modello migliore viene aggiornato sottraendo il gradiente previsto, in modo simile alla discesa del gradiente.
dove:
- $F_{0}$ è il modello forte iniziale.
- $F_{i+1}$ è il modello efficace successivo.
- $F_{i}$ è il modello attuale efficace.
- $\xi$ è un valore compreso tra 0,0 e 1,0 chiamato shrinkage, che è analogo al tasso di apprendimento in discesa del gradiente.
- $f_{i}$ è il modello debole addestrato a prevedere il gradiente di perdita di $F_{i}$.
Le varianti moderne del boosting per gradiente includono anche la seconda derivata (Hessian) della perdita nel calcolo.
Gli alberi decisionali vengono comunemente utilizzati come modelli deboli nell'aumento di gradiente. Consulta gli alberi (decisionali) con boosting della curva di apprendimento.
I
percorso di inferenza
In un albero decisionale, durante l'inferenza, viene indicato il percorso seguito da un determinato esempio dalla radice ad altre condizioni, che termina con un elemento foglia. Ad esempio, nella seguente struttura decisionale, le frecce più spesse mostrano il percorso di inferenza per un esempio con i seguenti valori delle funzionalità:
- x = 7
- y = 12
- z = -3
Il percorso di inferenza nell'illustrazione seguente attraversa tre condizioni prima di raggiungere la foglia (Zeta
).
Le tre frecce spesse mostrano il percorso di inferenza.
Per ulteriori informazioni, consulta la sezione Alberi decisionali nel corso Foreste di alberi decisionali.
guadagno di informazioni
Nelle foreste di alberi decisionali, la differenza tra l'entropia di un nodo e la somma ponderata (in base al numero di esempi) dell'entropia dei suoi nodi secondari. L'entropia di un nodo è l'entropia degli esempi in quel nodo.
Ad esempio, considera i seguenti valori di entropia:
- entropia del nodo principale = 0,6
- entropia di un nodo secondario con 16 esempi pertinenti = 0,2
- entropia di un altro nodo secondario con 24 esempi pertinenti = 0,1
Pertanto, il 40% degli esempi si trova in un nodo figlio e il 60% nell'altro nodo figlio. Pertanto:
- somma dell'entropia ponderata dei nodi secondari = (0,4 * 0,2) + (0,6 * 0,1) = 0,14
Pertanto, l'incremento di informazioni è:
- guadagno informativo = entropia del nodo principale - somma ponderata dell'entropia dei nodi secondari
- guadagno informativo = 0,6 - 0,14 = 0,46
La maggior parte degli strumenti di suddivisione cerca di creare condizioni che massimizzano l'aumento delle informazioni.
Condizione in-set
In un albero decisionale, una condizione che verifica la presenza di un elemento in un insieme di elementi. Ad esempio, la seguente è una condizione in-set:
house-style in [tudor, colonial, cape]
Durante l'inferenza, se il valore dell'attributo casa di stile è tudor
o colonial
o cape
, questa condizione viene valutata come Sì. Se
il valore della funzionalità stile-casa è un altro (ad esempio ranch
),
la condizione restituisce No.
Le condizioni in-set di solito generano alberi decisionali più efficienti rispetto alle condizioni che testano le funzionalità codificate one-hot.
L
foglia
Qualsiasi endpoint in un albero decisionale. A differenza di una condizione, una foglia non esegue un test. Piuttosto, una foglia è una possibile previsione. Una foglia è anche il nodo terminale di un percorso di inferenza.
Ad esempio, il seguente albero decisionale contiene tre foglie:
No
Nodo (albero decisionale)
In un albero decisionale, qualsiasi condizione o foglia.
condizione non binaria
Una condizione contenente più di due possibili risultati. Ad esempio, la seguente condizione non binaria contiene tre possibili risultati:
O
condizione obliqua
In un albero decisionale, una condizione che coinvolge più di un elemento. Ad esempio, se altezza e larghezza sono entrambe caratteristiche, la seguente è una condizione obliqua:
height > width
È il contrario della condizione allineata all'asse.
valutazione out-of-bag (OOB)
Un meccanismo per valutare la qualità di una foresta decisionale testando ogni albero decisionale in base ai esempi non utilizzati durante la formazione dell'albero decisionale. Ad esempio, nel diagramma seguente, tieni presente che il sistema addestra ogni albero decisionale su circa due terzi degli esempi e poi esegue la valutazione rispetto al terzo rimanente degli esempi.
La valutazione out-of-bag è un'approssimazione conservativa ed efficiente dal punto di vista computazionale del meccanismo di convalida incrociata. Nella convalida incrociata, viene addestrato un modello per ogni ciclo di convalida incrociata (ad esempio, 10 modelli vengono addestrati in una convalida incrociata decupla). Con la valutazione OOB, viene addestrato un singolo modello. Poiché il bagging nasconde alcuni dati di ogni albero durante l'addestramento, la valutazione OOB può utilizzare questi dati per approssimare la convalida incrociata.
P
importanza delle variabili di permutazione
Un tipo di importanza della variabile che valuta l'aumento dell'errore di previsione di un modello dopo la permutazione dei valori della caratteristica. L'importanza della variabile di permutazione è una metrica indipendente dal modello.
R
foresta casuale
Un ensemble di alberi decisionali in cui ogni albero decisionale viene addestrato con un rumore casuale specifico, come il bagging.
Le foreste casuali sono un tipo di foresta decisionale.
root
Il nodo iniziale (la prima condizione) in un albero decisionale. Per convenzione, i diagrammi posizionano il nodo principale nella parte superiore della struttura decisionale. Ad esempio:
S
campionamento con sostituzione
Un metodo per scegliere elementi da un insieme di elementi candidati in cui lo stesso elemento può essere scelto più volte. L'espressione "con sostituzione" significa che dopo ogni selezione, l'elemento selezionato viene restituito al gruppo di elementi candidati. Il metodo inverso, il campionamento senza sostituzione, significa che un elemento candidato può essere scelto una sola volta.
Ad esempio, considera il seguente set di frutta:
fruit = {kiwi, apple, pear, fig, cherry, lime, mango}
Supponiamo che il sistema scelga in modo casuale fig
come primo elemento.
Se utilizzi il campionamento con sostituzione, il sistema sceglie il
secondo elemento dal seguente insieme:
fruit = {kiwi, apple, pear, fig, cherry, lime, mango}
Sì, è lo stesso set di prima, quindi il sistema potrebbe potenzialmente scegliere di nuovo fig
.
Se utilizzi il campionamento senza sostituzione, un campione scelto non può essere scelto di nuovo. Ad esempio, se il sistema sceglie in modo casuale fig
come primo campione, fig
non può essere scelto di nuovo. Pertanto, il sistema sceglie il secondo campione dal seguente insieme (ridotto):
fruit = {kiwi, apple, pear, cherry, lime, mango}
ritiro
Un iperparametro in boosting per gradiente che controlla l'overfitting. Il calo nell'aumento del gradiente è analogo al tasso di apprendimento nella discesa del gradiente. Il ritiro è un valore decimale compreso tra 0,0 e 1,0. Un valore di riduzione inferiore riduce l'overfitting più di un valore di riduzione maggiore.
Spalato
In un albero decisionale, un altro nome per una condizione.
Splitter
Durante l'addestramento di un albero decisionale, la routine (e l'algoritmo) responsabile del trovare la migliore condizione in ogni nodo.
T
test
In un albero decisionale, un altro nome per una condizione.
soglia (per gli alberi decisionali)
In una condizione allineata all'asse, il valore rispetto al quale viene confrontata una funzionalità. Ad esempio, 75 è il valore di soglia nella seguente condizione:
grade >= 75
V
importanza delle variabili
Un insieme di punteggi che indica l'importanza relativa di ogni caratteristica per il modello.
Ad esempio, considera un albero decisionale che stima i prezzi delle case. Supponiamo che questo albero decisionale utilizzi tre caratteristiche: taglia, età e stile. Se un insieme di importanza delle variabili per le tre caratteristiche viene calcolato come {size=5.8, age=2.5, style=4.7}, la dimensione è più importante per l'albero decisionale rispetto all'età o allo stile.
Esistono diverse metriche di importanza delle variabili, che possono fornire informazioni agli esperti di ML su diversi aspetti dei modelli.
M
saggezza della folla
L'idea che la media delle opinioni o delle stime di un grande gruppo di persone ("la folla") spesso produca risultati sorprendentemente buoni. Ad esempio, prendiamo in considerazione un gioco in cui le persone devono indovinare il numero di gelee beans in un barattolo grande. Anche se la maggior parte delle singole supposizioni sarà imprecisa, la media di tutte le supposizioni è stata empiricamente dimostrata essere sorprendentemente vicina al numero effettivo di gelatine nel barattolo.
Gli ensemble sono un'analogia software della saggezza della folla. Anche se i singoli modelli fanno previsioni molto imprecise, la media delle previsioni di molti modelli genera spesso previsioni sorprendentemente buone. Ad esempio, anche se un singolo albero decisionale potrebbe fare previsioni sbagliate, una foresta di alberi decisionali spesso genera previsioni molto buone.