Questa pagina contiene i termini del glossario relativi alle foreste decisionali. Per tutti i termini del glossario, fai clic qui.
A
campionamento degli attributi
Una tattica per addestrare una foresta decisionale in cui ogni L'albero decisionale prende in considerazione solo un sottoinsieme casuale di possibili features durante l'apprendimento della condizione. Di solito, viene campionato un sottoinsieme diverso di caratteristiche per node. Al contrario, quando addestra un albero decisionale senza campionamento degli attributi, vengono prese in considerazione tutte le possibili caratteristiche per ciascun nodo.
condizione allineata all'asse
In un albero decisionale, una condizione che riguarda una sola caratteristica. Ad esempio, se l'area è una caratteristica, la seguente è una condizione allineata all'asse:
area > 200
Contrasta la condizione obliqua.
B
insaccare
Un metodo per addestrare un ensemble in cui ogni il modello del componente viene addestrato su un sottoinsieme casuale di esempi campionati con sostituzione. Ad esempio, una foresta casuale è una raccolta di alberi decisionali addestrati con il bagging.
Il termine bagging è l'abbreviazione di bootstrap aggregating.
condizione binaria
In un albero decisionale, una condizione che ha solo due possibili risultati, in genere sì o no. Ad esempio, la seguente è una condizione binaria:
temperature >= 100
Confrontare con condizione non binaria.
C
condizione
In un albero decisionale, qualsiasi nodo che valuta un'espressione. Ad esempio, la seguente parte di l'albero decisionale contiene due condizioni:
Una condizione viene chiamata anche suddivisione o test.
Contrasta la condizione con foglia.
Vedi anche:
D
foresta decisionale
Un modello creato da più alberi decisionali. Una foresta decisionale effettua una previsione aggregando le previsioni ai suoi alberi decisionali. Tra i tipi più diffusi di foreste decisionali ci sono foreste casuali e alberi ad alto gradiente.
albero decisionale
Un modello di apprendimento supervisionato composto da un insieme condizioni e lascia organizzate in modo gerarchico. Ad esempio, di seguito è riportato un albero decisionale:
E
entropia
Nella teoria dell'informazione, una descrizione di quanto sia imprevedibile una probabilità distribuzione dei contenuti. In alternativa, l'entropia è definita anche quanto le informazioni contenute in ogni esempio. Una distribuzione ha l'entropia più alta possibile quando tutti i valori di una variabile casuale sono altrettanto probabile.
L'entropia di un insieme con due possibili valori "0" e "1" (ad esempio, le etichette in un problema di classificazione binaria) ha la seguente formula:
H = -p log p - q log q = -p log p - (1-p) * log (1-p) .
dove:
- H è l'entropia.
- p è la frazione di "1" esempi.
- q è la frazione di "0" esempi. Tieni presente che q = (1 - p)
- log è generalmente log2. In questo caso, l'entropia unità è un po'.
Ad esempio, supponiamo che:
- 100 esempi contengono il valore "1"
- 300 esempi contengono il valore "0"
Pertanto, il valore di entropia è:
- p = 0,25
- q = 0,75
- H = (-0,25)log2(0,25) - (0,75)log2(0,75) = 0,81 bit per esempio
Un insieme perfettamente bilanciato (ad esempio, 200 "0" e 200 "1" avrà un'entropia di 1,0 bit per esempio. Man mano che l'insieme diventa sempre più sbilanciato, la sua entropia si sposta verso 0,0.
Negli alberi decisionali, l'entropia aiuta a formulare di ottenere informazioni per aiutare le splitter seleziona le condizioni durante la crescita di un albero decisionale di classificazione.
Confrontare l'entropia con:
- impurità di gini
- funzione di perdita dell'entropia incrociata
L'entropia è spesso chiamata entropia di Shannon.
F
importanza delle caratteristiche
Sinonimo di importazioni variabili.
G
impurità di gini
Una metrica simile all'entropia. Separatori utilizzare i valori derivati dall'impurità o dall'entropia di gini per comporre condizioni per la classificazione alberi decisionali. L'aumento di informazioni deriva dall'entropia. Non esiste un termine equivalente universalmente accettato per la metrica derivata dall'impurità di gini; Tuttavia, questa metrica senza nome è importante quanto guadagno di informazioni.
L'impurità di Gini è anche chiamata indice di gini o semplicemente gini.
alberi a gradiente (decision) (GBT)
Un tipo di foresta decisionale in cui:
- L'addestramento si basa su incremento del gradiente.
- Il modello debole è un albero decisionale.
incremento del gradiente
Un algoritmo di addestramento in cui i modelli deboli vengono addestrati in modo iterativo migliorare la qualità (ridurre la perdita) di un modello efficace. Ad esempio: un modello debole potrebbe essere un modello ad albero decisionale lineare o piccolo. Un modello forte diventa la somma di tutti i modelli deboli addestrati in precedenza.
Nella forma più semplice di aumento del gradiente, a ogni iterazione, un modello debole addestrato per prevedere il gradiente di perdita del modello forte. Quindi, l'output del modello efficace viene aggiornato sottraendo il gradiente previsto, in modo simile alla discesa del gradiente.
dove:
- $F_{0}$ è il modello iniziale efficace.
- $F_{i+1}$ è il prossimo modello molto efficace.
- $F_{i}$ è il modello attualmente forte.
- $\xi$ è un valore compreso tra 0,0 e 1,0 chiamato shrinkage, in modo analogo tasso di apprendimento in della discesa del gradiente.
- $f_{i}$ è il modello debole addestrato per prevedere il gradiente di perdita di $F_{i}$.
Le varianti moderne dell'incremento del gradiente includono anche la derivata seconda (Hessian) della perdita nel calcolo.
Gli alberi decisionali sono comunemente utilizzati come modelli deboli l'incremento del gradiente. Consulta alberi ad alto gradiente (decisione).
I
percorso di inferenza
In un albero decisionale, durante l'inferenza, il percorso intrapreso da un particolare esempio dalla root ad altre condizioni, terminando con una foglia. Ad esempio, nel seguente albero decisionale, frecce più spesse mostrano il percorso di inferenza per un esempio con il seguente valori delle caratteristiche:
- x = 7
- y = 12
- z = -3
Il percorso di inferenza nella seguente illustrazione si snoda attraverso tre
prima di raggiungere la foglia (Zeta
).
Le tre frecce spesse mostrano il percorso di inferenza.
guadagno di informazioni
Nelle foreste decisionali, la differenza l'entropia di un nodo e la ponderazione (per il numero di esempi) somma dell'entropia dei nodi figlio. L'entropia di un nodo è l'entropia di esempi in quel nodo.
Ad esempio, considera i seguenti valori di entropia:
- entropia del nodo padre = 0,6
- entropia di un nodo figlio con 16 esempi pertinenti = 0,2
- entropia di un altro nodo figlio con 24 esempi pertinenti = 0,1
Il 40% degli esempi si trova in un nodo figlio e il 60% nella dall'altro nodo figlio. Pertanto:
- somma dell'entropia ponderata dei nodi figlio = (0,4 * 0,2) + (0,6 * 0,1) = 0,14
Quindi, l'acquisizione di informazioni è:
- guadagno di informazioni = entropia del nodo padre - somma di entropia ponderata dei nodi figlio
- guadagno di informazioni = 0,6 - 0,14 = 0,46
La maggior parte degli splitter cerca di creare condizioni che massimizzano il guadagno di informazioni.
condizione integrata
In un albero decisionale, una condizione che verifica la presenza di un elemento in un insieme di elementi. Ad esempio, la seguente è una condizione predefinita:
house-style in [tudor, colonial, cape]
Durante l'inferenza, se il valore della caratteristica in stile casa
è tudor
, colonial
o cape
, questa condizione restituisce Sì. Se
il valore della caratteristica casalinga è un altro (ad esempio, ranch
),
questa condizione restituisce n.
Le condizioni in sede di solito portano a alberi decisionali più efficienti rispetto a che verificano le caratteristiche con codifica one-hot.
L
foglia
Qualsiasi endpoint in un albero decisionale. Non mi piace più condition, una foglia non esegue un test. Piuttosto, una foglia è una possibile previsione. Una foglia è anche il terminale nodo di un percorso di inferenza.
Ad esempio, il seguente albero decisionale contiene tre foglie:
N
nodo (albero decisionale)
In un albero decisionale, qualsiasi condition o leaf.
condizione non binaria
Una condizione contenente più di due risultati possibili. Ad esempio, la seguente condizione non binaria contiene tre possibili dei risultati:
O
condizione obliqua
In un albero decisionale, una condizione che includa più di una funzionalità. Ad esempio, se altezza e larghezza sono entrambe caratteristiche, la seguente è una condizione obliqua:
height > width
Contrasta con la condizione allineata all'asse.
valutazione out-of-bag (valutazione OOB)
Un meccanismo per valutare la qualità di un foresta decisionale testando ogni albero decisionale rispetto alla esempi non utilizzati durante formazione per l'albero decisionale. Ad esempio, nel nel diagramma seguente, noterai che il sistema addestra ciascun albero decisionale su circa due terzi degli esempi e poi valuta in base restante un terzo degli esempi.
La valutazione immediata è una valutazione conservativa ed efficiente dal punto di vista approssimazione del meccanismo di convalida incrociata. Nella convalida incrociata viene addestrato un modello per ogni fase di convalida incrociata (ad esempio, 10 modelli vengono addestrati con una convalida incrociata di 10 volte). Con la valutazione OOB, viene addestrato un singolo modello. Poiché il bagging nasconde alcuni dati da ogni albero durante l'addestramento, per approssimare la convalida incrociata.
P
importanza delle variabili di permutazione
Un tipo di importanza variabile che valuta l'aumento dell'errore di previsione di un modello dopo la modifica i valori delle caratteristiche. L'importanza delle variabili di permutazione è indipendente dal modello in un file di dati.
R
foresta casuale
Un insieme di alberi decisionali a in cui ogni albero decisionale viene addestrato con uno specifico rumore casuale, come bagging.
Le foreste casuali sono un tipo di foresta decisionale.
root
Il nodo iniziale (il primo condition) in un albero decisionale. Per convenzione, i diagrammi mettono la radice nella parte superiore dell'albero decisionale. Ad esempio:
S
campionamento con sostituzione
Un metodo per scegliere elementi da un insieme di elementi candidati in cui lo stesso l'elemento può essere selezionato più volte. La frase "con sostituzione" significa che dopo ogni selezione l'elemento selezionato venga restituito di candidati. Il metodo inverso, campionamento senza sostituzione, significa che un elemento candidato può essere selezionato una sola volta.
Ad esempio, considera il seguente insieme di frutta:
fruit = {kiwi, apple, pear, fig, cherry, lime, mango}
Supponiamo che il sistema scelga in modo casuale fig
come primo elemento.
Se si utilizza il campionamento con sostituzione, il sistema seleziona
secondo elemento della serie seguente:
fruit = {kiwi, apple, pear, fig, cherry, lime, mango}
Sì, è lo stesso set di prima, quindi il sistema potrebbe
scegli di nuovo fig
.
Se si utilizza il campionamento senza sostituzione, una volta scelto, un campione non può
scelto di nuovo. Ad esempio, se il sistema sceglie in modo casuale fig
come
primo campione, fig
non può più essere selezionato. Pertanto, il sistema
sceglie il secondo campione dal seguente set (ridotto):
fruit = {kiwi, apple, pear, cherry, lime, mango}
restringimento
Un iperparametro in l'incremento del gradiente che controlla overfitting. Riduzione nell'incremento del gradiente è analogo al tasso di apprendimento in discesa del gradiente. Lo restringimento è un numero decimale compreso tra 0,0 e 1,0. Un valore di shrinkage più basso riduce l'overfitting di un valore di shrinkage maggiore.
Spalato
In un albero decisionale, un altro nome per condition.
divisore
Durante l'addestramento di un albero decisionale, la routine (e algoritmo) responsabile di trovare condition a ogni nodo.
T
test
In un albero decisionale, un altro nome per condition.
soglia (per gli alberi decisionali)
In una condizione allineata all'asse, il valore di un con cui viene confrontata la funzionalità feature. Ad esempio, 75 è il di soglia nella seguente condizione:
grade >= 75
V
importanza delle variabili
Un insieme di punteggi che indica l'importanza relativa di ciascuno feature al modello.
Ad esempio, considera un albero decisionale che stima i prezzi delle abitazioni. Supponiamo che questo albero decisionale utilizzi caratteristiche: taglia, età e stile. Se un insieme di valori di importanza per le tre caratteristiche vengono calcolate come {size=5.8, age=2.5, style=4.7}, la taglia è più importante per la albero decisionale rispetto all'età o allo stile.
Esistono diverse metriche di importanza delle variabili, che possono esperti di ML su diversi aspetti dei modelli.
M
saggezza della folla
L'idea che la media delle opinioni o delle stime di un grande gruppo di persone ("la folla") spesso produce risultati sorprendenti. Ad esempio, considera un gioco in cui le persone indovinano il numero caramelle gommose in un barattolo grande. Sebbene la maggior parte dei singoli non saranno precise, la media di tutte le ipotesi è stata dimostrato empiricamente essere sorprendentemente vicino al numero effettivo di caramelle gommose nel barattolo.
Gli insiemi sono un analogo del software alla saggezza della folla. Anche se i singoli modelli fanno previsioni molto imprecise, la media delle previsioni di molti modelli genera spesso in modo sorprendente buone previsioni. Ad esempio, anche se un individuo albero decisionale potrebbe generare previsioni sbagliate, le foreste decisionali spesso fornisce previsioni molto buone.