Diese Seite enthält Glossarbegriffe für Entscheidungsstrukturen. Für alle Glossarbegriffe klicken Sie hier.
A
Stichprobenerhebung für Attribute
Eine Taktik zum Trainieren eines Entscheidungswalds, in der jede Der Entscheidungsbaum berücksichtigt nur eine zufällige Teilmenge möglicher Funktionen beim Lernen der Bedingung. Im Allgemeinen wird für jedes Element node. Beim Trainieren eines Entscheidungsbaums ohne Attribut-Sampling werden alle möglichen Features für jeden Knoten berücksichtigt.
Achsenausrichtung
In einem Entscheidungsbaum wird eine Bedingung die nur eine einzige Funktion umfasst. Wenn z. B. eine Region ist eine Achsenausrichtung:
area > 200
Kontrast zur schrägen Bedingung
B
Bagging
Eine Methode zum Trainieren eines Ensembles, bei der jedes Das zusammenhängende Modell wird anhand einer zufälligen Teilmenge von Trainings trainiert. Beispiele mit Ersatzstichproben. Ein Random Forest ist beispielsweise eine Sammlung von Entscheidungsbäume, die mithilfe von Bagging trainiert wurden.
Bagging steht für Aggregating von Schnürsenkeln.
Binärbedingung
In einem Entscheidungsbaum wird eine Bedingung mit zwei möglichen Ergebnissen, typischerweise ja oder nein. Das folgende Beispiel zeigt eine binäre Bedingung:
temperature >= 100
Im Kontrast zur nicht binären Bedingung stehen.
C
condition
In einem Entscheidungsbaum kann jeder Knoten, der einen Ausdruck auswertet. Der folgende Teil einer Entscheidungsbaum enthält zwei Bedingungen:
Eine Bedingung wird auch als Split oder Test bezeichnet.
Kontrastbedingung mit Blatt
Siehe auch:
D
Entscheidungswald
Ein Modell, das aus mehreren Entscheidungsbäumen erstellt wurde. Ein Entscheidungswald fasst die Vorhersagen Entscheidungsbäume. Zu den beliebtesten Arten von Entscheidungswäldern gehören Random Forests und Gradient Boosted Trees.
Entscheidungsbaum
Ein Modell für überwachtes Lernen, das aus einer Reihe Bedingungen und Blätter sind hierarchisch organisiert. Das folgende Beispiel zeigt einen Entscheidungsbaum:
E
Entropie
In <ph type="x-smartling-placeholder"></ph> Informationstheorie, eine Beschreibung, wie unvorhersehbar eine Wahrscheinlichkeit ist, die Verteilung der Daten ist. Alternativ wird als Entropie definiert, Informationen, die jedes Beispiel enthält. Eine Verteilung hat höchste mögliche Entropie, wenn alle Werte einer Zufallsvariablen sind gleich wahrscheinlich.
Die Entropie einer Menge mit zwei möglichen Werten „0“ und „1“ (Beispiel: Labels bei einem binären Klassifizierungsproblem) verwendet die folgende Formel:
<ph type="x-smartling-placeholder"></ph> H = -p log p - q log q = -p log p - (1-p) * log (1-p)
Dabei gilt:
- H ist die Entropie.
- p ist der Bruchteil von "1". Beispiele.
- q ist der Bruchteil von "0". Beispiele. Beachten Sie, dass q = (1 - p) ist.
- log ist im Allgemeinen log2. In diesem Fall ist die Entropie ist eine Einheit.
Nehmen wir beispielsweise Folgendes an:
- 100 Beispiele enthalten den Wert „1“
- 300 Beispiele enthalten den Wert „0“
Daher ist der Entropiewert:
- p = 0,25
- q = 0,75
- H = (-0,25)log2(0,25) - (0,75)log2(0,75) = 0,81 Bit pro Beispiel
Ein Satz, der perfekt ausgeglichen ist (z. B. 200 „0“ und 200 „1“). eine Entropie von 1,0 Bit pro Beispiel. Je mehr sich ein Set unausgeglichen bewegt sich seine Entropie in Richtung 0, 0.
In Entscheidungsbäumen hilft die Entropie bei der Formulierung Informationsgewinn, Splitter: Wählen Sie die Bedingungen aus. während des Wachstums eines Klassifizierungs-Entscheidungsbaums.
Entropie vergleichen mit:
- Gini-Verunreinigung
- Kreuzentropie-Verlustfunktion
Die Entropie wird oft als Shannnon-Entropie bezeichnet.
F
Featurewichtigkeiten
Synonym für variable Wichtigkeiten.
G
Gini-Verunreinigung
Einen Messwert, der Entropie ähnelt. Splitter Verwenden Sie Werte, die entweder von der Gini-Verunreinigung oder von der Entropie abgeleitet wurden, Bedingungen für die Klassifizierung Entscheidungsbäume. Der Informationsgewinn wird aus der Entropie abgeleitet. Es gibt keinen allgemein akzeptierten äquivalenten Begriff für den abgeleiteten Messwert von Gini-Verunreinigung; Dieser unbenannte Messwert ist jedoch genauso wichtig wie gewinnen.
Die Gini-Verunreinigung wird auch als Gini-Index oder einfach Gini bezeichnet.
Gradient Boosted (Entscheidungsbaum) (GBT)
Eine Art von Entscheidungsstruktur, in dem:
- Für Schulungen müssen Gradientenverstärkung:
- Das schwache Modell ist ein Entscheidungsbaum.
Gradientenverstärkung
Einen Trainingsalgorithmus, mit dem schwache Modelle iterativ trainiert werden die Qualität (Verlust) eines leistungsfähigen Modells zu verbessern. Beispiel: könnte ein schwaches Modell ein lineares oder ein kleines Entscheidungsbaummodell sein. Ein starkes Modell ergibt sich aus der Summe aller zuvor trainierten schwachen Modelle.
Bei der einfachsten Form des Gradienten-Boostings wird bei jeder Iteration ein schwaches Modell wird trainiert, den Verlustgrad des starken Modells vorherzusagen. Das Feld wird die Ausgabe des starken Modells aktualisiert, indem der vorhergesagte Gradient subtrahiert wird, ähnlich wie das Gradientenverfahren.
Dabei gilt:
- $F_{0}$ ist das erste starke Modell.
- $F_{i+1}$ ist das nächste starke Modell.
- $F_{i}$ ist das aktuelle starke Modell.
- $\xi$ ist ein Wert zwischen 0,0 und 1,0, der als Schrumpfung bezeichnet wird. Das ist analog zum Lernrate in Gradientenverfahren.
- $f_{i}$ ist das schwache Modell, das dafür trainiert wurde, $F_{i}$.
Zu modernen Varianten des Gradienten-Boostings gehört auch die zweite Ableitung (hessisch) des Verlusts in ihrer Berechnung.
Entscheidungsbäume werden häufig als schwache Modelle in Gradientenverstärkung. Weitere Informationen finden Sie unter Gradienten-Boosted-Bäume (Entscheidungsbäume).
I
Inferenzpfad
In einem Entscheidungsbaum werden während der Inferenz die Route, die ein bestimmtes Beispiel aus dem root auf andere Bedingungen, endet mit ein Blatt. Im folgenden Entscheidungsbaum beispielsweise dickere Pfeile zeigen den Inferenzpfad für ein Beispiel mit folgendem Text an: Featurewerte:
- x = 7
- y = 12
- z = -3
Der Inferenzpfad in der folgenden Abbildung verläuft durch drei
Bedingungen vor Erreichen des Blattes (Zeta
).
Die drei dicken Pfeile zeigen den Inferenzpfad.
Informationsgewinn
In Entscheidungsstrukturen wird der Unterschied zwischen die Entropie eines Knotens und die Gewichtung (nach Anzahl der Beispiele) Summe der Entropie seiner untergeordneten Knoten. Die Entropie eines Knotens ist die Entropie der Beispiele in diesem Knoten.
Betrachten Sie beispielsweise die folgenden Entropiewerte:
- Entropie des übergeordneten Knotens = 0,6
- Entropie eines untergeordneten Knotens mit 16 relevanten Beispielen = 0,2
- Entropie eines anderen untergeordneten Knotens mit 24 relevanten Beispielen = 0,1
40% der Beispiele befinden sich in einem untergeordneten Knoten und 60% in dem anderen untergeordneten Knoten. Beispiele:
- Gewichtete Entropiesumme der untergeordneten Knoten = (0,4 * 0,2) + (0,6 * 0,1) = 0,14
Die gewonnenen Informationen sind also:
- Informationsgewinn = Entropie des übergeordneten Knotens - gewichtete Entropie-Summe der untergeordneten Knoten
- Informationsgewinn = 0,6 - 0,14 = 0,46
Die meisten Splitter versuchen, Bedingungen zu erstellen. die den Informationsgewinn maximieren.
Eingefügte Bedingung
In einem Entscheidungsbaum wird eine Bedingung das das Vorhandensein eines Elements in einer Gruppe von Elementen überprüft. Das folgende Beispiel zeigt eine festgelegte Bedingung:
house-style in [tudor, colonial, cape]
während der Inferenz, wenn der Wert des feature im Hausstil
tudor
, colonial
oder cape
ist, wird diese Bedingung mit „Ja“ ausgewertet. Wenn
ist der Wert des Elements im Hausstil etwas anderes (z. B. ranch
),
wird diese Bedingung mit „Nein“ gewertet.
Voreingestellte Bedingungen führen in der Regel zu effizienteren Entscheidungsbäumen als Bedingungen zum Testen von One-Hot-codierten Features.
L
Blatt
Jeder Endpunkt in einem Entscheidungsbaum. Gefällt mir nicht condition ist, führt ein Blatt keinen Test durch. Vielmehr ist ein Blatt eine mögliche Vorhersage. Ein Blatt ist auch das Terminal. Knoten eines Inferenzpfads.
Der folgende Entscheidungsbaum enthält beispielsweise drei Blätter:
N
Knoten (Entscheidungsbaum)
In einem Entscheidungsbaum werden alle condition oder Blatt.
nicht binäre Bedingung
Eine Bedingung, die mehr als zwei mögliche Ergebnisse enthält. Die folgende nicht binäre Bedingung enthält beispielsweise drei mögliche Ergebnisse:
O
schräge Bedingung
In einem Entscheidungsbaum wird ein Bedingung, die mehr als eine Bedingung umfasst feature. Wenn z. B. Höhe und Breite beide Elemente sind, ist dies eine schräge Bedingung:
height > width
Kontrast zur Bedingung Achsenausrichtung.
Out-of-Bag-Bewertung (OOB-Bewertung)
Ein Mechanismus zur Bewertung der Qualität einer Entscheidungsstruktur, indem Sie jeweils Entscheidungsbaum gegen die Beispiele nicht verwendet im Zeitraum Training dieses Entscheidungsbaums. Im Feld Beachten Sie, dass das System jeden Entscheidungsbaum trainiert. auf etwa zwei Drittel der Beispiele an und wertet sie dann anhand ein Drittel der Beispiele.
Die Out-of-Bag-Bewertung ist eine recheneffiziente und konservative Näherungswert des Kreuzvalidierungsmechanismus. Bei der Kreuzvalidierung wird für jede Kreuzvalidierungsrunde ein Modell trainiert (Beispiel: 10 Modelle werden in einer 10-fachen Kreuzvalidierung trainiert). Bei der OOB-Bewertung wird ein einzelnes Modell trainiert. Weil Bagging während des Trainings einige Daten aus jedem Baum zurückhält, kann die OOB-Bewertung um eine ungefähre Kreuzvalidierung zu erreichen.
P
Wichtigkeit von Permutationsvariablen
Eine Art von variabler Wichtigkeit, die bewertet den Anstieg des Vorhersagefehlers eines Modells, nachdem der Wert die Werte der Funktion angeben. Die Wichtigkeit der Permutationsvariablen ist modellunabhängig Messwert.
R
Random Forest
Ein Ensemble von Entscheidungsbäumen in die jeder Entscheidungsbaum mit einem bestimmten zufälligen Rauschen trainiert wird, wie Bagging.
Random Forests sind eine Art von Entscheidungsstruktur.
Stamm
Den Startknoten (der erste Knoten) Bedingung) in einem Entscheidungsbaum an. Konventionsgemäß wird in Diagrammen die Wurzel oben im Entscheidungsbaum platziert. Beispiel:
S
Stichprobennahme mit Ersatz
Eine Methode zur Auswahl von Elementen aus einer Reihe von Kandidaten, bei denen dieselben kann mehrfach ausgewählt werden. Die Wortgruppe "mit Ersatz" bedeutet Nach jeder Auswahl wird das ausgewählte Element an den Pool zurückgegeben möglicher Elemente. Bei der Umkehrmethode, Stichproben ohne Ersetzung, bedeutet, dass ein Kandidatenelement nur einmal ausgewählt werden kann.
Betrachten Sie zum Beispiel die folgende Obstmenge:
fruit = {kiwi, apple, pear, fig, cherry, lime, mango}
Angenommen, das System wählt fig
nach dem Zufallsprinzip als erstes Element aus.
Wenn Sie die Stichprobenerhebung als Ersatz verwenden, wählt das System die
das zweite Element aus dem folgenden Satz:
fruit = {kiwi, apple, pear, fig, cherry, lime, mango}
Ja, das sind die gleichen Einstellungen wie zuvor. Das System könnte also
und wählen Sie noch einmal fig
aus.
Wenn Sie die Stichprobenerhebung ohne Ersatz verwenden, kann eine Stichprobe nach der Auswahl nicht mehr
ausgewählt haben. Wenn das System z. B. fig
nach dem Zufallsprinzip als
erste Stichprobe, dann kann fig
nicht noch einmal ausgewählt werden. Daher wird das System
wählt die zweite Stichprobe aus dem folgenden (reduzierten) Satz aus:
fruit = {kiwi, apple, pear, cherry, lime, mango}
Schrumpfung
Einen Hyperparameter in Gradientenverstärkung zur Steuerung Überanpassung. Verkleinerung beim Gradienten-Boosting ist analog zur Lernrate in Gradientenverfahren: Die Schrumpfung wird als Dezimalzahl angegeben. zwischen 0,0 und 1,0 liegt. Ein niedrigerer Verkleinerungswert reduziert die Überanpassung. größer als ein größerer Verkleinerungswert ist.
split
In einem Entscheidungsbaum kann ein anderer Name condition [Zustand].
Splitter
Beim Trainieren eines Entscheidungsbaums besteht die Routine (und dem Algorithmus) für die Suche nach den besten Bedingung an jedem Knoten.
T
Test
In einem Entscheidungsbaum kann ein anderer Name condition [Zustand].
Grenzwert (für Entscheidungsbäume)
In einer achsenorientierten Bedingung ist der Wert, der für feature wird verglichen. Zum Beispiel ist 75 die Grenzwert in der folgenden Bedingung:
grade >= 75
V
variable Wichtigkeiten
Eine Reihe von Bewertungen, die die relative Bedeutung der einzelnen Werte angeben feature zum Modell hinzu.
Nehmen wir zum Beispiel einen Entscheidungsbaum, Schätzungen der Immobilienpreise. Angenommen, dieser Entscheidungsbaum verwendet drei Funktionen: Größe, Alter und Stil. Wenn eine Reihe von variablen Wichtigkeitswerten für die drei Funktionen berechnet wird, {size=5.8, age=2.5, style=4.7}, dann ist die Größe für die als Alter oder Stil.
Es gibt verschiedene Messwerte für die variable wichtige Bedeutung, die die ML-Experten über verschiedene Aspekte von Modellen
W
Weisheit der Masse
Die Idee, dass die Durchschnittsermittlung aus den Meinungen oder Schätzungen einer großen Gruppe der Menschen („die Masse“) führen oft überraschend gute Ergebnisse. Stellen Sie sich zum Beispiel ein Spiel vor, in dem die Leute die Anzahl der Gummibärchen in einem großen Glas. Obwohl die meisten Einzelpersonen ungenau sind, der Durchschnitt aller Vermutungen empirisch erstaunlich nahe an der tatsächlichen Anzahl Gummibärchen im Glas.
Ensembles ist ein Software-Analog zur Weisheit der Massen. Auch wenn einzelne Modelle extrem ungenaue Vorhersagen treffen, Die Durchschnittsbildung der Vorhersagen vieler Modelle erzeugt oft überraschend gute Vorhersagen machen. Obwohl beispielsweise ein einzelner Nutzer Entscheidungsbaum kann schlechte Vorhersagen machen, ein Entscheidungswald trifft oft sehr gute Vorhersagen.