Glossar zum maschinellen Lernen: Entscheidungswald

Diese Seite enthält Glossarbegriffe für Entscheidungsstrukturen. Für alle Glossarbegriffe klicken Sie hier.

A

Stichprobenerhebung für Attribute

#df

Eine Taktik zum Trainieren eines Entscheidungswalds, in der jede Der Entscheidungsbaum berücksichtigt nur eine zufällige Teilmenge möglicher Funktionen beim Lernen der Bedingung. Im Allgemeinen wird für jedes Element node. Beim Trainieren eines Entscheidungsbaums ohne Attribut-Sampling werden alle möglichen Features für jeden Knoten berücksichtigt.

Achsenausrichtung

#df

In einem Entscheidungsbaum wird eine Bedingung die nur eine einzige Funktion umfasst. Wenn z. B. eine Region ist eine Achsenausrichtung:

area > 200

Kontrast zur schrägen Bedingung

B

Bagging

#df

Eine Methode zum Trainieren eines Ensembles, bei der jedes Das zusammenhängende Modell wird anhand einer zufälligen Teilmenge von Trainings trainiert. Beispiele mit Ersatzstichproben. Ein Random Forest ist beispielsweise eine Sammlung von Entscheidungsbäume, die mithilfe von Bagging trainiert wurden.

Bagging steht für Aggregating von Schnürsenkeln.

Binärbedingung

#df

In einem Entscheidungsbaum wird eine Bedingung mit zwei möglichen Ergebnissen, typischerweise ja oder nein. Das folgende Beispiel zeigt eine binäre Bedingung:

temperature >= 100

Im Kontrast zur nicht binären Bedingung stehen.

C

condition

#df

In einem Entscheidungsbaum kann jeder Knoten, der einen Ausdruck auswertet. Der folgende Teil einer Entscheidungsbaum enthält zwei Bedingungen:

Einen Entscheidungsbaum, der aus zwei Bedingungen besteht: (x > 0) und
          (y > 0)

Eine Bedingung wird auch als Split oder Test bezeichnet.

Kontrastbedingung mit Blatt

Siehe auch:

D

Entscheidungswald

#df

Ein Modell, das aus mehreren Entscheidungsbäumen erstellt wurde. Ein Entscheidungswald fasst die Vorhersagen Entscheidungsbäume. Zu den beliebtesten Arten von Entscheidungswäldern gehören Random Forests und Gradient Boosted Trees.

Entscheidungsbaum

#df

Ein Modell für überwachtes Lernen, das aus einer Bedingungen und Blätter sind hierarchisch organisiert. Das folgende Beispiel zeigt einen Entscheidungsbaum:

Entscheidungsbaum mit vier angeordneten Bedingungen
          die zu fünf Blättern führen.

E

Entropie

#df

In <ph type="x-smartling-placeholder"></ph> Informationstheorie, eine Beschreibung, wie unvorhersehbar eine Wahrscheinlichkeit ist, die Verteilung der Daten ist. Alternativ wird als Entropie definiert, Informationen, die jedes Beispiel enthält. Eine Verteilung hat höchste mögliche Entropie, wenn alle Werte einer Zufallsvariablen sind gleich wahrscheinlich.

Die Entropie einer Menge mit zwei möglichen Werten „0“ und „1“ (Beispiel: Labels bei einem binären Klassifizierungsproblem) verwendet die folgende Formel:

<ph type="x-smartling-placeholder"></ph> H = -p log p - q log q = -p log p - (1-p) * log (1-p)

Dabei gilt:

  • H ist die Entropie.
  • p ist der Bruchteil von "1". Beispiele.
  • q ist der Bruchteil von "0". Beispiele. Beachten Sie, dass q = (1 - p) ist.
  • log ist im Allgemeinen log2. In diesem Fall ist die Entropie ist eine Einheit.

Nehmen wir beispielsweise Folgendes an:

  • 100 Beispiele enthalten den Wert „1“
  • 300 Beispiele enthalten den Wert „0“

Daher ist der Entropiewert:

  • p = 0,25
  • q = 0,75
  • H = (-0,25)log2(0,25) - (0,75)log2(0,75) = 0,81 Bit pro Beispiel

Ein Satz, der perfekt ausgeglichen ist (z. B. 200 „0“ und 200 „1“). eine Entropie von 1,0 Bit pro Beispiel. Je mehr sich ein Set unausgeglichen bewegt sich seine Entropie in Richtung 0, 0.

In Entscheidungsbäumen hilft die Entropie bei der Formulierung Informationsgewinn, Splitter: Wählen Sie die Bedingungen aus. während des Wachstums eines Klassifizierungs-Entscheidungsbaums.

Entropie vergleichen mit:

Die Entropie wird oft als Shannnon-Entropie bezeichnet.

F

Featurewichtigkeiten

#df

Synonym für variable Wichtigkeiten.

G

Gini-Verunreinigung

#df

Einen Messwert, der Entropie ähnelt. Splitter Verwenden Sie Werte, die entweder von der Gini-Verunreinigung oder von der Entropie abgeleitet wurden, Bedingungen für die Klassifizierung Entscheidungsbäume. Der Informationsgewinn wird aus der Entropie abgeleitet. Es gibt keinen allgemein akzeptierten äquivalenten Begriff für den abgeleiteten Messwert von Gini-Verunreinigung; Dieser unbenannte Messwert ist jedoch genauso wichtig wie gewinnen.

Die Gini-Verunreinigung wird auch als Gini-Index oder einfach Gini bezeichnet.

Gradient Boosted (Entscheidungsbaum) (GBT)

#df

Eine Art von Entscheidungsstruktur, in dem:

Gradientenverstärkung

#df

Einen Trainingsalgorithmus, mit dem schwache Modelle iterativ trainiert werden die Qualität (Verlust) eines leistungsfähigen Modells zu verbessern. Beispiel: könnte ein schwaches Modell ein lineares oder ein kleines Entscheidungsbaummodell sein. Ein starkes Modell ergibt sich aus der Summe aller zuvor trainierten schwachen Modelle.

Bei der einfachsten Form des Gradienten-Boostings wird bei jeder Iteration ein schwaches Modell wird trainiert, den Verlustgrad des starken Modells vorherzusagen. Das Feld wird die Ausgabe des starken Modells aktualisiert, indem der vorhergesagte Gradient subtrahiert wird, ähnlich wie das Gradientenverfahren.

$$F_{0} = 0$$ $$F_{i+1} = F_i - \xi f_i $$

Dabei gilt:

  • $F_{0}$ ist das erste starke Modell.
  • $F_{i+1}$ ist das nächste starke Modell.
  • $F_{i}$ ist das aktuelle starke Modell.
  • $\xi$ ist ein Wert zwischen 0,0 und 1,0, der als Schrumpfung bezeichnet wird. Das ist analog zum Lernrate in Gradientenverfahren.
  • $f_{i}$ ist das schwache Modell, das dafür trainiert wurde, $F_{i}$.

Zu modernen Varianten des Gradienten-Boostings gehört auch die zweite Ableitung (hessisch) des Verlusts in ihrer Berechnung.

Entscheidungsbäume werden häufig als schwache Modelle in Gradientenverstärkung. Weitere Informationen finden Sie unter Gradienten-Boosted-Bäume (Entscheidungsbäume).

I

Inferenzpfad

#df

In einem Entscheidungsbaum werden während der Inferenz die Route, die ein bestimmtes Beispiel aus dem root auf andere Bedingungen, endet mit ein Blatt. Im folgenden Entscheidungsbaum beispielsweise dickere Pfeile zeigen den Inferenzpfad für ein Beispiel mit folgendem Text an: Featurewerte:

  • x = 7
  • y = 12
  • z = -3

Der Inferenzpfad in der folgenden Abbildung verläuft durch drei Bedingungen vor Erreichen des Blattes (Zeta).

Ein Entscheidungsbaum, der aus vier Bedingungen und fünf Blättern besteht.
          Die Stammbedingung ist (x > 0). Da die Antwort „Ja“ lautet,
          Der Inferenzpfad führt vom Stamm zur nächsten Bedingung (y > 0).
          Da die Antwort „Ja“ lautet, verläuft der Inferenzpfad
          für die nächste Bedingung (z > 0). Da die Antwort „Nein“ lautet, muss der Inferenzpfad
          fließt zu seinem Endknoten, dem Blatt (Zeta).

Die drei dicken Pfeile zeigen den Inferenzpfad.

Informationsgewinn

#df

In Entscheidungsstrukturen wird der Unterschied zwischen die Entropie eines Knotens und die Gewichtung (nach Anzahl der Beispiele) Summe der Entropie seiner untergeordneten Knoten. Die Entropie eines Knotens ist die Entropie der Beispiele in diesem Knoten.

Betrachten Sie beispielsweise die folgenden Entropiewerte:

  • Entropie des übergeordneten Knotens = 0,6
  • Entropie eines untergeordneten Knotens mit 16 relevanten Beispielen = 0,2
  • Entropie eines anderen untergeordneten Knotens mit 24 relevanten Beispielen = 0,1

40% der Beispiele befinden sich in einem untergeordneten Knoten und 60% in dem anderen untergeordneten Knoten. Beispiele:

  • Gewichtete Entropiesumme der untergeordneten Knoten = (0,4 * 0,2) + (0,6 * 0,1) = 0,14

Die gewonnenen Informationen sind also:

  • Informationsgewinn = Entropie des übergeordneten Knotens - gewichtete Entropie-Summe der untergeordneten Knoten
  • Informationsgewinn = 0,6 - 0,14 = 0,46

Die meisten Splitter versuchen, Bedingungen zu erstellen. die den Informationsgewinn maximieren.

Eingefügte Bedingung

#df

In einem Entscheidungsbaum wird eine Bedingung das das Vorhandensein eines Elements in einer Gruppe von Elementen überprüft. Das folgende Beispiel zeigt eine festgelegte Bedingung:

  house-style in [tudor, colonial, cape]

während der Inferenz, wenn der Wert des feature im Hausstil tudor, colonial oder cape ist, wird diese Bedingung mit „Ja“ ausgewertet. Wenn ist der Wert des Elements im Hausstil etwas anderes (z. B. ranch), wird diese Bedingung mit „Nein“ gewertet.

Voreingestellte Bedingungen führen in der Regel zu effizienteren Entscheidungsbäumen als Bedingungen zum Testen von One-Hot-codierten Features.

L

Blatt

#df

Jeder Endpunkt in einem Entscheidungsbaum. Gefällt mir nicht condition ist, führt ein Blatt keinen Test durch. Vielmehr ist ein Blatt eine mögliche Vorhersage. Ein Blatt ist auch das Terminal. Knoten eines Inferenzpfads.

Der folgende Entscheidungsbaum enthält beispielsweise drei Blätter:

Ein Entscheidungsbaum mit zwei Bedingungen, die zu drei Blättern führen.

N

Knoten (Entscheidungsbaum)

#df

In einem Entscheidungsbaum werden alle condition oder Blatt.

Ein Entscheidungsbaum mit zwei Bedingungen und drei Blättern.

nicht binäre Bedingung

#df

Eine Bedingung, die mehr als zwei mögliche Ergebnisse enthält. Die folgende nicht binäre Bedingung enthält beispielsweise drei mögliche Ergebnisse:

Eine Bedingung (number_of_legs = ?), die zu drei möglichen
          Ergebnisse. Ein Ergebnis (number_of_legs = 8) führt zu einem Blatt
          namens Spider. Ein zweites Ergebnis (number_of_legs = 4) führt zu
          ein Blatt namens Hund. Ein drittes Ergebnis (number_of_legs = 2) führt zu
          ein Blatt namens Pinguin.

O

schräge Bedingung

#df

In einem Entscheidungsbaum wird ein Bedingung, die mehr als eine Bedingung umfasst feature. Wenn z. B. Höhe und Breite beide Elemente sind, ist dies eine schräge Bedingung:

  height > width

Kontrast zur Bedingung Achsenausrichtung.

Out-of-Bag-Bewertung (OOB-Bewertung)

#df

Ein Mechanismus zur Bewertung der Qualität einer Entscheidungsstruktur, indem Sie jeweils Entscheidungsbaum gegen die Beispiele nicht verwendet im Zeitraum Training dieses Entscheidungsbaums. Im Feld Beachten Sie, dass das System jeden Entscheidungsbaum trainiert. auf etwa zwei Drittel der Beispiele an und wertet sie dann anhand ein Drittel der Beispiele.

Ein Entscheidungswald aus drei Entscheidungsbäumen.
          Ein Entscheidungsbaum wird anhand von zwei Dritteln der Beispiele trainiert.
          und verwendet das verbleibende Drittel
für die Bewertung von OOB.
          Ein zweiter Entscheidungsbaum trainiert
          als der vorherige Entscheidungsbaum.
          für die Bewertung von OOB ein anderes Drittel
          vorherigen Entscheidungsbaum.

Die Out-of-Bag-Bewertung ist eine recheneffiziente und konservative Näherungswert des Kreuzvalidierungsmechanismus. Bei der Kreuzvalidierung wird für jede Kreuzvalidierungsrunde ein Modell trainiert (Beispiel: 10 Modelle werden in einer 10-fachen Kreuzvalidierung trainiert). Bei der OOB-Bewertung wird ein einzelnes Modell trainiert. Weil Bagging während des Trainings einige Daten aus jedem Baum zurückhält, kann die OOB-Bewertung um eine ungefähre Kreuzvalidierung zu erreichen.

P

Wichtigkeit von Permutationsvariablen

#df

Eine Art von variabler Wichtigkeit, die bewertet den Anstieg des Vorhersagefehlers eines Modells, nachdem der Wert die Werte der Funktion angeben. Die Wichtigkeit der Permutationsvariablen ist modellunabhängig Messwert.

R

Random Forest

#df

Ein Ensemble von Entscheidungsbäumen in die jeder Entscheidungsbaum mit einem bestimmten zufälligen Rauschen trainiert wird, wie Bagging.

Random Forests sind eine Art von Entscheidungsstruktur.

Stamm

#df

Den Startknoten (der erste Knoten) Bedingung) in einem Entscheidungsbaum an. Konventionsgemäß wird in Diagrammen die Wurzel oben im Entscheidungsbaum platziert. Beispiel:

Ein Entscheidungsbaum mit zwei Bedingungen und drei Blättern. Die
          Ausgangsbedingung (x > 2) ist die Wurzel.

S

Stichprobennahme mit Ersatz

#df

Eine Methode zur Auswahl von Elementen aus einer Reihe von Kandidaten, bei denen dieselben kann mehrfach ausgewählt werden. Die Wortgruppe "mit Ersatz" bedeutet Nach jeder Auswahl wird das ausgewählte Element an den Pool zurückgegeben möglicher Elemente. Bei der Umkehrmethode, Stichproben ohne Ersetzung, bedeutet, dass ein Kandidatenelement nur einmal ausgewählt werden kann.

Betrachten Sie zum Beispiel die folgende Obstmenge:

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

Angenommen, das System wählt fig nach dem Zufallsprinzip als erstes Element aus. Wenn Sie die Stichprobenerhebung als Ersatz verwenden, wählt das System die das zweite Element aus dem folgenden Satz:

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

Ja, das sind die gleichen Einstellungen wie zuvor. Das System könnte also und wählen Sie noch einmal fig aus.

Wenn Sie die Stichprobenerhebung ohne Ersatz verwenden, kann eine Stichprobe nach der Auswahl nicht mehr ausgewählt haben. Wenn das System z. B. fig nach dem Zufallsprinzip als erste Stichprobe, dann kann fig nicht noch einmal ausgewählt werden. Daher wird das System wählt die zweite Stichprobe aus dem folgenden (reduzierten) Satz aus:

fruit = {kiwi, apple, pear, cherry, lime, mango}

Schrumpfung

#df

Einen Hyperparameter in Gradientenverstärkung zur Steuerung Überanpassung. Verkleinerung beim Gradienten-Boosting ist analog zur Lernrate in Gradientenverfahren: Die Schrumpfung wird als Dezimalzahl angegeben. zwischen 0,0 und 1,0 liegt. Ein niedrigerer Verkleinerungswert reduziert die Überanpassung. größer als ein größerer Verkleinerungswert ist.

split

#df

In einem Entscheidungsbaum kann ein anderer Name condition [Zustand].

Splitter

#df

Beim Trainieren eines Entscheidungsbaums besteht die Routine (und dem Algorithmus) für die Suche nach den besten Bedingung an jedem Knoten.

T

Test

#df

In einem Entscheidungsbaum kann ein anderer Name condition [Zustand].

Grenzwert (für Entscheidungsbäume)

#df

In einer achsenorientierten Bedingung ist der Wert, der für feature wird verglichen. Zum Beispiel ist 75 die Grenzwert in der folgenden Bedingung:

grade >= 75
<ph type="x-smartling-placeholder">

V

variable Wichtigkeiten

#df

Eine Reihe von Bewertungen, die die relative Bedeutung der einzelnen Werte angeben feature zum Modell hinzu.

Nehmen wir zum Beispiel einen Entscheidungsbaum, Schätzungen der Immobilienpreise. Angenommen, dieser Entscheidungsbaum verwendet drei Funktionen: Größe, Alter und Stil. Wenn eine Reihe von variablen Wichtigkeitswerten für die drei Funktionen berechnet wird, {size=5.8, age=2.5, style=4.7}, dann ist die Größe für die als Alter oder Stil.

Es gibt verschiedene Messwerte für die variable wichtige Bedeutung, die die ML-Experten über verschiedene Aspekte von Modellen

W

Weisheit der Masse

#df

Die Idee, dass die Durchschnittsermittlung aus den Meinungen oder Schätzungen einer großen Gruppe der Menschen („die Masse“) führen oft überraschend gute Ergebnisse. Stellen Sie sich zum Beispiel ein Spiel vor, in dem die Leute die Anzahl der Gummibärchen in einem großen Glas. Obwohl die meisten Einzelpersonen ungenau sind, der Durchschnitt aller Vermutungen empirisch erstaunlich nahe an der tatsächlichen Anzahl Gummibärchen im Glas.

Ensembles ist ein Software-Analog zur Weisheit der Massen. Auch wenn einzelne Modelle extrem ungenaue Vorhersagen treffen, Die Durchschnittsbildung der Vorhersagen vieler Modelle erzeugt oft überraschend gute Vorhersagen machen. Obwohl beispielsweise ein einzelner Nutzer Entscheidungsbaum kann schlechte Vorhersagen machen, ein Entscheidungswald trifft oft sehr gute Vorhersagen.