Glossar zum maschinellen Lernen: Entscheidungswald

Diese Seite enthält Glossarbegriffe zu Entscheidungsbäumen. Hier finden Sie alle Begriffe aus dem Glossar.

A

Stichprobenerhebung

#df

Eine Taktik zum Trainieren eines Entscheidungswalds, bei der bei jedem Entscheidungsbaum nur eine zufällige Teilmenge der möglichen Features beim Lernen der Bedingung berücksichtigt wird. Normalerweise wird für jeden Knoten eine andere Teilmenge von Features ausgewählt. Beim Trainieren eines Entscheidungsbaums ohne Attributstichprobe werden dagegen für jeden Knoten alle möglichen Merkmale berücksichtigt.

achsenachsenorientierte Bedingung

#df

In einem Entscheidungsbaum eine Bedingung, die nur eine einzige Funktion umfasst. Wenn area beispielsweise ein Element ist, ist die folgende Bedingung achsorientiert:

area > 200

Im Gegensatz zur Schräglage.

B

Bagging

#df

Eine Methode zum Trainieren eines Ensembles, bei der jedes der Modelle auf einer zufälligen Teilmenge von Trainingsbeispielen mit Zurücklegen trainiert wird. Ein Zufallswald ist beispielsweise eine Sammlung von Entscheidungsbäumen, die mit Bagging trainiert wurden.

Der Begriff Bagging ist eine Kurzform für bootstrap aggregating.

Weitere Informationen finden Sie im Kurs „Entscheidungsbäume“ unter Zufallswälder.

Binäre Bedingung

#df

In einem Entscheidungsbaum ist eine Bedingung, die nur zwei mögliche Ergebnisse hat, in der Regel ja oder nein. Ein Beispiel für eine binäre Bedingung:

temperature >= 100

Im Gegensatz zu einer nicht binären Bedingung.

Weitere Informationen finden Sie im Kurs zu Entscheidungsbäumen unter Arten von Bedingungen.

C

Bedingung

#df

In einem Entscheidungsbaum jeder Knoten, der einen Ausdruck auswertet. Der folgende Teil eines Entscheidungsbaums enthält beispielsweise zwei Bedingungen:

Ein Entscheidungsbaum mit zwei Bedingungen: (x > 0) und (y > 0).

Eine Bedingung wird auch als Aufteilung oder Test bezeichnet.

Kontrastbedingung mit Blatt

Siehe auch:

Weitere Informationen finden Sie im Kurs zu Entscheidungsbäumen unter Arten von Bedingungen.

D

Entscheidungswald

#df

Ein Modell, das aus mehreren Entscheidungsbäumen erstellt wurde. Ein Entscheidungswald trifft eine Vorhersage, indem die Vorhersagen seiner Entscheidungsbäume zusammengefasst werden. Zu den beliebten Arten von Entscheidungswäldern gehören Zufallswälder und Gradient Boosted Trees.

Weitere Informationen finden Sie im Kurs „Entscheidungsbäume“ im Abschnitt Entscheidungsbäume.

Entscheidungsbaum

#df

Ein Modell des überwachten Lernens, das aus einer Reihe von hierarchisch organisierten Bedingungen und Blättern besteht. Hier ist beispielsweise ein Entscheidungsbaum:

Ein Entscheidungsbaum mit vier hierarchisch angeordneten Bedingungen, die zu fünf Blättern führen.

E

Entropie

#df

In der Informationstheorie beschreibt die Entropie, wie unvorhersehbar eine Wahrscheinlichkeitsverteilung ist. Alternativ wird die Entropie auch als Maß dafür definiert, wie viele Informationen jedes Beispiel enthält. Eine Verteilung hat die höchstmögliche Entropie, wenn alle Werte einer Zufallsvariablen gleich wahrscheinlich sind.

Die Entropie eines Satzes mit zwei möglichen Werten „0“ und „1“ (z. B. die Labels in einem binären Klassifizierungsproblem) hat die folgende Formel:

  H = −p log p − q log q = −p log p − (1−p) * log (1−p)

Dabei gilt:

  • H ist die Entropie.
  • p ist der Bruchteil der Beispiele mit dem Wert „1“.
  • q ist der Anteil der Beispiele mit „0“. Beachten Sie, dass q = (1 – p) ist.
  • log ist in der Regel log2. In diesem Fall ist die Einheit der Entropie ein Bit.

Nehmen wir beispielsweise Folgendes an:

  • 100 Beispiele enthalten den Wert „1“.
  • 300 Beispiele enthalten den Wert „0“.

Der Entropiewert ist daher:

  • p = 0,25
  • q = 0,75
  • H = (–0,25) log2(0,25) − (0,75) log2(0,75) = 0,81 Bit pro Beispiel

Ein perfekt ausgewogener Satz (z. B. 200 Nullen und 200 Einsen) hat eine Entropie von 1, 0 Bit pro Beispiel. Je ungleichmäßiger ein Satz ist, desto näher kommt seine Entropie dem Wert 0,0.

In Entscheidungsbäumen hilft die Entropie, den Informationsgewinn zu formulieren, damit der Spalter die Bedingungen beim Aufbau eines Klassifizierungsentscheidungsbaums auswählen kann.

Entropie mit folgenden Werten vergleichen:

Die Entropie wird oft als Shannon-Entropie bezeichnet.

Weitere Informationen finden Sie im Kurs zu Entscheidungsbäumen unter Exakte Trennlinie für binäre Klassifizierung mit numerischen Merkmalen.

F

Featurewichtigkeiten

#df

Synonym für Variablenbewertungen.

G

Gini-Impurity

#df

Ein Messwert, der der Entropie ähnelt. Splichter verwenden Werte, die entweder aus der Gini-Unreinheit oder der Entropie abgeleitet wurden, um Bedingungen für die Klassifizierung in Entscheidungsbäumen zu erstellen. Der Informationsgewinn leitet sich von der Entropie ab. Es gibt keinen allgemein akzeptierten Begriff für den Messwert, der aus der Gini-Unreinheit abgeleitet wird. Dieser unbenannte Messwert ist jedoch genauso wichtig wie der Informationsgewinn.

Die Gini-Unreinheit wird auch als Gini-Index oder einfach Gini bezeichnet.

Gradient Boosted (Entscheidungs)Bäume (GBT)

#df

Eine Art von Entscheidungswald, bei dem:

Weitere Informationen finden Sie im Kurs zu Entscheidungsbäumen unter Gradient Boosted Decision Trees.

Gradientenverstärkung

#df

Ein Trainingsalgorithmus, bei dem schwache Modelle trainiert werden, um die Qualität eines starken Modells iterativ zu verbessern (Verlust zu reduzieren). Ein Beispiel für ein schwaches Modell wäre ein lineares oder kleines Entscheidungsbaummodell. Das starke Modell ist die Summe aller zuvor trainierten schwachen Modelle.

Bei der einfachsten Form des Gradienten-Boosting wird bei jeder Iteration ein schwaches Modell trainiert, um den Verlustgradienten des starken Modells vorherzusagen. Anschließend wird die Ausgabe des starken Modells aktualisiert, indem der vorhergesagte Gradient abgezogen wird, ähnlich wie beim Gradientenabstieg.

$$F_{0} = 0$$ $$F_{i+1} = F_i - \xi f_i $$

Dabei gilt:

  • $F_{0}$ ist das Ausgangsmodell.
  • $F_{i+1}$ ist das nächste starke Modell.
  • $F_{i}$ ist das aktuelle starke Modell.
  • $\xi$ ist ein Wert zwischen 0,0 und 1,0, der als Schrumpfung bezeichnet wird. Er entspricht der Lernrate beim Gradientenabstieg.
  • $f_{i}$ ist das schwache Modell, das darauf trainiert wurde, den Verlustgradienten von $F_{i}$ vorherzusagen.

Moderne Varianten des Gradienten-Boosting beinhalten auch die zweite Ableitung (Hessian) des Verlusts in der Berechnung.

Entscheidungsbäume werden häufig als schwache Modelle bei der Gradientenverstärkung verwendet. Weitere Informationen finden Sie unter Gradient Boosted (Entscheidungs-)Bäume.

I

Inferenzpfad

#df

In einem Entscheidungsbaum ist dies der Pfad, den ein bestimmtes Beispiel während der Inferenz von der Wurzel zu anderen Bedingungen nimmt und der mit einem Blatt endet. Im folgenden Entscheidungsbaum zeigen die dickeren Pfeile beispielsweise den Inferenzpfad für ein Beispiel mit den folgenden Feature-Werten:

  • x = 7
  • y = 12
  • z = −3

Der Inferenzpfad in der folgenden Abbildung durchläuft drei Bedingungen, bevor er das Blatt (Zeta) erreicht.

Ein Entscheidungsbaum mit vier Bedingungen und fünf Blättern.
          Die Wurzelbedingung ist (x > 0). Da die Antwort „Ja“ lautet, verläuft der Inferenzpfad von der Wurzel zur nächsten Bedingung (y > 0).
          Da die Antwort „Ja“ lautet, geht der Inferenzpfad zur nächsten Bedingung (z > 0). Da die Antwort „Nein“ lautet, gelangt der Inferenzpfad zum Endknoten, dem Blatt (Zeta).

Die drei dicken Pfeile zeigen den Inferenzpfad.

Weitere Informationen finden Sie im Kurs „Entscheidungsbäume“ unter Entscheidungsbäume.

Informationsgewinn

#df

In Entscheidungswäldern ist dies der Unterschied zwischen der Entropie eines Knotens und der gewichteten (nach Anzahl der Beispiele) Summe der Entropie seiner untergeordneten Knoten. Die Entropie eines Knotens ist die Entropie der Beispiele in diesem Knoten.

Betrachten Sie beispielsweise die folgenden Entropiewerte:

  • Entropie des übergeordneten Knotens = 0,6
  • Entropie eines untergeordneten Knotens mit 16 relevanten Beispielen = 0,2
  • Entropie eines anderen untergeordneten Knotens mit 24 relevanten Beispielen = 0,1

40% der Beispiele befinden sich also in einem untergeordneten Knoten und 60% im anderen untergeordneten Knoten. Beispiele:

  • Gewichtete Entropiesumme der untergeordneten Knoten = (0,4 * 0,2) + (0,6 * 0,1) = 0,14

Der Informationsgewinn ist also:

  • Informationsgewinn = Entropie des übergeordneten Knotens – gewichtete Entropiesumme der untergeordneten Knoten
  • Informationsgewinn = 0,6 − 0,14 = 0,46

Die meisten Splitter sollen Bedingungen schaffen, die den Informationsgewinn maximieren.

Bedingung im Set

#df

In einem Entscheidungsbaum ist dies eine Bedingung, die das Vorhandensein eines Elements in einer Gruppe von Elementen prüft. Hier ein Beispiel für eine Bedingung, die sich auf ein Set bezieht:

  house-style in [tudor, colonial, cape]

Wenn der Wert des Hausstil-Features während der Inferenz tudor, colonial oder cape ist, wird diese Bedingung als „Ja“ ausgewertet. Wenn der Wert des Hausstil-Attributs ein anderer ist (z. B. ranch), wird diese Bedingung als „Nein“ ausgewertet.

In-Set-Bedingungen führen in der Regel zu effizienteren Entscheidungsbäumen als Bedingungen, mit denen One-Hot-codierte Funktionen getestet werden.

L

Blatt

#df

Jeder Endpunkt in einem Entscheidungsbaum. Im Gegensatz zu einer Bedingung führt ein Blatt keinen Test aus. Ein Blatt ist vielmehr eine mögliche Vorhersage. Ein Blatt ist auch der Endknoten eines Knotens eines Inferenzabzugs.

Der folgende Entscheidungsbaum enthält beispielsweise drei Blätter:

Ein Entscheidungsbaum mit zwei Bedingungen, die zu drei Blättern führen.

N

Knoten (Entscheidungsbaum)

#df

In einem Entscheidungsbaum: jede Bedingung oder Endknoten.

Ein Entscheidungsbaum mit zwei Bedingungen und drei Blättern

Nicht binäre Bedingung

#df

Eine Bedingung mit mehr als zwei möglichen Ergebnissen. Die folgende nicht binäre Bedingung enthält beispielsweise drei mögliche Ergebnisse:

Eine Bedingung (number_of_legs = ?) mit drei möglichen Ergebnissen Ein Ergebnis (number_of_legs = 8) führt zu einem Blatt namens Spinne. Ein zweites Ergebnis (number_of_legs = 4) führt zu einem Blatt namens Hund. Ein drittes Ergebnis (number_of_legs = 2) führt zu einem Blatt namens penguin.

O

Schrägachsenprojektion

#df

In einem Entscheidungsbaum eine Bedingung, die mehr als ein Merkmal umfasst. Wenn beispielsweise „Höhe“ und „Breite“ beide Features sind, ist die folgende Bedingung eine indirekte Bedingung:

  height > width

Im Gegensatz zur Achsenausrichtungsbedingung.

Out-of-Bag-Bewertung (OOB-Bewertung)

#df

Ein Mechanismus zur Bewertung der Qualität eines Entscheidungsbaums, bei dem jeder Entscheidungsbaum anhand der Beispiele getestet wird, die nicht während des Trainings dieses Entscheidungsbaums verwendet wurden. Im folgenden Diagramm sehen Sie beispielsweise, dass das System jeden Entscheidungsbaum anhand von etwa zwei Dritteln der Beispiele trainiert und dann anhand des verbleibenden Drittels der Beispiele bewertet.

Ein Entscheidungswald mit drei Entscheidungsbäumen.
          Ein Entscheidungsbaum wird anhand von zwei Dritteln der Beispiele trainiert und dann wird das verbleibende Drittel für die Bewertung außerhalb des Trainings verwendet.
          Ein zweiter Entscheidungsbaum wird mit zwei Dritteln der Beispiele trainiert, die sich von den Beispielen des vorherigen Entscheidungsbaums unterscheiden. Für die Bewertung außerhalb des Trainingsdatensatzes wird dann ein anderes Drittel verwendet als beim vorherigen Entscheidungsbaum.

Die Out-of-Bag-Bewertung ist eine rechnungstechnisch effiziente und konservative Näherung an den Mechanismus der Kreuzvalidierung. Bei der Kreuzvalidierung wird für jede Kreuzvalidierungsrunde ein Modell trainiert (z. B. werden bei einer 10-fachen Kreuzvalidierung 10 Modelle trainiert). Bei der Bewertung außerhalb des Trainings wird ein einzelnes Modell trainiert. Da beim Bagging einige Daten während des Trainings von jedem Baum zurückgehalten werden, können diese Daten bei der OOB-Bewertung verwendet werden, um eine Kreuzvalidierung anzunähern.

P

Bewertung von Variablen durch Permutation

#df

Eine Art der Variablenbewertung, bei der die Zunahme des Vorhersagefehlers eines Modells nach der Permutation der Werte des Features bewertet wird. Die Permutationsvariablenbewertung ist ein modellunabhängiger Messwert.

R

Random Forest

#df

Ein Ensemble von Entscheidungsbäumen, bei dem jeder Entscheidungsbaum mit einer bestimmten Zufallsstörung trainiert wird, z. B. Bagging.

Random Forests sind eine Art Entscheidungswald.

Stamm

#df

Der Startknoten (die erste Bedingung) in einem Entscheidungsbaum. In der Regel wird der Stammknoten in Diagrammen oben im Entscheidungsbaum platziert. Beispiel:

Ein Entscheidungsbaum mit zwei Bedingungen und drei Blättern Die Startbedingung (x > 2) ist die Wurzel.

S

Stichprobenerhebung mit Zurücklegen

#df

Eine Methode zum Auswählen von Elementen aus einer Gruppe von Kandidatenelementen, bei der dasselbe Element mehrmals ausgewählt werden kann. Der Ausdruck „mit Zurücklegen“ bedeutet, dass der ausgewählte Artikel nach jeder Auswahl in den Pool der Kandidatenelemente zurückgegeben wird. Bei der umgekehrten Methode, der Stichprobenerhebung ohne Zurücklegen, kann ein Element nur einmal ausgewählt werden.

Betrachten Sie beispielsweise die folgenden Früchte:

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

Angenommen, das System wählt fig als ersten Artikel aus. Bei der Stichprobenerhebung mit Zurücklegen wählt das System den zweiten Artikel aus dem folgenden Satz aus:

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

Ja, das ist derselbe Satz wie zuvor. Das System könnte also möglicherweise wieder fig auswählen.

Bei der Stichprobenerhebung ohne Zurücklegen kann eine Stichprobe nach der Auswahl nicht noch einmal ausgewählt werden. Wenn das System beispielsweise fig als erste Stichprobe zufällig auswählt, kann fig nicht noch einmal ausgewählt werden. Daher wählt das System das zweite Beispiel aus dem folgenden (reduzierten) Satz aus:

fruit = {kiwi, apple, pear, cherry, lime, mango}

Schrumpfung

#df

Ein Hyperparameter bei Gradient Boosting, der den Overfitting steuert. Die Schrumpfung bei der Gradientenverstärkung ist analog zur Lernrate beim Gradientenabstieg. Die Schrumpfung ist ein Dezimalwert zwischen 0,0 und 1,0. Ein niedrigerer Schrumpfungsfaktor reduziert das Überanpassen stärker als ein höherer Schrumpfungsfaktor.

aufteilen

#df

In einem Entscheidungsbaum ein anderer Name für eine Bedingung.

Splitter

#df

Beim Training eines Entscheidungsbaums ist die Routine (und der Algorithmus) für die Ermittlung der besten Bedingung an jedem Knoten verantwortlich.

T

Test

#df

In einem Entscheidungsbaum ein anderer Name für eine Bedingung.

Grenzwert (für Entscheidungsbäume)

#df

In einer achsorientierten Bedingung ist dies der Wert, mit dem ein Element verglichen wird. In der folgenden Bedingung ist 75 beispielsweise der Grenzwert:

grade >= 75

V

Variablenbewertungen

#df

Eine Reihe von Werten, die die relative Wichtigkeit jedes Features für das Modell angeben.

Betrachten Sie beispielsweise einen Entscheidungsbaum, mit dem Hauspreise geschätzt werden. Angenommen, dieser Entscheidungsbaum verwendet drei Merkmale: Größe, Alter und Stil. Wenn die Variablen für die drei Merkmale {Größe=5,8; Alter=2,5; Stil=4,7} berechnet werden, ist die Größe für den Entscheidungsbaum wichtiger als Alter oder Stil.

Es gibt verschiedene Messwerte zur Variablenwichtigkeit, mit denen ML-Experten verschiedene Aspekte von Modellen ermitteln können.

W

Die Weisheit der Vielen

#df

Die Annahme, dass die Durchschnittswerte der Meinungen oder Schätzungen einer großen Gruppe von Menschen („die Masse“) oft überraschend gute Ergebnisse liefern. Angenommen, es geht darum, die Anzahl der Gummibärchen in einem großen Glas zu erraten. Obwohl die meisten einzelnen Schätzungen ungenau sind, liegt der Durchschnitt aller Schätzungen empirisch gesehen überraschend nah an der tatsächlichen Anzahl der Gummibärchen im Glas.

Ensembles sind ein Softwareanalogon der Weisheit der Vielen. Selbst wenn einzelne Modelle sehr ungenaue Vorhersagen treffen, führt die Durchschnittsbildung der Vorhersagen vieler Modelle oft zu überraschend guten Vorhersagen. So kann ein einzelner Entscheidungsbaum beispielsweise schlechte Vorhersagen treffen, während ein Entscheidungswald oft sehr gute Vorhersagen liefert.