Glossar zum maschinellen Lernen: Entscheidungswald

Auf dieser Seite finden Sie Glossarbegriffe für Decision Forests. Hier finden Sie alle Glossarbegriffe.

A

Attribut-Sampling

#df

Eine Taktik zum Trainieren eines Entscheidungsbaums, bei dem jeder Entscheidungsbaum beim Lernen der Bedingung nur eine zufällige Teilmenge der möglichen Features berücksichtigt. Im Allgemeinen wird für jeden Knoten eine andere Teilmenge von Features ausgewählt. Beim Trainieren eines Entscheidungsbaums ohne Attribut-Sampling werden dagegen alle möglichen Features für jeden Knoten berücksichtigt.

Achsenparallele Bedingung

#df

In einem Entscheidungsbaum ist eine Bedingung, die nur ein einzelnes Attribut umfasst. Wenn area beispielsweise ein Merkmal ist, ist Folgendes eine achsenorientierte Bedingung:

area > 200

Kontrast zur schrägen Bedingung.

B

Bagging

#df

Eine Methode zum Trainieren eines Ensembles, bei dem jedes Modell auf einer zufälligen Teilmenge von Trainingsbeispielen mit Zurücklegen trainiert wird. Ein Random Forest ist beispielsweise eine Sammlung von Entscheidungsbäumen, die mit Bagging trainiert wurden.

Der Begriff Bagging ist eine Abkürzung für Bootstrap Aggregating.

Weitere Informationen finden Sie im Kurs „Entscheidungsbäume“ unter Random Forests.

Binärbedingung

#df

In einem Entscheidungsbaum ist eine Bedingung, die nur zwei mögliche Ergebnisse hat, in der Regel Ja oder Nein. Beispiel:

temperature >= 100

Im Gegensatz dazu steht die nicht binäre Bedingung.

Weitere Informationen finden Sie im Kurs „Entscheidungsbäume“ unter Arten von Bedingungen.

C

Bedingung

#df
In einem Entscheidungsbaum ist jeder Knoten, in dem ein Test durchgeführt wird. Der folgende Entscheidungsbaum enthält beispielsweise zwei Bedingungen:

Ein Entscheidungsbaum mit zwei Bedingungen: (x > 0) und (y > 0).

Eine Bedingung wird auch als Aufteilung oder Test bezeichnet.

Kontrastbedingung mit leaf.

Siehe auch:

Weitere Informationen finden Sie im Kurs „Entscheidungsbäume“ unter Arten von Bedingungen.

D

Entscheidungsbaumgruppe

#df

Ein Modell, das aus mehreren Entscheidungsbäumen erstellt wurde. Bei einem Entscheidungsbaum wird eine Vorhersage getroffen, indem die Vorhersagen der einzelnen Entscheidungsbäume zusammengefasst werden. Beliebte Arten von Entscheidungsbäumen sind Random Forests und Gradient Boosted Trees.

Weitere Informationen finden Sie im Kurs „Decision Forests“ im Abschnitt Decision Forests.

Entscheidungsbaum

#df

Ein Modell für überwachtes Lernen, das aus einer Reihe von hierarchisch organisierten Bedingungen und Blättern besteht. Hier ist ein Beispiel für einen Entscheidungsbaum:

Ein Entscheidungsbaum mit vier hierarchisch angeordneten Bedingungen, die zu fünf Blättern führen.

E

Entropie

#df
#Messwert

In der Informationstheorie wird die Unvorhersehbarkeit einer Wahrscheinlichkeitsverteilung beschrieben. Alternativ wird die Entropie auch als die Menge an Informationen definiert, die jedes Beispiel enthält. Eine Verteilung hat die höchstmögliche Entropie, wenn alle Werte einer Zufallsvariablen gleich wahrscheinlich sind.

Die Entropie einer Menge mit zwei möglichen Werten „0“ und „1“ (z. B. die Labels in einem binären Klassifizierungsproblem) wird mit der folgenden Formel berechnet:

  H = -p log p - q log q = -p log p - (1-p) * log (1-p)

Dabei gilt:

  • H ist die Entropie.
  • p ist der Anteil der Beispiele mit dem Wert „1“.
  • q ist der Anteil der Beispiele mit dem Wert „0“. Hinweis: q = (1 – p)
  • log ist im Allgemeinen log2. In diesem Fall ist die Entropieeinheit ein Bit.

Nehmen wir beispielsweise Folgendes an:

  • 100 Beispiele enthalten den Wert „1“.
  • 300 Beispiele enthalten den Wert „0“

Der Entropiewert ist also:

  • p = 0,25
  • q = 0,75
  • H = (-0,25)log2(0,25) – (0,75)log2(0,75) = 0,81 Bit pro Beispiel

Ein perfekt ausgeglichener Satz (z. B. 200 „0“ und 200 „1“) hätte eine Entropie von 1, 0 Bit pro Beispiel. Je unausgewogener ein Set ist, desto mehr nähert sich seine Entropie dem Wert 0,0 an.

In Entscheidungsbäumen wird mit Entropie der Informationsgewinn formuliert, damit der Splitter beim Erstellen eines Klassifizierungsentscheidungsbaums die Bedingungen auswählen kann.

Entropie vergleichen mit:

Entropie wird oft als Shannon-Entropie bezeichnet.

Weitere Informationen finden Sie im Kurs „Entscheidungsbäume“ unter Exact splitter for binary classification with numerical features (Genaue Aufteilung für die binäre Klassifizierung mit numerischen Features).

F

Featurewichtigkeiten

#df
#Messwert

Synonym für Variablenwichtigkeit.

G

Gini-Unreinheit

#df
#Messwert

Ein Messwert ähnlich der Entropie. Splitter verwenden Werte, die entweder aus der Gini-Unreinheit oder der Entropie abgeleitet werden, um Bedingungen für die Klassifizierung Entscheidungsbäume zu erstellen. Information Gain wird aus der Entropie abgeleitet. Es gibt keinen allgemein akzeptierten Begriff für den Messwert, der aus der Gini-Unreinheit abgeleitet wird. Dieser unbenannte Messwert ist jedoch genauso wichtig wie der Informationsgewinn.

Die Gini-Unreinheit wird auch als Gini-Index oder einfach als Gini bezeichnet.

Gradient Boosted Trees (GBT)

#df

Eine Art von Entscheidungsbaum, bei der:

Weitere Informationen finden Sie im Kurs „Entscheidungsbäume“ unter Gradient Boosted Decision Trees.

Gradient Boosting

#df

Ein Trainingsalgorithmus, bei dem schwache Modelle iterativ trainiert werden, um die Qualität (Verlust) eines starken Modells zu verbessern. Ein schwaches Modell kann beispielsweise ein lineares Modell oder ein kleines Entscheidungsbaummodell sein. Das starke Modell ist die Summe aller zuvor trainierten schwachen Modelle.

In der einfachsten Form von Gradient Boosting wird in jeder Iteration ein schwaches Modell trainiert, um den Verlustgradienten des starken Modells vorherzusagen. Die Ausgabe des starken Modells wird dann aktualisiert, indem der vorhergesagte Gradient subtrahiert wird, ähnlich wie beim Gradientenabstieg.

$$F_{0} = 0$$ $$F_{i+1} = F_i - \xi f_i $$

Dabei gilt:

  • $F_{0}$ ist das Ausgangsmodell.
  • $F_{i+1}$ ist das nächste starke Modell.
  • $F_{i}$ ist das aktuelle starke Modell.
  • $\xi$ ist ein Wert zwischen 0,0 und 1,0, der als Shrinkage bezeichnet wird und analog zur Lernrate beim Gradientenabstieg ist.
  • $f_{i}$ ist das schwache Modell, das darauf trainiert wird, den Verlustgradienten von $F_{i}$ vorherzusagen.

Moderne Varianten von Gradient Boosting berücksichtigen auch die zweite Ableitung (Hessian) des Verlusts in ihren Berechnungen.

Entscheidungsbäume werden häufig als schwache Modelle beim Gradient Boosting verwendet. Weitere Informationen finden Sie unter Gradient Boosted-Entscheidungsbäume.

I

Inferenzpfad

#df

In einem Entscheidungsbaum wird während der Inferenz der Pfad eines bestimmten Beispiels vom Stamm zu anderen Bedingungen verfolgt, bis er in einem Blatt endet. Im folgenden Entscheidungsbaum zeigen die dickeren Pfeile beispielsweise den Inferenzpfad für ein Beispiel mit den folgenden Feature-Werten:

  • x = 7
  • y = 12
  • z = -3

Der Inferenzpfad in der folgenden Abbildung durchläuft drei Bedingungen, bevor er das Blatt (Zeta) erreicht.

Ein Entscheidungsbaum mit vier Bedingungen und fünf Blättern.
          Die Stammbedingung ist (x > 0). Da die Antwort „Ja“ lautet, verläuft der Inferenzpfad von der Wurzel zur nächsten Bedingung (y > 0).
          Da die Antwort „Ja“ ist, wird der Inferenzpfad zur nächsten Bedingung (z > 0) weitergeleitet. Da die Antwort „Nein“ lautet, wird der Inferenzpfad zum Endknoten (Zeta) weitergeleitet.

Die drei dicken Pfeile zeigen den Inferenzpfad.

Weitere Informationen finden Sie im Kurs „Decision Forests“ unter Entscheidungsbäume.

Informationsgewinn

#df
#Messwert

In Entscheidungsbäumen ist das die Differenz zwischen der Entropie eines Knotens und der gewichteten (nach Anzahl der Beispiele) Summe der Entropie seiner untergeordneten Knoten. Die Entropie eines Knotens ist die Entropie der Beispiele in diesem Knoten.

Sehen wir uns zum Beispiel die folgenden Entropiewerte an:

  • Entropie des übergeordneten Knotens = 0,6
  • Entropie eines untergeordneten Knotens mit 16 relevanten Beispielen = 0,2
  • Entropie eines anderen untergeordneten Knotens mit 24 relevanten Beispielen = 0,1

40% der Beispiele befinden sich also in einem untergeordneten Knoten und 60% im anderen. Beispiele:

  • Gewichtete Entropiesumme der untergeordneten Knoten = (0,4 * 0,2) + (0,6 * 0,1) = 0,14

Der Informationsgewinn ist also:

  • Informationsgewinn = Entropie des übergeordneten Knotens – gewichtete Entropiesumme der untergeordneten Knoten
  • Information Gain = 0,6 – 0,14 = 0,46

Die meisten Splitter versuchen, Bedingungen zu erstellen, die den Informationsgewinn maximieren.

Bedingung für die Gruppe

#df

In einem Entscheidungsbaum ist eine Bedingung, mit der geprüft wird, ob ein Element in einer Gruppe von Elementen vorhanden ist. Das Folgende ist beispielsweise eine Bedingung für die Anzeige in der Suchergebnisseite:

  house-style in [tudor, colonial, cape]

Wenn der Wert des Features „house-style“ während der Inferenz tudor, colonial oder cape ist, wird diese Bedingung als „Ja“ ausgewertet. Wenn der Wert des Features „Hausstil“ etwas anderes ist (z. B. ranch), wird diese Bedingung als „Nein“ ausgewertet.

In-Set-Bedingungen führen in der Regel zu effizienteren Entscheidungsbäumen als Bedingungen, mit denen One-Hot-codierte Merkmale getestet werden.

L

Blatt

#df

Jeder Endpunkt in einem Entscheidungsbaum. Im Gegensatz zu einer Bedingung wird bei einem Blatt kein Test durchgeführt. Vielmehr ist ein Blatt eine mögliche Vorhersage. Ein Blatt ist auch der Endknoten eines Inferenzpfads.

Der folgende Entscheidungsbaum enthält beispielsweise drei Blätter:

Ein Entscheidungsbaum mit zwei Bedingungen, die zu drei Blättern führen.

Weitere Informationen finden Sie im Kurs „Decision Forests“ unter Entscheidungsbäume.

N

Knoten (Entscheidungsbaum)

#df

In einem Entscheidungsbaum kann jede Bedingung oder jedes Blatt sein.

Ein Entscheidungsbaum mit zwei Bedingungen und drei Blättern.

Weitere Informationen finden Sie im Kurs „Entscheidungsbäume“ unter Entscheidungsbäume.

nicht binäre Bedingung

#df

Eine Bedingung mit mehr als zwei möglichen Ergebnissen. Die folgende nicht binäre Bedingung enthält beispielsweise drei mögliche Ergebnisse:

Eine Bedingung (number_of_legs = ?), die zu drei möglichen Ergebnissen führt. Ein Ergebnis (number_of_legs = 8) führt zu einem Blatt namens „spider“. Ein zweites Ergebnis (number_of_legs = 4) führt zu einem Blatt namens „dog“. Ein drittes Ergebnis (number_of_legs = 2) führt zu einem Blatt namens „penguin“.

Weitere Informationen finden Sie im Kurs „Entscheidungsbäume“ unter Arten von Bedingungen.

O

schräge Bedingung

#df

In einem Entscheidungsbaum ist eine Bedingung, die mehr als ein Merkmal umfasst. Wenn Höhe und Breite beispielsweise beides Features sind, ist Folgendes eine schräge Bedingung:

  height > width

Im Gegensatz zur achsenorientierten Bedingung.

Weitere Informationen finden Sie im Kurs „Entscheidungsbäume“ unter Arten von Bedingungen.

Out-of-Bag-Bewertung (OOB-Bewertung)

#df

Ein Mechanismus zur Bewertung der Qualität eines Entscheidungsbaums, indem jeder Entscheidungsbaum anhand der Beispiele getestet wird, die nicht während des Trainings dieses Entscheidungsbaums verwendet wurden. Im folgenden Diagramm sehen Sie beispielsweise, dass das System jeden Entscheidungsbaum mit etwa zwei Dritteln der Beispiele trainiert und dann mit dem verbleibenden Drittel der Beispiele bewertet.

Ein Entscheidungsbaum mit drei Entscheidungsbäumen.
          Ein Entscheidungsbaum wird mit zwei Dritteln der Beispiele trainiert und verwendet dann das verbleibende Drittel für die OOB-Bewertung.
          Ein zweiter Entscheidungsbaum wird mit einem anderen Drittel der Beispiele trainiert als der vorherige Entscheidungsbaum und verwendet dann ein anderes Drittel für die OOB-Bewertung als der vorherige Entscheidungsbaum.

Die Out-of-Bag-Bewertung ist eine recheneffiziente und konservative Annäherung des Kreuzvalidierungsmechanismus. Bei der Kreuzvalidierung wird für jede Kreuzvalidierungsrunde ein Modell trainiert (z. B. 10 Modelle bei einer 10‑fachen Kreuzvalidierung). Bei der OOB-Bewertung wird ein einzelnes Modell trainiert. Da beim Bagging während des Trainings einige Daten für jeden Baum zurückgehalten werden, kann bei der OOB-Bewertung mit diesen Daten eine Kreuzvalidierung angenähert werden.

Weitere Informationen finden Sie im Kurs „Entscheidungsbäume“ unter Out-of-bag evaluation.

P

Bewertung von Variablen durch Permutation

#df
#Messwert

Eine Art von Variablenwichtigkeit, die die Zunahme des Vorhersagefehlers eines Modells nach Permutation der Werte des Features bewertet. Die Permutationsvariablenwichtigkeit ist ein modellunabhängiger Messwert.

R

Random Forest

#df

Ein Ensemble von Entscheidungsbäumen, in dem jeder Entscheidungsbaum mit einem bestimmten zufälligen Rauschen trainiert wird, z. B. Bagging.

Random Forests sind eine Art von Entscheidungsbäumen.

Weitere Informationen finden Sie im Kurs „Entscheidungsbäume“ unter Random Forest.

Stamm

#df

Der Startknoten (die erste Bedingung) in einem Entscheidungsbaum. Üblicherweise wird die Wurzel oben im Entscheidungsbaum platziert. Beispiel:

Ein Entscheidungsbaum mit zwei Bedingungen und drei Blättern. Die Startbedingung (x > 2) ist die Wurzel.

S

Stichprobennahme mit Zurücklegen

#df

Eine Methode zum Auswählen von Elementen aus einer Menge von Kandidatenelementen, bei der dasselbe Element mehrmals ausgewählt werden kann. Der Begriff „mit Zurücklegen“ bedeutet, dass das ausgewählte Element nach jeder Auswahl in den Pool der infrage kommenden Elemente zurückgelegt wird. Bei der umgekehrten Methode, dem Sampling ohne Zurücklegen, kann ein Kandidatenelement nur einmal ausgewählt werden.

Betrachten Sie beispielsweise die folgende Menge an Früchten:

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

Angenommen, das System wählt fig als erstes Element zufällig aus. Wenn Sie Stichproben mit Zurücklegen verwenden, wählt das System das zweite Element aus der folgenden Menge aus:

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

Ja, das ist dasselbe Set wie zuvor. Das System könnte also wieder fig auswählen.

Wenn Sie Stichproben ohne Zurücklegen verwenden, kann eine ausgewählte Stichprobe nicht noch einmal ausgewählt werden. Wenn das System beispielsweise fig als erste Stichprobe zufällig auswählt, kann fig nicht noch einmal ausgewählt werden. Daher wählt das System das zweite Beispiel aus der folgenden (reduzierten) Menge aus:

fruit = {kiwi, apple, pear, cherry, lime, mango}

Einlaufen

#df

Ein Hyperparameter in Gradient Boosting, der Overfitting steuert. Die Schrumpfung beim Gradient Boosting entspricht der Lernrate beim Gradientenabstieg. Der Schrumpfungswert ist eine Dezimalzahl zwischen 0,0 und 1,0. Ein niedrigerer Schrumpfungswert reduziert die Überanpassung stärker als ein höherer Schrumpfungswert.

aufteilen

#df

In einem Entscheidungsbaum ist das ein anderer Name für eine Bedingung.

Splitter

#df

Beim Trainieren eines Entscheidungsbaums wird die Routine (und der Algorithmus) verwendet, um die beste Bedingung für jeden Knoten zu finden.

T

Test

#df

In einem Entscheidungsbaum ist das ein anderer Name für eine Bedingung.

Grenzwert (für Entscheidungsbäume)

#df

In einer achsenorientierten Bedingung der Wert, mit dem ein Attribut verglichen wird. Beispiel: 75 ist der Grenzwert in der folgenden Bedingung:

grade >= 75

Weitere Informationen finden Sie im Kurs „Entscheidungsbäume“ unter Exact splitter for binary classification with numerical features.

V

Variablenwichtigkeiten

#df
#Messwert

Eine Reihe von Werten, die die relative Wichtigkeit der einzelnen Features für das Modell angibt.

Betrachten Sie beispielsweise einen Entscheidungsbaum, der Hauspreise schätzt. Angenommen, in diesem Entscheidungsbaum werden drei Attribute verwendet: Größe, Alter und Stil. Wenn die Wichtigkeit der drei Variablen {size=5.8, age=2.5, style=4.7} ist, ist die Größe für den Entscheidungsbaum wichtiger als das Alter oder der Stil.

Es gibt verschiedene Messwerte für die Wichtigkeit von Variablen, die ML-Experten über unterschiedliche Aspekte von Modellen informieren können.

W

Schwarmintelligenz

#df

Die Idee, dass das Mitteln der Meinungen oder Schätzungen einer großen Gruppe von Menschen („der Menge“) oft überraschend gute Ergebnisse liefert. Stellen Sie sich beispielsweise ein Spiel vor, bei dem die Teilnehmer die Anzahl der Gummibärchen in einem großen Glas schätzen. Die meisten einzelnen Schätzungen sind zwar ungenau, aber der Durchschnitt aller Schätzungen liegt erfahrungsgemäß überraschend nahe an der tatsächlichen Anzahl der Jelly Beans im Glas.

Ensembles sind das Software-Analogon der Weisheit der Menge. Auch wenn einzelne Modelle sehr ungenaue Vorhersagen treffen, werden durch die Mittelung der Vorhersagen vieler Modelle oft überraschend gute Vorhersagen generiert. Ein einzelner Entscheidungsbaum kann beispielsweise schlechte Vorhersagen treffen, ein Entscheidungsbaum hingegen oft sehr gute.