Wichtigkeit von Variablen

Die Variablen- oder Merkmalwichtigkeit ist ein Wert, der angibt, wie „wichtig“ ein Merkmal für das Modell ist. Wenn beispielsweise für ein bestimmtes Modell mit den beiden Eingabemerkmalen „f1“ und „f2“ die Variablenwichtigkeiten {f1=5.8, f2=2.5} lauten, ist das Merkmal „f1“ für das Modell wichtiger als das Merkmal „f2“. Wie bei anderen Modellen des maschinellen Lernens ist die Variablenbewertung eine einfache Möglichkeit, die Funktionsweise eines Entscheidungsbaums zu verstehen.

Sie können modellunabhängige Variablengewichtungen wie die Wichtigkeit von Permutationsvariablen auf Entscheidungsbäume anwenden.

Entscheidungsbäume haben auch spezifische Variablengewichte, z. B.:

  • Die Summe des Split-Werts mit einer bestimmten Variablen.
  • Die Anzahl der Knoten mit einer bestimmten Variablen.
  • Die durchschnittliche Tiefe des ersten Vorkommens eines Elements in allen Baumpfaden.

Die Wichtigkeit von Variablen kann sich je nach folgenden Faktoren unterscheiden:

  • Semantik
  • profitieren
  • Properties

Außerdem liefern die Variablengewichte verschiedene Arten von Informationen zu:

  • das Modell
  • des Datasets
  • den Trainingsablauf

Die Anzahl der Bedingungen, die ein bestimmtes Merkmal enthalten, gibt beispielsweise an, wie stark ein Entscheidungsbaum dieses Merkmal berücksichtigt. Dies kann auf die Wichtigkeit der Variablen hinweisen. Schließlich würde der Lernalgorithmus eine Funktion nicht in mehreren Bedingungen verwenden, wenn sie keine Rolle spielt. Wenn dieselbe Funktion jedoch in mehreren Bedingungen vorkommt, kann das auch darauf hinweisen, dass ein Modell versucht, das Muster einer Funktion zu verallgemeinern, dies aber nicht schafft. Das kann beispielsweise passieren, wenn eine Funktion nur eine Beispielkennung ohne Informationen zur Verallgemeinerung ist.

Ein hoher Wert für eine Variable mit hoher Permutationsbedeutung weist dagegen darauf hin, dass das Entfernen eines Features dem Modell schadet. Dies ist ein Hinweis auf die Variablenbedeutung. Wenn das Modell jedoch robust ist, hat das Entfernen eines einzelnen Features möglicherweise keine Auswirkungen auf das Modell.

Da verschiedene Variablengewichtungen Aufschluss über verschiedene Aspekte der Modelle geben, ist es hilfreich, sich mehrere Variablengewichtungen gleichzeitig anzusehen. Wenn ein Merkmal beispielsweise gemäß allen Variablen wichtig ist, ist es wahrscheinlich wichtig. Ein weiteres Beispiel: Wenn ein Feature eine hohe Variablenbedeutung für „Anzahl der Knoten“ und eine geringe Variablenbedeutung für „Permutation“ hat, ist es möglicherweise schwierig, dieses Feature zu generalisieren, was sich negativ auf die Modellqualität auswirken kann.

YDF-Code
In YDF können Sie die Variablenbewertung eines Modells aufrufen, indem Sie model.describe() eingeben und den Tab „Variablenbewertung“ aufrufen. Weitere Informationen finden Sie in der Anleitung zum Erfassen von Modellen.