Variable Bedeutungen
Die Variablenwichtigkeit (auch als Featurewichtigkeit bezeichnet) ist ein Wert, der angibt, wie „wichtig“ ein Feature für das Modell ist. Wenn beispielsweise für ein bestimmtes Modell mit den beiden Eingabemerkmalen „f1“ und „f2“ die Variablenwichtigkeiten {f1=5.8, f2=2.5} sind, ist das Feature „f1“ für das Modell „wichtiger“ als das Feature „f2“. Wie bei anderen ML-Modellen ist die variable Bedeutung eine einfache Möglichkeit, die Funktionsweise eines Entscheidungsbaums zu verstehen.
Sie können modellunabhängige Variablenwichtigkeiten wie die Wichtigkeit von Permutationvariablen auf Entscheidungsbäume anwenden.
Entscheidungsbäume haben auch eine bestimmte variable Bedeutung, wie zum Beispiel:
- Summe des Aufteilungswerts mit einer bestimmten Variablen.
- Die Anzahl der Knoten mit einer bestimmten Variablen.
- Die durchschnittliche Tiefe des ersten Auftretens eines Features in allen Baumpfaden.
Die Wichtigkeit von Variablen kann sich durch folgende Merkmale unterscheiden:
- Semantik
- profitieren
- Properties
Darüber hinaus liefern unterschiedliche Bedeutungen unterschiedliche Arten von Informationen zu:
- das Modell
- das Dataset
- Schulungsprozesses
Die Anzahl der Bedingungen mit einem bestimmten Merkmal gibt beispielsweise an, wie sehr ein Entscheidungsbaum dieses bestimmte Merkmal betrachtet. Dies kann auf eine variable Bedeutung hinweisen. Denn der Lernalgorithmus hätte ein Feature nicht in mehreren Bedingungen verwendet, wenn es keine Rolle gespielt hätte. Wenn dasselbe Feature in mehreren Bedingungen auftritt, kann es jedoch auch darauf hindeuten, dass ein Modell versucht, das Muster eines Features jedoch nicht zu verallgemeinern. Dies kann beispielsweise der Fall sein, wenn eine Funktion nur eine Beispielkennung ohne Informationen ist, die verallgemeinert werden können.
Andererseits bedeutet ein hoher Wert für eine hohe Permutationsvariablenwichtigkeit, dass das Entfernen eines Features das Modell beeinträchtigt, was ein Hinweis auf die Variablenwichtigkeit ist. Wenn das Modell jedoch robust ist, beeinträchtigt das Entfernen eines bestimmten Features das Modell möglicherweise nicht.
Da unterschiedliche Variablenwichtigkeiten Informationen zu verschiedenen Aspekten der Modelle liefern, ist es informativ, mehrere Variablenwichtigkeiten gleichzeitig zu betrachten. Wenn ein Feature beispielsweise aufgrund aller variablen Wichtigkeiten wichtig ist, ist dieses Feature wahrscheinlich wichtig. Ein weiteres Beispiel: Wenn ein Feature eine hohe „Anzahl von Knoten“-Variablenwichtigkeit und eine geringe „Permutation“-Variablenwichtigkeit hat, ist dieses Feature möglicherweise schwer zu verallgemeinern und kann die Modellqualität beeinträchtigen.
model.describe()
aufrufen und sich den Tab „Variablenwichtigkeit“ ansehen.
Weitere Informationen finden Sie in der
Anleitung zum Verstehen von Modellen.