Hier eine kurze Zusammenfassung der wichtigsten Punkte, die Sie in diesem Kurs gelernt haben:
- Ein Entscheidungsbaum ist ein Modell, das aus einer Reihe von Bedingungen besteht, die hierarchisch in Form eines Baums organisiert sind. Bedingungen fallen in verschiedene Kategorien:
- Eine Achsenausrichtungsbedingung bezieht sich nur auf ein einzelnes Element. Eine schräge Bedingung umfasst mehrere Merkmale.
- Eine binäre Bedingung hat zwei mögliche Ergebnisse. Eine nicht binäre Bedingung hat mehr als zwei mögliche Ergebnisse.
- Beim Trainieren eines Entscheidungsbaums wird an jedem Knoten nach der besten Bedingung gesucht. Die Splitter-Routine verwendet Messwerte wie den Informationsgewinn oder den Gini-Koeffizienten, um die beste Bedingung zu ermitteln.
- Ein Entscheidungswald besteht aus mehreren Entscheidungsbäumen. Die Vorhersage eines Entscheidungswalds ist die Aggregation der Vorhersagen seiner Entscheidungsbäume.
- Ein Random Forest ist ein Ensemble von Entscheidungsbäumen, bei dem jeder Entscheidungsbaum mit einer bestimmten Zufallsstörung trainiert wird.
- Bagging ist eine Methode, bei der jeder Entscheidungsbaum im Random Forest anhand einer anderen Teilmenge von Beispielen trainiert wird.
- Für Random Forests ist kein Validierungs-Dataset erforderlich. Stattdessen wird bei den meisten Random Forests die out-of-bag-evaluation verwendet, um die Qualität des Modells zu bewerten.
- Ein Gradient Boosted (Entscheidungs)Baum ist eine Art Entscheidungswald, der durch iterative Anpassungen von Eingabeentscheidungsbäumen trainiert wird. Mit dem Wert Shrinkage wird die Rate gesteuert, mit der ein gradient boosted (Entscheidungs-)Baum lernt, und der Grad, in dem er überangepasst werden könnte.
Verweise
- Greedy Function Approximation: A Gradient Boosting Technique, J. Friedman.
- The Elements of Statistical Learning, Trevor Hastie Kapitel 10.
- Generalized Boosted Models: A guide to the gbm package, G. Ridgeway