Este es un breve resumen de lo que aprendiste en el curso:
- Un árbol de decisión es un modelo compuesto por una colección de condiciones organizadas de manera jerárquica en forma de árbol. Las condiciones se dividen en varias categorías:
- Una condición alineada con ejes involucra un solo atributo. Una condición oblicua involucra múltiples atributos.
- Una condición binaria tiene dos resultados posibles. Una condición no binaria tiene más de dos resultados posibles.
- El entrenamiento de un árbol de decisión implica buscar la mejor condición en cada nodo. La rutina splitter usa métricas como obtención de información o Gini para determinar la mejor condición.
- Un bosque de decisión es un modo compuesto por varios árboles de decisión. La predicción de un bosque de decisión es la agregación de las predicciones de sus árboles de decisión.
- Un bosque aleatorio es un ensamble de árboles de decisión en los que cada árbol de decisión se entrena con un ruido aleatorio específico.
- La bolsa es una técnica en la que cada árbol de decisión del bosque aleatorio se entrena con un subconjunto diferente de ejemplos.
- Los bosques aleatorios no requieren un conjunto de datos de validación. En cambio, la mayoría de los bosques aleatorios usan una técnica llamada out-of-bag-evaluation para evaluar la calidad del modelo.
- Un árbol de cambio de gradiente (decisión) es un tipo de bosque de decisión entrenado mediante ajustes iterativos a partir de árboles de decisión de entrada. Un valor llamado reducción controla la velocidad a la que aprende un árbol con impulso de gradiente (decisión) y el grado en el que podría sobreajustarse.
Referencias
- Greedy Function Approximation: A Gradient Boosting Machine, J. Friedman.
- The Elements of Statistical Learning, de Trevor Hastie. Capítulo 10.
- Generalized Boosted Models: A guide to the gbm package, G. Ridgeway