Este es un breve resumen de lo que aprendiste en el curso:
- Un árbol de decisión es un modelo que se compone de una colección de condiciones organizadas de forma jerárquica en forma de árbol. Las condiciones se dividen en varias categorías:
- Una condición alineada con el eje solo implica un solo componente. Una condición diagonal implica varias características.
- Una condición binaria tiene dos resultados posibles. Una condición no binaria tiene más de dos resultados posibles.
- El entrenamiento de un árbol de decisión implica buscar la mejor condición en cada nodo. La rutina del divisor usa métricas como la ganancia de información o el índice de Gini para determinar la mejor condición.
- Un bosque de decisión es un modo compuesto por varios árboles de decisión. La predicción de un bosque de decisión es la agregación de las predicciones de sus árboles de decisión.
- Un bosque aleatorio es un conjunto de árboles de decisión en el que cada árbol se entrena con un ruido aleatorio específico.
- El bagging es una técnica en la que cada árbol de decisión del bosque aleatorio se entrena en un subconjunto diferente de ejemplos.
- Los bosques aleatorios no requieren un conjunto de datos de validación. En cambio, la mayoría de los bosques aleatorios usan una técnica llamada out-of-bag-evaluation para evaluar la calidad del modelo.
- Un árbol de decisión (impulsado por gradientes) es un tipo de bosque de decisión entrenado a través de ajustes iterativos a partir de árboles de decisión de entrada. Un valor llamado reducción controla la velocidad a la que aprende un árbol de decisión mejorado con gradientes y el grado en que podría sobreajustar.
Referencias
- Greedy Function Approximation: A Gradient Boosting Machine, J. Friedman.
- The Elements of Statistical Learning, Trevor Hastie. Capítulo 10.
- Generalized Boosted Models: A guide to the gbm package, G. Ridgeway