En los problemas de regresión, tiene sentido definir el error firmado como la diferencia entre la predicción y la etiqueta. Sin embargo, en otros tipos de problemas, esta estrategia suele generar resultados deficientes. Una mejor estrategia que se usa en el aumento de gradientes es la siguiente:
- Define una función de pérdida similar a las que se usan en las redes neuronales. Por ejemplo, la entropía (también conocida como pérdida de registro) para un problema de clasificación.
- Entrena el modelo débil para predecir el gradiente de la pérdida según el resultado del modelo fuerte.
De forma formal, dada una función de pérdida , en la que es una etiqueta y es una predicción, la pseudorespuesta que se usa para entrenar el modelo débil en el paso es:
Donde:
- es la predicción del modelo sólido.
El ejemplo anterior era un problema de regresión: el objetivo es predecir un valor numérico. En el caso de la regresión, el error al cuadrado es una función de pérdida común:
En este caso, el gradiente es el siguiente:
En otras palabras, el gradiente es el error firmado de nuestro ejemplo con un factor de 2. Ten en cuenta que los factores constantes no importan debido a la contracción. Ten en cuenta que esta equivalencia solo es verdadera para los problemas de regresión con pérdida de error cuadrado. Para otros problemas de aprendizaje supervisado (por ejemplo, clasificación, clasificación, regresión con pérdida porcentual), no hay equivalencia entre el gradiente y un error firmado.
Optimización de hojas y estructuras con el paso del método de Newton
El método de Newton es un método de optimización como el descenso de gradientes. Sin embargo, a diferencia del descenso de gradientes, que solo usa el gradiente de la función para realizar la optimización, el método de Newton usa tanto el gradiente (primer derivado) como el segundo derivado de la función para realizar la optimización.
Un paso del descenso del gradiente es el siguiente:
y el método de Newton de la siguiente manera:
De manera opcional, el método de Newton se puede integrar al entrenamiento de árboles con gradiente mejorado de dos maneras:
- Una vez que se entrena un árbol, se aplica un paso de Newton en cada hoja y se anula su valor. La estructura del árbol no se modifica; solo cambian los valores de las hojas.
- Durante el crecimiento de un árbol, las condiciones se seleccionan según una puntuación que incluye un componente de la fórmula de Newton. La estructura del árbol se ve afectada.
- YDF siempre aplica un paso de Newton en la hoja (opción 1).
- Puedes habilitar la opción 2 con
use_hessian_gain=True
.