Dans les problèmes de régression, il est logique de définir l'erreur signée comme la différence entre la prédiction et l'étiquette. Toutefois, pour d'autres types de problèmes, cette stratégie donne souvent de mauvais résultats. Une meilleure stratégie utilisée dans le boosting par gradient consiste à:
- Définissez une fonction de perte semblable aux fonctions de perte utilisées dans les réseaux de neurones. Par exemple, l'entropie (également appelée perte logistique) pour un problème de classification.
- Entraînez le modèle faible pour prédire le gradient de la perte en fonction de la sortie du modèle fort.
Formellement, étant donné une fonction de perte où est un libellé et une prédiction, la pseudo-réponse utilisée pour entraîner le modèle faible à l'étape est la suivante:
où :
- est la prédiction du modèle fort.
L'exemple précédent était un problème de régression: l'objectif est de prédire une valeur numérique. Dans le cas de la régression, l'erreur quadratique est une fonction de perte courante:
Dans ce cas, le dégradé est le suivant:
En d'autres termes, la pente est l'erreur signée de notre exemple avec un facteur de 2. Notez que les facteurs constants n'ont pas d'importance en raison de la rétractation. Notez que cette équivalence n'est vraie que pour les problèmes de régression avec une perte d'erreur quadratique. Pour les autres problèmes d'apprentissage supervisé (par exemple, la classification, le classement, la régression avec perte de percentile), il n'existe aucune équivalence entre le gradient et une erreur signée.
Optimisation des feuilles et de la structure avec l'étape de la méthode de Newton
La méthode de Newton est une méthode d'optimisation, comme la descente de gradient. Cependant, contrairement à la descente de gradient qui n'utilise que le gradient de la fonction pour l'optimisation, la méthode de Newton utilise à la fois le gradient (première dérivée) et la deuxième dérivée de la fonction pour l'optimisation.
Une étape de descente de gradient se déroule comme suit:
et la méthode de Newton comme suit:
La méthode de Newton peut être intégrée à l'entraînement des arbres de décision à boosting de gradient de deux manières:
- Une fois un arbre entraîné, une étape de Newton est appliquée à chaque feuille et remplace sa valeur. La structure de l'arborescence reste inchangée. Seules les valeurs des feuilles changent.
- Au cours de la croissance d'un arbre, les conditions sont sélectionnées en fonction d'un score qui inclut un composant de la formule de Newton. La structure de l'arborescence est affectée.
- YDF applique toujours une étape Newton sur la feuille (option 1).
- Vous pouvez activer l'option 2 avec
use_hessian_gain=True
.