Cette annexe contient quelques informations supplémentaires sur le taux d'apprentissage.
Calendrier de dépréciation du taux d'apprentissage
La meilleure méthode de planification de la dépréciation du taux d'apprentissage est un problème ouvert. Il n'est pas clair comment construire un ensemble d'expérimentations rigoureuses pour répondre avec certitude à cette question. Nous ne savons pas quelle est la meilleure famille de planning, mais nous avons confiance dans les points suivants:
- Il est important de disposer d'une planification (non constante).
- Il est important de respecter cette programmation.
Les différents taux d'apprentissage fonctionnent mieux à différents moments du processus d'optimisation. Avec un calendrier, le modèle a plus de chances d'atteindre un bon taux d'apprentissage.
Meilleur taux d'apprentissage par défaut
Nous vous recommandons par défaut l'une des familles de dépréciation du taux d'apprentissage suivantes:
- Dépréciation linéaire
- Dégradation du cosinus
De nombreuses autres familles de planning sont également de bonne qualité.
Pourquoi certains articles présentent-ils des taux de difficulté d'apprentissage complexes ?
De nombreux articles universitaires utilisent des plannings d'apprentissage par taux d'apprentissage par morceaux complexes. Les lecteurs se demandent souvent comment les auteurs sont arrivés à un planning si compliqué. De nombreux calendriers de décomposition LR complexes sont le résultat du réglage du calendrier comme d'une fonction ad hoc des performances de l'ensemble de validation. Par exemple :
- Démarrez un seul entraînement avec une dégradation LR simple (ou un taux d'apprentissage constant).
- Continuez à exécuter l'entraînement jusqu'à ce que les performances semblent stagner. Dans ce cas, suspendez l'entraînement. Vous pourrez la reprendre avec un calendrier de décomposition LR plus stable (ou un taux d'apprentissage constant plus faible) à partir de ce point. Recommencez ce processus jusqu'à la date limite de la conférence ou du lancement.
Copier normalement la planification obtenue n'est généralement pas une bonne idée, car la meilleure planification est sensible à une multitude d'autres hyperparamètres. Nous vous recommandons de copier l'algorithme qui a produit la programmation, bien que cela soit rarement possible lorsque le jugement humain a entraîné la planification. Ce type de planification sensible à l'erreur de validation peut être utilisé s'il peut être entièrement automatisé, mais les programmations human-in-the-loop qui sont une fonction d'erreur de validation sont fragiles et peu reproductibles. Nous vous recommandons donc de les éviter. Avant de publier des résultats qui utilisaient une telle programmation, veuillez essayer de la rendre entièrement reproductible.
Comment régler les hyperparamètres d'Adam ?
Dans Adam, les hyperparamètres n'ont pas tous la même importance. Les règles générales suivantes correspondent à différents "budgets" en termes de nombre d'essais dans une étude.
- Si moins de 10 essais sont effectués dans une étude, ajustez uniquement le taux d'apprentissage (de base).
- Si 10 à 25 essais sont réalisés dans une étude, ajustez le taux d'apprentissage et
beta_1
. - Si le nombre d'essais est supérieur à 25, ajustez le taux d'apprentissage,
beta_1
etepsilon
. - Si vous avez effectué plus de 25 essais, réglez également
beta_2
.
Étant donné qu'il est difficile de fournir des règles générales sur les espaces de recherche et le nombre de points à échantillonner dans l'espace de recherche, les règles de cette section sont considérées comme des consignes générales."