Questa appendice contiene alcuni dettagli aggiuntivi sul tasso di apprendimento.
Pianificazione del decadimento del tasso di apprendimento
La migliore famiglia di pianificazione di decadimento del tasso di apprendimento è un problema aperto, non è chiaro come costruire una serie di esperimenti rigorosi per rispondere in sicurezza a questa domanda. Anche se non conosciamo la migliore famiglia di orari, siamo fiduciosi su quanto segue:
- È importante avere una programmazione (non costante).
- Ottimizzare la programmazione è importante.
Tassi di apprendimento diversi funzionano meglio in momenti diversi durante il processo di ottimizzazione. Avere una sorta di pianificazione rende più probabile che il modello raggiunga un buon tasso di apprendimento.
Migliore decadimento del tasso di apprendimento predefinito
Per impostazione predefinita, consigliamo una delle seguenti famiglie di decadimento del tasso di apprendimento:
- Decadimento lineare
- Decadimento coseno
Anche molte altre famiglie di programmazioni sono buone.
Perché per alcuni articoli i programmi relativi al tasso di apprendimento sono complessi?
Molti articoli accademici utilizzano programmi di deterioramento complessi con il tasso di apprendimento a pezzi. I lettori spesso si chiedono in che modo gli autori siano arrivati a un programma così complesso. Molte complicate pianificazioni di decadimento LR sono il risultato dell'ottimizzazione della pianificazione in funzione delle prestazioni del set di convalida in modo ad hoc. Ossia:
- Inizia una singola corsa di addestramento con un semplice decadimento LR (o un tasso di apprendimento costante).
- Continua ad allenarti finché la performance non sembra stagnare. Se ciò accade, metti in pausa l'addestramento. Quindi riprendila con un programma di decadimento LR forse più rigoroso (o un tasso di apprendimento costante più basso) da questo punto. Ripeti questa procedura (fino alla scadenza della conferenza o del lancio).
Copiare la pianificazione risultante in genere non è una buona idea poiché la migliore pianificazione è sensibile a un insieme di altre scelte di iperparametri. Consigliamo di copiare l'algoritmo che ha prodotto la pianificazione, anche se questo è raramente possibile quando il giudizio umano ha prodotto una pianificazione. È possibile utilizzare questo tipo di pianificazione di sensibilizzazione agli errori di convalida se può essere completamente automatizzata, ma le pianificazioni human-in-the-loop che sono una funzione dell'errore di convalida sono fragili e non facilmente riproducibili, quindi consigliamo di evitarle. Prima di pubblicare i risultati che utilizzavano una pianificazione di questo tipo, prova a renderla completamente riproducibile.
Come si devono regolare gli iperparametri di Adam?
Non tutti gli iperparametri in Adam sono altrettanto importanti. Le seguenti regole pratiche corrispondono a "budget" diversi per il numero di prove in uno studio.
- Se < 10 studi in uno studio, modifica solo il tasso di apprendimento (base).
- Se 10-25 prove in uno studio, regola il tasso di apprendimento e
beta_1
. - Se oltre 25 prove, regola il tasso di apprendimento,
beta_1
eepsilon
. - Se prevedi più di 25 prove, ottimizza ulteriormente
beta_2
.
Data la difficoltà di fornire regole generali sugli spazi di ricerca e il numero di punti da campionare dallo spazio di ricerca, consulta le regole generali indicate in questa sezione come linee guida approssimative.