Dieser Anhang enthält einige zusätzliche Informationen zur Lernrate.
Zeitplan für den Lernverlauf
Der beste Verlauf der Lernrate ist ein offenes Problem. Es ist nicht klar, wie Sie eine Reihe von strengen Tests erstellen, um diese Frage sicher zu beantworten. Wir können die folgende Familie nicht kennen, sind aber sicher:
- Es ist wichtig, einen festen Zeitplan zu haben.
- Es ist wichtig, den Zeitplan anzupassen.
Am besten optimieren Sie während des Optimierungsprozesses unterschiedliche Lernraten. Mit einem bestimmten Zeitplan ist es wahrscheinlicher, dass das Modell eine gute Lernrate erreicht.
Bester Standard für Lernrate
Wir empfehlen standardmäßig eine der folgenden Lernratenraten:
- Linearer Verlauf
- Kosinuszerfall
Oft sind auch andere Familien gut erreichbar.
Warum enthalten einige Arbeiten komplizierte Lernpläne?
In vielen wissenschaftlichen Artikeln wird ein komplizierter, zeitweiser Verlauf der Abnahmerate verwendet. Die Leser fragen sich oft, wie die Autoren zu einem so komplizierten Zeitplan gekommen sind. Viele komplizierte LR-Zeitverlaufspläne sind das Ergebnis einer Feinabstimmung des Zeitplans in Form einer Ad-hoc-Leistung der Validierungssätze. Das bedeutet:
- Starten Sie einen einzelnen Trainingslauf mit einem einfachen LR-Zerfall (oder einer konstanten Lernrate).
- Das Training sollte laufen, bis die Leistung sich stagniert. In diesem Fall pausieren Sie das Training. Setzen Sie ihn dann mit einem möglicherweise konstanten LR-Abstiegszeitplan (oder einer kleineren konstanten Lernrate) ab diesem Punkt fort. Wiederholen Sie diesen Vorgang bis zum jeweiligen Stichtag.
Es ist im Allgemeinen keine gute Idee, den resultierenden Zeitplan zu kopieren, da der beste bestimmte Zeitplan für eine Reihe anderer Hyperparameter-Optionen streng ist. Wir empfehlen, den Algorithmus zu kopieren, der den Zeitplan generiert hat. Dies ist jedoch nur selten möglich, wenn der Zeitplan von einem beliebigen menschlichen Urteil erstellt wurde. Diese Art von Validierungsfehler-empfindlicher Zeitplan ist gut geeignet, wenn er vollständig automatisiert sein kann. Human-in-the-Loop-Zeitpläne, die eine Funktion des Validierungsfehlers sind, sind jedoch nicht reproduzierbar und sollten daher nicht reproduzierbar sein. Bevor Sie Ergebnisse mit einem solchen Zeitplan veröffentlichen, versuchen Sie, diesen vollständig zu reproduzieren.
Wie sollten die Hyperparameter von Adam abgestimmt werden?
Nicht alle Hyperparameter in Adam sind gleich wichtig. Die folgenden Faustregeln entsprechen unterschiedlichen Budgets für die Anzahl der Tests in einer Studie.
- Wenn in der Studie weniger als 10 Tests durchgeführt wurden, sollten Sie nur die Lernbasis anpassen.
- Wenn Sie 10 bis 25 Tests in einer Studie durchführen, passen Sie die Lernrate und
beta_1
an. - Wenn Sie mehr als 25 Testzeiträume testen, passen Sie die Lernrate,
beta_1
undepsilon
an. - Wenn mehr als 25 Tests laufen, passen Sie außerdem
beta_2
an.
Da es schwierig ist, allgemeine Regeln zu Suchbereichen anzugeben und wie viele Punkte Sie aus dem Suchbereich extrahieren sollten, gelten die in diesem Abschnitt genannten Faustregeln als grobe Orientierungshilfe.“