Lernrate

,

Dieser Anhang enthält einige zusätzliche Informationen zur Lernrate.

Zeitplan für den Lernverlauf

Der beste Verlauf der Lernrate ist ein offenes Problem. Es ist nicht klar, wie Sie eine Reihe von strengen Tests erstellen, um diese Frage sicher zu beantworten. Wir können die folgende Familie nicht kennen, sind aber sicher:

  • Es ist wichtig, einen festen Zeitplan zu haben.
  • Es ist wichtig, den Zeitplan anzupassen.

Am besten optimieren Sie während des Optimierungsprozesses unterschiedliche Lernraten. Mit einem bestimmten Zeitplan ist es wahrscheinlicher, dass das Modell eine gute Lernrate erreicht.

Bester Standard für Lernrate

Wir empfehlen standardmäßig eine der folgenden Lernratenraten:

  • Linearer Verlauf
  • Kosinuszerfall

Oft sind auch andere Familien gut erreichbar.

Warum enthalten einige Arbeiten komplizierte Lernpläne?

In vielen wissenschaftlichen Artikeln wird ein komplizierter, zeitweiser Verlauf der Abnahmerate verwendet. Die Leser fragen sich oft, wie die Autoren zu einem so komplizierten Zeitplan gekommen sind. Viele komplizierte LR-Zeitverlaufspläne sind das Ergebnis einer Feinabstimmung des Zeitplans in Form einer Ad-hoc-Leistung der Validierungssätze. Das bedeutet:

  1. Starten Sie einen einzelnen Trainingslauf mit einem einfachen LR-Zerfall (oder einer konstanten Lernrate).
  2. Das Training sollte laufen, bis die Leistung sich stagniert. In diesem Fall pausieren Sie das Training. Setzen Sie ihn dann mit einem möglicherweise konstanten LR-Abstiegszeitplan (oder einer kleineren konstanten Lernrate) ab diesem Punkt fort. Wiederholen Sie diesen Vorgang bis zum jeweiligen Stichtag.

Es ist im Allgemeinen keine gute Idee, den resultierenden Zeitplan zu kopieren, da der beste bestimmte Zeitplan für eine Reihe anderer Hyperparameter-Optionen streng ist. Wir empfehlen, den Algorithmus zu kopieren, der den Zeitplan generiert hat. Dies ist jedoch nur selten möglich, wenn der Zeitplan von einem beliebigen menschlichen Urteil erstellt wurde. Diese Art von Validierungsfehler-empfindlicher Zeitplan ist gut geeignet, wenn er vollständig automatisiert sein kann. Human-in-the-Loop-Zeitpläne, die eine Funktion des Validierungsfehlers sind, sind jedoch nicht reproduzierbar und sollten daher nicht reproduzierbar sein. Bevor Sie Ergebnisse mit einem solchen Zeitplan veröffentlichen, versuchen Sie, diesen vollständig zu reproduzieren.

Wie sollten die Hyperparameter von Adam abgestimmt werden?

Nicht alle Hyperparameter in Adam sind gleich wichtig. Die folgenden Faustregeln entsprechen unterschiedlichen Budgets für die Anzahl der Tests in einer Studie.

  • Wenn in der Studie weniger als 10 Tests durchgeführt wurden, sollten Sie nur die Lernbasis anpassen.
  • Wenn Sie 10 bis 25 Tests in einer Studie durchführen, passen Sie die Lernrate und beta_1 an.
  • Wenn Sie mehr als 25 Testzeiträume testen, passen Sie die Lernrate, beta_1 und epsilon an.
  • Wenn mehr als 25 Tests laufen, passen Sie außerdem beta_2 an.

Da es schwierig ist, allgemeine Regeln zu Suchbereichen anzugeben und wie viele Punkte Sie aus dem Suchbereich extrahieren sollten, gelten die in diesem Abschnitt genannten Faustregeln als grobe Orientierungshilfe.“