Ten załącznik zawiera kilka dodatkowych informacji o tempie nauczania.
Harmonogram spadku tempa nauki
Najlepszy harmonogram w okresie nauki dla rodziców to otwarty problem. Nie jest jasne, jak utworzyć rygorystyczne eksperymenty, które pozwolą odpowiedzieć na to pytanie. Mimo że nie wiemy, jaka jest najbliższa rodzina harmonogramów, jesteśmy pewni, że:
- Ważne jest, aby harmonogram nie był stały.
- Dostosowywanie harmonogramu jest bardzo ważne.
W ramach procesu optymalizacji różne współczynniki uczenia się sprawdzają się najlepiej w różnym czasie. Odpowiednia ramówka sprawia, że model może uzyskać dobre tempo uczenia się.
Spadek domyślnego współczynnika uczenia się
Polecamy jedną z tych rodzin z ostatnim okresem nauki:
- Rozpad liniowy
- Rozpad cosinusa
Wiele innych rodzin korzystających z harmonogramu też jest dobrych.
Dlaczego niektóre dokumenty mają skomplikowane harmonogramy nauki?
W wielu pracach akademickich stosowane są złożone harmonogramy uczenia się LR. Czytelnicy często się zastanawiają, jak ich autorzy dotarli do tak złożonego harmonogramu. W rezultacie wiele złożonych schematów spadku udziału z uwzględnieniem LR jest wynikiem dostrajania harmonogramu w ramach niezależnej skuteczności zbioru weryfikacji. Czyli:
- Rozpocznij pojedynczy trenowanie z prostym rozpadem LR (lub stałą częstotliwością uczenia się).
- Trenuj tak długo, jak chcesz. Jeśli tak się stanie, wstrzymaj trenowanie. Następnie wznawiaj ją od stabilnego harmonogramu rozpadu LR (lub stałego stałego okresu nauki). Powtórz ten proces (aż do terminu konferencji lub premiery).
Bezwarunkowe kopiowanie uzyskanego harmonogramu zazwyczaj nie jest dobrym pomysłem, ponieważ najlepszy harmonogram zależy od wielu innych hiperparametrów. Zalecamy skopiowanie algorytmu, który wygenerował harmonogram, choć jest to rzadko spotykane, jeśli jest on rozstrzygnięty przez człowieka. Ten typ harmonogramu weryfikacji pod kątem błędów jest bezpieczny, jeśli może być w pełni zautomatyzowany, ale harmonogramy z udziałem człowieka, które pełnią funkcję błędów weryfikacji, są skomplikowane i łatwe do odtworzenia, dlatego zalecamy ich unikać. Zanim opublikujesz wyniki korzystające z tego harmonogramu, spróbuj je w pełni odtworzyć.
Jak dostroić hiperparametry Adama?
Nie wszystkie hiperparametry w Adam są równie ważne. Poniższe reguły odpowiadają różnym „budżetom” dotyczącym liczby prób w badaniu.
- Jeśli w badaniu wykorzystano mniej niż 10 prób, dostrój tylko podstawowy poziom uczenia się.
- Jeśli w badaniu uwzględnione jest 10–25 prób, dopasuj tempo uczenia się i
beta_1
. - Jeśli używasz ponad 25 wersji próbnych, dostosowuj tempo uczenia się,
beta_1
iepsilon
. - Jeśli masz więcej niż 25 prób, dostrój ten
beta_2
.
Biorąc pod uwagę, jak trudno jest przedstawić ogólne reguły dotyczące przestrzeni wyszukiwania i ilu punktów należy użyć w przypadku tej przestrzeni, przyjrzyjmy się zasadom, które zostały w niej opisane.