Wyszukiwanie quasi-losowe

Ta jednostka dotyczy wyszukiwania quasilosowego.

Dlaczego warto korzystać z wyszukiwania quasi-losowego?

Wyszukiwanie quasi-losowe (oparte na sekwencjach o niskiej rozbieżności) ma pierwszeństwo przed bardziej zaawansowanymi narzędziami do optymalizacji, gdy są używane w ramach iteracyjnego procesu dostrajania, aby zmaksymalizować wgląd w problem dostrajania (tzw. fazę eksploracji). Na etapie eksploatacji bardziej odpowiednie są optymalizacje Bayesa i podobne narzędzia. Wyszukiwanie quasi-losowe oparte na losowych przesuniętych sekwencjach o niskiej rozbieżnościach można uznać za „wyszukiwanie z zakłóconym ułożeniem w siatce”, ponieważ odbywa się w sposób jednolity, ale losowy, bada daną przestrzeń wyszukiwania i rozkłada punkty wyszukiwania bardziej niż losowe.

Zalety wyszukiwania quasi-losowego w porównaniu z bardziej zaawansowanymi narzędziami do optymalizacji czarnej pudełka (np. optymalizacja Bayesa, algorytmy ewolucyjne) to między innymi:

  • Nieadaptacyjne próbkowanie przestrzeni wyszukiwania umożliwia zmianę celu dostrajania w analizie post-hoc bez konieczności ponownego przeprowadzania eksperymentów. Na przykład zwykle chcemy znaleźć najlepszą próbę pod kątem błędu walidacji przeprowadzonego na dowolnym etapie trenowania. Jednak nieadaptacyjny charakter wyszukiwania quasi-losowego umożliwia znalezienie najlepszej próby na podstawie końcowego błędu weryfikacji, błędu trenowania lub innego wskaźnika oceny bez konieczności ponownego przeprowadzania eksperymentów.
  • Wyszukiwanie quasi-przypadkowe działa w spójny i statystycznie odtwarzalny sposób. Powinno być możliwe odtworzenie badania sprzed 6 miesięcy, nawet jeśli implementacja algorytmu wyszukiwania ulegnie zmianie, o ile zachowasz te same właściwości jednorodności. W przypadku zaawansowanego oprogramowania do optymalizacji Bayesa implementacja może się zmienić w istotny sposób między wersjami, co znacznie utrudnia odtworzenie starego wyszukiwania. Nie zawsze można przywrócić starą implementację (np. jeśli narzędzie do optymalizacji działa jako usługa).
  • Jednolite przeglądanie przestrzeni wyszukiwania ułatwia myślenie o wynikach i ich sugestiach na temat przestrzeni wyszukiwania. Jeśli na przykład najlepszy punkt przemierzania quasi-losowego wyszukiwania znajduje się na granicy przestrzeni wyszukiwania, jest to dobry (ale niezawodny) sygnał, że należy zmienić granice obszaru wyszukiwania. Jednak adaptacyjny algorytm optymalizacji może zaniedbywać środek przestrzeni wyszukiwania z powodu niepowodzeń wczesnych prób, nawet jeśli zawiera on równie dobre punkty, ponieważ to właśnie tego rodzaju niejednolitość jest potrzebna do przyspieszenia wyszukiwania przez dobry algorytm optymalizacji.
  • Prowadzenie różnego rodzaju prób równolegle i sekwencyjnie nie zapewnia statystycznie różnych wyników w przypadku korzystania z pozornych algorytmów wyszukiwania (lub innych nieadaptacyjnych algorytmów wyszukiwania), w przeciwieństwie do algorytmów adaptacyjnych.
  • Bardziej złożone algorytmy wyszukiwania mogą nie zawsze prawidłowo obsługiwać niemożliwe do wykonania punkty, zwłaszcza jeśli nie zostały zaprojektowane z myślą o dostrajaniu hiperparametrów sieci neuronowych.
  • Wyszukiwanie quasi-losowe jest proste i działa szczególnie dobrze, gdy równolegle odbywa się wiele prób dostrajania. Jeśli chodzi o analizy1, algorytm adaptacyjny bardzo trudno jest pokonać pozornie losowe wyszukiwanie, które ma dwukrotnie większy budżet, zwłaszcza gdy należy przeprowadzić wiele testów równolegle (dlatego przy uruchamianiu nowych testów mamy bardzo mało szans na wykorzystanie wyników z poprzednich prób). Bez specjalistycznej wiedzy w zakresie optymalizacji Bayesa i innych zaawansowanych metod optymalizacji możesz nie osiągnąć oczekiwanych korzyści, które są z zasady. Trudno porównać zaawansowane algorytmy optymalizacji czarnych skrzynek w realistycznych warunkach dostrajania deep learning. To bardzo aktywny obszar badań, a bardziej zaawansowane algorytmy stwarzają pewne pułapki dla niedoświadczonych użytkowników. Eksperci zajmujący się tymi metodami mogą uzyskać dobre wyniki, ale w warunkach wysokiego poziomu równoległości przestrzeń wyszukiwania i budżet mają zwykle większe znaczenie.

Jeśli jednak Twoje zasoby obliczeniowe pozwalają na równoległe przeprowadzanie tylko niewielkiej liczby prób i możesz sobie pozwolić na przeprowadzanie wielu prób w sekwencji, optymalizacja Bayesa staje się znacznie atrakcyjniejsza pomimo utrudnienia interpretacji wyników dostrajania.

Vizier typu open source ma implementację wyszukiwania quasi-losowego. Ustaw algorithm="QUASI_RANDOM_SEARCH" w tym przykładzie użycia Vizier. W tym przykładzie wyprzedzenia hiperparametrów znajduje się alternatywna implementacja. Obie te implementacje generują sekwencję Haltona dla danej przestrzeni wyszukiwania (ma to na celu zaimplementowanie przesuniętej, zaszyfrowanej sekwencji Haltona zgodnie z instrukcjami podanymi w sekcji Krytyczne hiperparametry: brak losowego parametru, brak płaczu).

Jeśli quasi-losowy algorytm wyszukiwania oparty na sekwencji o niskiej rozbieżnościach jest niedostępny, możesz zastąpić nim pseudolosowe jednolite wyszukiwanie, choć powinno to być nieco mniej skuteczne. W przypadku wymiarów 1–2 dopuszczalne jest również wyszukiwanie z użyciem siatki, ale nie przy wyższych wymiarach. (zob. Bergstra & Bengio, 2012 r.).

Ile prób jest potrzebnych, aby uzyskać dobre wyniki w przypadku wyszukiwania quasi-losowego?

Nie ma możliwości określenia, ile prób jest potrzebnych, aby uzyskać wyniki w przypadku wyszukiwania quasi-losowego, ale możesz przyjrzeć się konkretnym przykładom. Jak widać na Rysunku 3, liczba prób w badaniu może mieć znaczący wpływ na wyniki:

Wykres skrzynkowy odsetka błędów weryfikacji (oś Y) w porównaniu z budżetem dostrajania (oś X), gdzie budżet dostrajania to liczba prób. Średni odsetek błędów weryfikacji zwykle zmniejszał się wraz ze zwiększaniem budżetu dostrajania.

Rys. 3. Komponent ResNet-50 dostrojony w ImageNet z wykorzystaniem 100 prób. Podczas wczytywania symulowano różne kwoty dostrajania. Naniesione są wykresy skrzynkowe z najlepszą skutecznością dla każdego budżetu próbnego.

 

Kilka uwag na temat Rys. 3:

  • Zakresy międzykwartyli w przypadku 6 prób były znacznie większe niż w przypadku 20 prób.
  • Nawet przy 20 próbach różnica między szczególnie szczęśliwymi a nieszczęśliwymi badaniami jest prawdopodobnie większa niż typowa zmienność między ponownym trenowaniem tego modelu na różnych losowych nasionach ze stałymi hiperparametrami, które w przypadku tego obciążenia mogą wynosić około +/- 0,1% przy odsetku błędów weryfikacji na poziomie ok.23%.

  1. Ben Recht i Kevin Jamieson zauważyli, jak bardzo zaawansowane jest wyszukiwanie losowe o dwukrotnym budżecie (w publikacji Hyperband można znaleźć podobne argumenty), ale z pewnością można znaleźć obszary wyszukiwania i problemy, w których najnowocześniejsze Bayesowskie techniki optymalizacji pochłaniają losowe wyszukiwanie o 2-krotnie większym budżecie. Jednak w naszym przypadku pokonanie dwukrotnego budżetu w przypadku wyszukiwania losowego staje się znacznie trudniejsze w przypadku wysoce paralelizmu, ponieważ optymalizacja Bayesa nie ma możliwości obserwowania wyników poprzednich prób.