Wyszukiwanie quasi-losowe

Ta sekcja dotyczy quasi-losowego wyszukiwania.

Dlaczego warto korzystać z wyszukiwania quasi-losowego?

Preferowane jest wyszukiwanie quasi-losowe (na podstawie sekwencji o małych rozbieżnościach). nad bardziej wyszukanymi narzędziami do optymalizacji czarnego skrzynki, gdy są używane procesu dostrajania w celu uzyskania wglądu w problem dostrajania (co nazywamy „fazą eksploracji”). Optymalizacja Bayesa i podobne są bardziej odpowiednie na etapie wykorzystywania. W ramach quasi-losowego wyszukiwania opartego na losowo przesuniętych sekwencjach o niskiej rozbieżności uważa się je za „przekształcone, przetasowane wyszukiwanie w siatce”, ponieważ jest ono jednolite, losowo bada daną przestrzeń wyszukiwania i rozdziela punkty wyszukiwania częściej niż losowego wyszukiwania.

Zalety quasi-losowego wyszukiwania w porównaniu z bardziej zaawansowaną czarną szafą narzędzia optymalizacyjne (np. optymalizacja Bayesa, algorytmy ewolucyjne); uwzględnij:

  • Nieadaptacyjne próbkowanie przestrzeni wyszukiwania umożliwia dostrajanie w analizie post hoc bez ponownego uruchamiania eksperymentów. Na przykład zwykle chcemy znaleźć najlepszą wersję pod kątem walidacji. który może wystąpić na każdym etapie trenowania. Jednak nieadaptacyjna quasi-losowe wyszukiwanie pozwala znaleźć najlepszą próbę na podstawie ostatecznego błędu weryfikacji, błędu trenowania lub innej metody bez ponownego uruchamiania eksperymentów.
  • Przypadkowe wyszukiwanie działa w spójny i statystycznie powtarzalny sposób. Można odtworzyć badanie sprzed sześciu miesięcy, jeśli implementacja algorytmu wyszukiwania ulegnie zmianie, zachowuje te same właściwości jednolitości. Wyrafinowany Bayesian lub oprogramowania do optymalizacji, implementacja może ulec zmianie w ważnym między wersjami, co znacznie utrudnia odtworzenie starego wyszukiwania. Nie zawsze można przywrócić starszą implementację (np. narzędzie do optymalizacji jest uruchamiane jako usługa).
  • Jednolita eksploracja przestrzeni wyszukiwania ułatwia podejmowanie decyzji o wynikach i ich sugestiach dotyczących przestrzeni wyszukiwania. Na przykład, jeśli najlepszy punkt w przemierzaniu quasi-losowego wyszukiwania jest na granicy przestrzeni wyszukiwania, jest to dobre (ale nie niezawodne) wskazuje, że należy zmienić granice przestrzeni wyszukiwania. Jednak adaptacyjny algorytm optymalizacji Blackbox mogło zaniedbać środek obszaru wyszukiwania ze względu na pecha nawet jeśli mają równie dobre wyniki. Czy dobry algorytm optymalizacji to właśnie taka niejednorodność? jakie firma musi zastosować, aby przyspieszyć wyszukiwanie.
  • Równoległe i sekwencyjne przeprowadzanie testów różnych wyników nie dają statystycznie różnych wyników przy zastosowaniu quasi-losowego (lub inne nieadaptacyjne algorytmy wyszukiwania), w przeciwieństwie do algorytmów adaptacyjnych. za pomocą algorytmów.
  • Bardziej zaawansowane algorytmy wyszukiwania nie zawsze potrafią prawidłowe punkty, zwłaszcza jeśli nie zostały zaprojektowane z użyciem sieci neuronowej. dostrajanie hiperparametrów.
  • Przypadkowe wyszukiwanie jest proste i działa szczególnie dobrze w przypadku wielu dostrajania wersje próbne są przeprowadzane równolegle. Nawiasem mówiąc1, algorytm adaptacyjny bardzo trudno jest quasi-losowe wyszukiwanie, które ma dwukrotnie większy budżet, zwłaszcza w przypadku muszą działać równolegle (dlatego jest bardzo mało szans na to, wyników z poprzednich okresów próbnych przy uruchamianiu nowych wersji próbnych). Bez specjalistycznej wiedzy z optymalizacji Bayesa i innych zaawansowanych „czarnych skrzynek” mogą nie osiągnąć założonych metod optymalizacji, który może udostępniać. Trudno jest porównać ten format algorytmy optymalizacji Blackbox w realistycznym dostrajaniu deep learning warunków. To bardzo aktywny obszar badań. bardziej zaawansowane algorytmy mają własne pułapki i niedoświadczonych użytkowników. Eksperci zajmujący się tymi metodami osiągają dobre wyniki, ale w warunkach wysokiej równoległości przestrzeń wyszukiwania i budżet często ma większe znaczenie.

Jeśli jednak Twoje zasoby obliczeniowe pozwolą Ci na możesz równolegle przeprowadzać wiele prób w kolejności. Optymalizacja Bayesa staje się znacznie bardziej atrakcyjna, mimo że co utrudnia interpretację wyników.

Vizier open source implementacja quasi-losowego Ustaw algorithm="QUASI_RANDOM_SEARCH" w tym użyciu platformy Vizier przykład. Istnieje alternatywna implementacja w tym hiperparametrze przykład. Obie te implementacje generują sekwencję Haltona dla danego wyszukiwania spacja (mają na celu wdrożenie przesuniętej, zakodowanej sekwencji Haltona jako zalecane w Hiperparametry o znaczeniu krytycznym: bez losowych, nie Płacz.

Jeśli quasi-losowy algorytm wyszukiwania oparty na sekwencji o niskiej rozbieżności nie jest możesz zamiast tego wstawić pseudolosowe wyszukiwanie jednolite, chociaż może to być trochę mniej efektywne. W 1–2 wymiarach wyszukiwanie w siatce też jest dozwolone, ale nie w większych wymiarach. (Zobacz Bergstra i Bengio, 2012 r).

Ile prób jest potrzebnych do uzyskania dobrych wyników w przypadku quasi-losowego wyszukiwania?

Nie można określić, ile prób potrzeba do uzyskania z quasi-losowym wyszukiwaniem, ale możesz przyjrzeć się konkretne przykłady. Jak widać na Rysunku 3, liczba prób w badaniu mają znaczący wpływ na wyniki:

Wykres ramkowy odsetka błędów weryfikacji (oś Y) w porównaniu z budżetem dostrajania (oś X)
          gdzie budżet na dostrajanie to liczba prób. Średnia walidacja
          odsetek błędów zasadniczo spadł wraz ze wzrostem budżetu na dostrajanie.

Rysunek 3. Technologia ResNet-50 dostrojona za pomocą ImageNet w 100 próbach. Przy użyciu wczytywania symulowano różne kwoty budżetu dostrajania. Przedstawione są wykresy ramkowe o najwyższej skuteczności dla każdego budżetu na okres próbny.

 

Zwróć uwagę na te informacje na temat Rysunku 3:

  • Zakresy między kwartylami, w których próbkowano 6 prób, są znacznie większe niż przy próbkowaniu 20 prób.
  • Nawet po 20 próbach różnica między szczególnie szczęśliwym a nieszczęśliwym wynikiem badania są prawdopodobnie większe niż typowe różnice w kolejnych treningach dla różnych nasion losowych ze stałymi hiperparametrami, który dla tego zadania może wynosić około +/-0,1% w odsetek błędów walidacji wynosi ok. 23%.

  1. Ben Recht i Kevin Jamieson wskazano, jak silne są Losowe wyszukiwanie z dwukrotnością budżetu stanowi punkt odniesienia ( Papier hiperpasmowy przyjmuje podobne argumenty), ale z pewnością można znaleźć przestrzenie i problemy, w których najnowocześniejsza optymalizacja Bayesa niż w przypadku losowych wyszukiwań, który ma dwukrotnie większy budżet. Na stronie że dwukrotna liczba losowych wyszukiwań jest znacznie trudniejsza, w systemie wysokorównoległościowym, ponieważ optymalizacja Bayesa nie ma możliwości zapoznawać się z wynikami poprzednich prób.