Quasi-Zufallssuche

In diesem Modul geht es um die quasi-zufällige Suche.

Vorteile der quasi-Zufallssuche

Wir bevorzugen die quasi-zufällige Suche (auf der Grundlage von Sequenzen mit geringen Abweichungen). aufwendigere Blackbox-Optimierungstools, wenn sie als Teil eines iterativen Abstimmungsprozess, der den Einblick in das Abstimmungsproblem maximieren soll (was die wir als die „Explorative Datenanalyse“ bezeichnen. Bayes'sche Optimierung und Ähnliches und Tools für die Ausbeutungsphase geeigneter sind. Eine quasi zufällige Suche, die auf zufällig verschobenen Sequenzen mit geringer Diskrepanz basiert, als eine gemischte Rastersuche betrachtet, nach dem Zufallsprinzip, erkundet einen bestimmten Suchbereich und verteilt die Suchpunkte als Zufallssuche.

Vorteile der quasi-zufälligen Suche gegenüber komplexeren Blackboxes Optimierungstools (z.B. Bayes'sche Optimierung, evolutionäre Algorithmen) umfassen:

  • Durch das nicht adaptive Sampling des Suchbereichs können Änderungen das Abstimmungsziel in der Post-hoc-Analyse anpassen, ohne Tests noch einmal auszuführen. Zum Beispiel möchten wir in der Regel den besten Test in Bezug auf die Validierung finden. während des Trainings auftreten können. Die nicht adaptiven Die Art der quasi-zufälligen Suche macht es möglich, den besten Versuch, basierend auf dem endgültigen Validierungsfehler, dem Trainingsfehler oder einer alternativen Methode ohne erneute Ausführung von Tests.
  • Die Quasi-Zufallssuche verhält sich in einer konsistenten und statistisch reproduzierbaren Es sollte möglich sein, eine Studie von vor sechs Monaten zu reproduzieren, wenn sich die Implementierung des Suchalgorithmus ändert, behält die Einheitlichkeitseigenschaften bei. Wenn Sie die ausgeklügelte Bayes'sche Optimierungssoftware kann sich die Implementierung in einem wichtigen Bereich Versionen wechseln, was das Reproduzieren einer alten Suchanfrage erschwert. Es ist nicht immer möglich, ein Rollback auf eine alte Implementierung durchzuführen (z.B. wenn Das Optimierungstool wird als Service ausgeführt.
  • Die einheitliche Untersuchung des Suchbereichs macht es einfacher, zu den Ergebnissen und was sie zum Suchbereich vorschlagen könnten. Wenn beispielsweise der beste Punkt beim Durchlauf einer quasi-zufälligen Suche ist, sich an der Grenze des Suchbereichs befindet, ist dies zwar gut (aber nicht absolut sicher) signalisiert, dass die Suchraumgrenzen geändert werden sollen. Ein adaptiver Blackbox-Optimierungsalgorithmus könnte die Mitte des Suchbereichs aufgrund von Unglücksfällen vernachlässigt worden sein. auch wenn er zufällig gleich gute Punkte enthält, da er Ist genau diese Art von Ungleichförmigkeit, die ein guter Optimierungsalgorithmus die Sie ausführen müssen, um die Suche zu beschleunigen.
  • Die parallele und sequenzielle Ausführung einer unterschiedlichen Anzahl von Tests keine statistisch abweichenden Ergebnisse bei Verwendung der quasi-zufälligen oder anderen nicht-adaptiven Suchalgorithmen, im Gegensatz zu adaptiven Algorithmen.
  • Komplexere Suchalgorithmen verarbeiten manchmal nicht Punkte korrekt, insbesondere wenn sie nicht mit einem neuronalen Netzwerk die Hyperparameter-Abstimmung.
  • Die Quasi-Zufallssuche ist einfach und funktioniert besonders gut, wenn viele Feinabstimmungen Tests parallel laufen. Anekdotenhaft1, dass es für einen adaptiven Algorithmus sehr schwer ist, eine bestimmte quasi-zufällige Suche mit doppeltem Budget, besonders wenn viele Versuche parallel geschaltet werden. Daher besteht nur sehr wenige Möglichkeiten, Verwendung der Ergebnisse früherer Tests beim Start neuer Tests). Ohne Fachwissen in Bezug auf Bayes'sche Optimierung und andere erweiterte Blackboxes Optimierungsmethoden funktionieren, erzielen Sie möglicherweise nicht die Inhalte bereitstellen können. Es ist schwierig, die Leistungsfähigkeit Blackbox-Optimierungsalgorithmen für realistisches Deep Learning . Sie sind ein sehr aktiver Bereich der aktuellen Forschung. ausgefeiltere Algorithmen haben eigene Fehler, unerfahrene Nutzende. Fachleute für diese Methoden können gute Ergebnisse erzielen, aber bei hohen Parallelitätsbedingungen sind der Suchbereich und das Budget tendenziell spielt eine wichtige Rolle.

Wenn Ihre Rechenressourcen jedoch nur eine geringe Anzahl von parallel laufen, und Sie können sich viele Versuche leisten. Die Bayes'sche Optimierung wird viel attraktiver, obwohl die Abstimmungsergebnisse schwer zu interpretieren.

Open-Source Vizier wurde eine Implementierung einer quasi-zufälligen suchen. Legen Sie algorithm="QUASI_RANDOM_SEARCH" in dieser Vizier-Nutzung fest. Beispiel. Eine alternative Implementierung in diesem Hyperparameter-Sweeps ist vorhanden Beispiel Beide Implementierungen generieren eine Halton-Sequenz für eine bestimmte Suche Leerzeichen (zur Implementierung einer verschobenen, verschlüsselten Halton-Sequenz als empfohlen in Kritische Hyper-Parameter: kein Zufall, keine weinen.

Wenn ein Quasi-Zufallsalgorithmus, der auf einer Sequenz mit niedriger Diskrepanz basiert, können Sie stattdessen eine pseudo zufällige einheitliche Suche auch wenn dies wahrscheinlich etwas weniger effizient ist. In 1 bis 2 Dimensionen Rastersuche ebenfalls akzeptabel, jedoch nicht in höheren Dimensionen. (Siehe Bergstra und Bengio, 2012)

Wie viele Versuche sind erforderlich, um bei der quasi-zufälligen Suche gute Ergebnisse zu erzielen?

Es kann nicht ermittelt werden, wie viele Testläufe erforderlich sind, um mit quasi-zufälligen Suchen im Allgemeinen. Sie können sich konkrete Beispiele. Wie Abbildung 3 zeigt, kann die Anzahl der Versuche in einer Studie erheblichen Einfluss auf die Ergebnisse haben:

Boxdiagramm der Validierungsfehlerrate (y-Achse) im Vergleich zum Abstimmungsbudget (x-Achse)
          wobei das Abstimmungsbudget die Anzahl der Tests ist. Die mittlere Validierung
          Die Fehlerrate sank im Allgemeinen mit dem Anstieg des Abstimmungsbudgets.

Abbildung 3:ResNet-50 auf ImageNet mit 100 Tests abgestimmt. Mithilfe von Bootstrapping wurden verschiedene Beträge des Abstimmungsbudgets simuliert. Es sind Boxdiagramme mit den besten Leistungen für jedes Testbudget abgebildet.

 

Beachten Sie bei Abbildung 3 Folgendes:

  • Die Interquartilesbereiche sind bei der Stichprobe aus sechs Tests viel größer als bei einer Stichprobenerhebung von 20 Tests.
  • Der Unterschied zwischen besonders glücklich und unglücklich ist, auch bei 20 Versuchen Studien sind wahrscheinlich größer als die typische Abweichung zwischen erneut trainierten Stämmen auf verschiedenen zufälligen Seeds mit festen Hyperparametern, Dies kann für diese Arbeitslast etwa +/- 0,1% auf einer Validierungsfehlerrate bei etwa 23%.

  1. Ben Recht und Kevin Jamieson dargestellt, wie stark Zufallssuchanfragen mit dem doppelten Budget dienen als Basis (die Hyperband-Papier ähnliche Argumente, aber es ist sicherlich möglich, die Suche und Probleme, bei denen mit modernsten Bayes'schen Optimierungen Zufallssuchanfragen mit dem Doppelten des Budgets unterdrücken In unseren das Doppelte von Zufallssuchanfragen zu übertreffen ist, mit hoher Parallelität, da die bayessche Optimierung keine Möglichkeit die Ergebnisse früherer Versuche zu beobachten.