Ricerca quasi casuale

Questa unità si concentra sulla ricerca quasi casuale.

Perché usare una ricerca quasi casuale?

La ricerca quasi casuale (basata su sequenze con bassa discrepanza) è la nostra preferenza. su strumenti di ottimizzazione blackbox più elaborati se utilizzati come parte di un che ha lo scopo di massimizzare l'insight sul problema dell'ottimizzazione (quali definiamo la "fase di esplorazione"). Ottimizzazione bayesiana e simili sono più appropriati per la fase di sfruttamento. Una ricerca quasi casuale basata su sequenze con variazioni casuali di scarsa discrepanza può potrebbe essere considerata una "ricerca a griglia tremagliata e ordinata", dato che è uniforme, ma in modo casuale, esplora un determinato spazio di ricerca e distribuisce i punti di ricerca rispetto alla ricerca casuale.

I vantaggi della ricerca quasi casuale rispetto a una blackbox più sofisticata Strumenti di ottimizzazione (ad es. ottimizzazione bayesiana, algoritmi evolutivi) include:

  • Il campionamento dello spazio di ricerca non adattivo consente di modificare l'obiettivo dell'ottimizzazione nell'analisi post hoc senza ripetere gli esperimenti. Ad esempio, di solito vogliamo trovare la prova migliore in termini di raggiunto in qualsiasi punto dell'addestramento. Tuttavia, il modello non adattiva la natura quasi casuale rende possibile trovare lo studio in base all'errore di convalida finale, all'errore di addestramento o ad altre metrica di valutazione senza ripetere gli esperimenti.
  • La ricerca quasi casuale si comporta in modo coerente e statisticamente riproducibile in molti modi diversi. Dovrebbe essere possibile riprodurre uno studio di sei mesi fa anche se l'implementazione dell'algoritmo di ricerca cambia, purché mantiene le stesse proprietà di uniformità. Se si utilizza un sofisticato progetto bayesiano software di ottimizzazione, l'implementazione potrebbe cambiare da una versione all'altra, rendendo molto più difficile riprodurre una ricerca precedente. Non è sempre possibile eseguire il rollback a una vecchia implementazione (ad es. lo strumento di ottimizzazione viene eseguito as a Service).
  • L'esplorazione uniforme dello spazio di ricerca consente di ragionare più facilmente sui risultati e su ciò che potrebbero suggerire in merito allo spazio di ricerca. Ad esempio, se il punto migliore nell'attraversamento di una ricerca quasi-casuale si trova al limite dello spazio di ricerca, è una buona soluzione (ma non infallibile) indica che i limiti dello spazio di ricerca devono essere modificati. Tuttavia, un algoritmo di ottimizzazione adattivo potrebbero aver trascurato il centro dello spazio di ricerca a causa di anche se contiene punti altrettanto buoni, dato che è questo esatto tipo di non uniformità che un buon algoritmo di ottimizzazione che deve impiegare per velocizzare la ricerca.
  • Eseguire un numero diverso di prove in parallelo o in sequenza consente di non producono risultati statisticamente diversi quando si utilizza ricerca (o altri algoritmi di ricerca non adattabili), a differenza della tecnologia degli algoritmi.
  • Algoritmi di ricerca più sofisticati potrebbero non gestire sempre correttamente, soprattutto se non sono progettati con una rete neurale dell'ottimizzazione degli iperparametri.
  • La ricerca quasi casuale è semplice e funziona particolarmente bene quando di Google Cloud vengono eseguite in parallelo. Sembra che1 sia molto difficile per un algoritmo adattivo superare una ricerca quasi casuale che ha il doppio del budget, soprattutto devono essere eseguite in parallelo (e quindi ci sono pochissime possibilità l'utilizzo dei risultati delle prove precedenti al momento del lancio di nuove prove). Senza esperienza nell'ottimizzazione bayesiana e in altre blackbox avanzate di ottimizzazione, potresti non ottenere i vantaggi che in linea di principio, in grado di fornire. È difficile fare un benchmark avanzato algoritmi di ottimizzazione blackbox in un'ottimizzazione realistica del deep learning le condizioni di traffico. Si tratta di un'area di ricerca attuale molto attiva e algoritmi più sofisticati presentano le loro insidie utenti inesperti. Gli esperti di questi metodi possono ottenere buoni risultati, ma in condizioni di parallelismo elevato, lo spazio di ricerca e il budget tendono a conta molto di più.

Detto questo, se le risorse di calcolo consentono solo un numero limitato in parallelo e puoi permetterti di eseguire molte prove in sequenza, L'ottimizzazione bayesiana diventa molto più interessante nonostante è più difficile interpretare i risultati dell'ottimizzazione.

Vizier open source ha l'implementazione di un sistema ricerca. Imposta algorithm="QUASI_RANDOM_SEARCH" in questo utilizzo di Vizier esempio. Esiste un'implementazione alternativa per lo sweep di questi iperparametri esempio. Entrambe queste implementazioni generano una sequenza Halton per una data ricerca (inteso a implementare una sequenza di Halton spostata e criptata consigliato in Iperparametri critici: nessuno casuale, no Pianto.

Se un algoritmo di ricerca quasi casuale basato su una sequenza a bassa discrepanza non è disponibile, è invece possibile sostituire la ricerca uniforme pseudocasuale, anche se probabilmente l'efficienza sarà leggermente inferiore. In 1-2 dimensioni, è accettabile anche la ricerca a griglia, anche se non in dimensioni superiori. (Vedi Bergstra e Bengio, 2012).

Quante prove sono necessarie per ottenere buoni risultati con una ricerca quasi casuale?

Non c'è modo di determinare quante prove sono necessarie per ottenere con una ricerca quasi casuale in generale, ma si possono esempi specifici. Come mostra la Figura 3, il numero di prove in uno studio può hanno un impatto sostanziale sui risultati:

Box plot del tasso di errore di convalida (asse y) e del budget di ottimizzazione (asse x)
          in cui il budget di ottimizzazione è il numero di prove. Il valore medio di convalida
          il tasso di errore generalmente diminuisce con l'aumento del budget di ottimizzazione.

Figura 3: ResNet-50 ottimizzato su ImageNet con 100 prove. Utilizzando il bootstrap, sono state simulate diverse quantità di budget di ottimizzazione. Vengono rappresentati i box plot delle migliori prestazioni per ogni budget della prova.

 

Nota quanto segue in merito alla Figura 3:

  • Gli intervalli interquartili in cui sono state campionate sei prove sono molto più grandi rispetto a quando sono state campionate 20 prove.
  • Anche con 20 prove, la differenza tra particolarmente fortunati e sfortunati sono probabilmente maggiori della variante tipica tra riaddestramenti di questo modello su differenti seed casuali, con iperparametri fissi, che per questo carico di lavoro potrebbe essere di circa +/- 0,1% su un tasso di errore di convalida di ~23%.

  1. Ben Recht e Kevin Jamieson ha indicato quanto sia forte La ricerca casuale con budget doppio è un valore di riferimento (il Carta Hyperband fa argomenti simili), ma è certamente possibile trovare ricerche spazi e problemi in cui l'ottimizzazione bayesiana tecniche di ricerca casuale con budget raddoppiato. Tuttavia, nei nostri che supera la ricerca casuale con un budget doppio diventa molto più difficile un regime di parallelismo elevato poiché l'ottimizzazione bayesiana non ha la possibilità osservare i risultati delle prove precedenti.