준무작위 검색

이 단원에서는 유사 랜덤 검색에 중점을 둡니다.

유사 랜덤 검색을 사용하는 이유

유사 랜덤 검색 (불일치 시퀀스 기반)을 선호합니다. 고급 블랙박스 최적화 도구에 비해 이전 버전과의 호환성을 조정 문제( '탐색 단계'라고 합니다.) Bayesian 최적화 및 유사 항목 악용 단계에 더 적합하다는 점입니다 무작위로 이동한 낮은 불일치 시퀀스에 기반한 유사 무작위 검색은 "잡음이 있고 셔플된 그리드 검색"으로 생각할 수 있습니다. 균일하지만 주어진 검색 공간을 무작위로 탐색하고 검색 포인트를 분산합니다. 훨씬 더 강력합니다.

보다 정교한 블랙박스에 비해 유사 랜덤 검색의 장점 최적화 도구 (예: Bayesian 최적화, 진화 알고리즘) 포함:

  • 비적응형 검색 공간을 샘플링하면 실험을 재실행하지 않고 사후 분석에서 조정 목표 예를 들어 우리는 보통 검증 측면에서 최적의 시도를 찾고자 합니다. 오류를 발생시킵니다. 하지만 비적응형 배너는 준랜덤 검색의 특성상 최적의 시도를 찾을 수 있음 최종 검증 오류, 학습 오류 또는 기타 대안에 따라 재실행하지 않고 평가 측정항목을 측정할 수 있습니다.
  • 유사 무작위 검색은 일관되고 통계적으로 재현 가능한 방식으로 동작함 있습니다. 6개월 전의 연구 결과를 재현할 수 있다 하더라도 검색 알고리즘의 구현이 변경되면 은 동일한 균일성 속성을 유지합니다. 정교한 Bayesian을 사용하는 경우 구현 방식이 달라질 수 있으므로 이전 검색을 재현하기가 훨씬 더 어려워집니다. 이전 구현으로 롤백하는 것이 항상 가능하지는 않습니다 (예: 최적화 도구가 서비스로 실행됩니다.
  • 검색 공간을 균일하게 탐색하여 추론이 검색결과와 검색 공간에 대해 무엇을 제안할지에 대한 정보를 얻을 수 있습니다. 예를 들어 준랜덤 검색의 순회에서 최고 지점이 검색 공간의 경계에 있는 경우 적절하지만 완벽하지는 않습니다. 검색 공간 경계가 변경되어야 한다는 신호를 보냅니다. 하지만 적응형 블랙박스 최적화 알고리즘은 불운으로 인해 검색 공간의 중간을 간과했을 수 있음 똑같이 좋은 점수가 나왔더라도 말이죠. 좋은 최적화 알고리즘이 적합하지 않은 비균일성인지 사용해야 합니다.
  • 병렬 또는 순차적으로 시도 횟수를 다르게 실행 준랜덤을 사용할 때 통계적으로 다른 결과를 생성하지 않아야 함 검색 (또는 기타 비적응형 검색 알고리즘)을 지원합니다. 사용할 수 있습니다.
  • 보다 정교한 검색 알고리즘이 항상 불가능한 방식으로 처리하지는 못할 수도 있습니다. 특히 신경망으로 설계되지 않은 경우 포인트가 올바르게 초매개변수 조정을 염두에 두어야 합니다
  • 유사 랜덤 검색은 간단하며 다수의 미세 조정 시 특히 잘 작동합니다. 실행할 수 있습니다 일례로1 적응형 알고리즘이 예산의 2배를 차지하는 유사 무작위 검색(특히 여러 번의 시도가 있을 때) 동시에 실행되어야 하므로 (따라서 실제 작업을 실행할 기회가 거의 없습니다.) 새 시도를 시작할 때 이전 시험 결과 사용). Bayesian 최적화 및 기타 고급 블랙박스에 대한 전문성이 없는 경우 최적화 방법의 이점을 얻지 못할 수 있지만 제공 가능하다는 점입니다 고급을 벤치마킹하기 어려움 현실적인 딥 러닝 조정의 블랙박스 최적화 알고리즘 조건일 수 있습니다 이들은 현재 연구에서 매우 활발히 이루어지고 있는 분야이며, 더 정교한 알고리즘은 경험하지 못한 사용자에게 도움이 될 수 있습니다 이러한 방법의 전문가는 좋은 결과를 얻을 수 있습니다. 높은 동시 로드 조건에서는 검색 공간과 예산이 훨씬 더 중요하죠.

그러나 컴퓨팅 리소스가 여러 번의 시도를 순차적으로 실행할 수 있고 베이즈 최적화는 이전 버전과의 호환성을 해석하기가 더 어렵습니다.

오픈소스 Vizier유사 랜덤의 구현으로 검색을 사용하면 됩니다. 이 Vizier 사용에서 algorithm="QUASI_RANDOM_SEARCH"설정합니다. 예시를 참조하세요. 이 초매개변수 스윕에서 대체 구현이 존재합니다. 예시를 참조하세요. 두 구현은 모두 지정된 검색에 대한 Halton 시퀀스를 생성합니다. '공간'으로 이동되고 스크램블링된 할튼 수열을 다음에서 추천됨 중요 초매개변수: 임의 없음, 없음 울기

낮은 불일치 시퀀스에 기반한 유사 난수 검색 알고리즘이 유사 랜덤 유니폼 검색을 대신 사용할 수 있습니다. 이 경우 효율성이 약간 떨어질 수 있습니다. 1~2개의 측정기준으로 그리드 검색도 사용할 수 있지만 더 높은 차원에서는 허용되지 않습니다. (자세한 내용은 Bergstra 및 Bengio, 2012년).

유사 무작위 검색으로 좋은 결과를 얻기 위해 몇 번의 시도가 필요한가요?

얻기 위해 필요한 시도 횟수를 결정할 방법이 없습니다. 일반적으로 비슷한 무작위 검색 결과를 표시하지만 살펴보겠습니다 그림 3에서 볼 수 있듯이 연구의 시도 횟수는 결과에 상당한 영향을 미칠 수 있습니다.

검증 오류율 (y축)과 조정 예산 (x축)의 박스 플롯,
          여기서 조정 예산은 시도 횟수입니다. 평균 검증
          일반적으로 조정 예산이 증가함에 따라 오류율이 감소합니다.

그림 3: ImageNet에서 100회의 시도로 조정된 ResNet-50 부트스트랩을 사용하여 예산 조정을 다양하게 시뮬레이션했습니다. 각 시험 예산에 대한 최상의 실적이 상자로 표시되어 있습니다.

 

그림 3에서 다음 사항에 유의하세요.

  • 6번의 시도가 샘플링된 경우의 사분위수 범위가 훨씬 큼 더 높았습니다.
  • 20번의 시도에도 불구하고 특히 운과 운의 차이는 연구가 재학습 간의 일반적인 변이보다 클 가능성이 높음 모델이 고정된 초매개변수를 갖는 다른 랜덤 시드에 대해 이 워크로드의 경우 단일 VM에서 약 +/- 0.1% 약 23%의 검증 오류율을 보입니다

  1. 벤 레흐트 및 케빈 제이미슨 인식하는 2배의 예산으로 무작위 검색을 실행하는 것이 하이퍼밴드 자료 유사한 인수를 만드는 것) 물론 인맥에 관계없이 최첨단 베이즈 최적화가 구현되어 무작위 검색으로 예산의 두 배를 차지하는 무작위 검색을 압도합니다. 그러나 2배의 예산으로 무작위 검색을 능가하는 경험은 훨씬 더 어려워집니다. 베이즈 최적화가 더 이상 필요하지 않으므로 이전 시도의 결과를 관찰할 수 있습니다.