Tìm kiếm gần như ngẫu nhiên

Bài này tập trung vào tìm kiếm gần như ngẫu nhiên.

Tại sao lại sử dụng tìm kiếm gần như ngẫu nhiên?

Lựa chọn ưu tiên của chúng tôi là tìm kiếm chuẩn ngẫu nhiên (dựa trên trình tự có độ chênh lệch thấp) trên các công cụ tối ưu hoá hộp đen yêu thích hơn khi được sử dụng như một phần của lặp lại quá trình điều chỉnh nhằm tối đa hoá thông tin chi tiết về vấn đề dò (điều chỉnh mà chúng tôi gọi là "giai đoạn khám phá"). tối ưu hoá Bayes và các giải pháp tương tự các công cụ phù hợp hơn cho giai đoạn khai thác. Tìm kiếm gần như ngẫu nhiên dựa trên các trình tự có độ chênh lệch thấp được thay đổi ngẫu nhiên có thể được coi là "tìm kiếm lưới có dao động, được xáo trộn", vì nó một cách thống nhất, nhưng một cách ngẫu nhiên, khám phá một không gian tìm kiếm nhất định và mở rộng các điểm tìm kiếm so với tìm kiếm ngẫu nhiên.

Ưu điểm của phương pháp tìm kiếm gần như ngẫu nhiên so với hộp đen tinh vi hơn các công cụ tối ưu hoá (ví dụ: tối ưu hoá Bayes, các thuật toán tiến hoá) bao gồm:

  • Việc lấy mẫu không gian tìm kiếm không thích ứng giúp bạn có thể thay đổi mục tiêu điều chỉnh trong phân tích sau bài tập mà không chạy lại thử nghiệm. Ví dụ: chúng tôi thường muốn tìm phiên bản thử nghiệm tốt nhất về mặt xác thực lỗi gặp phải tại bất kỳ thời điểm nào trong quá trình huấn luyện. Tuy nhiên, những giá trị không thích ứng tính chất của tìm kiếm gần như ngẫu nhiên giúp bạn có thể tìm ra thử nghiệm phù hợp nhất dựa trên lỗi xác thực cuối cùng, lỗi huấn luyện hoặc một số giải pháp thay thế mà không chạy lại bất kỳ thử nghiệm nào.
  • Hành vi tìm kiếm gần như ngẫu nhiên trong một cách nhất quán và có thể tái lập về mặt thống kê . Đáng lẽ phải có khả năng tái tạo nghiên cứu từ sáu tháng trước thậm chí nếu cách triển khai thuật toán tìm kiếm thay đổi, miễn là duy trì các thuộc tính đồng nhất như nhau. Nếu sử dụng kiểu Bayes phức tạp việc triển khai có thể thay đổi theo một cách giữa các phiên bản, khiến cho việc tái tạo tìm kiếm cũ trở nên khó khăn hơn nhiều. Không phải lúc nào bạn cũng có thể khôi phục về phương thức triển khai cũ (ví dụ: thì công cụ tối ưu hoá sẽ chạy dưới dạng dịch vụ).
  • Khả năng khám phá thống nhất không gian tìm kiếm giúp dễ dàng lập luận về kết quả và nội dung họ có thể đề xuất về không gian tìm kiếm. Ví dụ: nếu điểm tốt nhất trong việc truyền tải tìm kiếm gần như ngẫu nhiên ở ranh giới của không gian tìm kiếm, đây là một kết quả tốt (nhưng không hoàn toàn chắc chắn) tín hiệu cho biết giới hạn không gian tìm kiếm sẽ được thay đổi. Tuy nhiên, thuật toán tối ưu hoá hộp đen thích ứng có thể đã bỏ qua phần giữa không gian tìm kiếm do một số điểm không may mắn ngay cả khi mang lại những điểm tốt như nhau, vì Đây có phải là tính không đồng nhất, một thuật toán tối ưu hoá tốt không? cần sử dụng để tăng tốc độ tìm kiếm.
  • Chạy số lượng thử nghiệm khác nhau song song so với tuần tự không tạo ra kết quả khác biệt về mặt thống kê khi sử dụng phương pháp tương tự ngẫu nhiên tìm kiếm (hoặc các thuật toán tìm kiếm không thích ứng khác), không giống với các thuật toán.
  • Các thuật toán tìm kiếm tinh vi hơn có thể không phải lúc nào cũng xử lý các kết quả không khả thi điểm chính xác, đặc biệt là khi các điểm đó không được thiết kế bằng mạng nơron điều chỉnh siêu tham số.
  • Tìm kiếm chuẩn ngẫu nhiên rất đơn giản và hoạt động đặc biệt hiệu quả khi điều chỉnh nhiều lần các phiên bản thử nghiệm đang chạy song song. Theo giai thoại1, rất khó để thuật toán thích ứng vượt qua tìm kiếm gần như ngẫu nhiên có ngân sách gấp đôi, đặc biệt khi có nhiều thử nghiệm cần được chạy song song (và do đó có rất ít cơ hội để thực hiện sử dụng kết quả thử nghiệm trước đó khi khởi chạy các thử nghiệm mới). Không có chuyên môn về tối ưu hoá Bayes và các hộp đen nâng cao khác phương pháp tối ưu hoá của bạn, có thể bạn sẽ không đạt được lợi ích mà chúng mang lại, về nguyên tắc, có thể cung cấp. Khó đo điểm chuẩn nâng cao các thuật toán tối ưu hoá hộp đen trong việc điều chỉnh mô hình học sâu thực tế . Chúng là một lĩnh vực nghiên cứu hiện tại rất tích cực và những thuật toán tinh vi hơn đi kèm với những sai lầm riêng của chúng người dùng thiếu kinh nghiệm. Các chuyên gia về các phương pháp này có thể có được kết quả tốt, nhưng trong điều kiện song song cao, không gian tìm kiếm và ngân sách có xu hướng quan trọng hơn rất nhiều.

Tuy nhiên, nếu tài nguyên điện toán của bạn chỉ cho phép một số ít chạy song song và bạn có đủ khả năng chạy nhiều phiên bản thử theo trình tự, Việc tối ưu hoá Bayes trở nên hấp dẫn hơn nhiều mặc dù việc tối ưu hoá khó diễn giải kết quả điều chỉnh hơn.

Vizier nguồn mởcách triển khai cơ chế bán ngẫu nhiên tìm kiếm. Đặt algorithm="QUASI_RANDOM_SEARCH" trong cách sử dụng Vizier này ví dụ. Có một phương thức triển khai thay thế trong các quá trình quét siêu thông số này ví dụ. Cả hai cách triển khai này đều tạo ra chuỗi Halton cho một lượt tìm kiếm nhất định dấu cách (nhằm triển khai chuỗi Halton xáo trộn, dịch chuyển như được đề xuất trong Siêu tham số quan trọng: Không ngẫu nhiên, Không Khóc.

Nếu thuật toán tìm kiếm gần như ngẫu nhiên dựa trên trình tự có độ chênh lệch thấp không sẵn có, có thể thay thế phép tìm kiếm đồng nhất ngẫu nhiên giả, mặc dù cách này có thể kém hiệu quả hơn một chút. Trong 1-2 phương diện, tìm kiếm lưới cũng có thể được chấp nhận, mặc dù không phải ở kích thước cao hơn. (Xem Bergstra và Bengio, 2012).

Cần bao nhiêu lần thử để có kết quả tốt với tìm kiếm bán ngẫu nhiên?

Không có cách nào để xác định số lượng bản dùng thử cần thiết để kết quả tìm kiếm gần như ngẫu nhiên nói chung, nhưng bạn có thể xem xét ví dụ cụ thể. Như Hình 3 cho thấy, số lượng thử nghiệm trong một nghiên cứu có thể có tác động đáng kể đến kết quả:

Biểu đồ hộp thể hiện tỷ lệ lỗi xác thực (trục y) so với ngân sách điều chỉnh (trục x),
          trong đó ngân sách điều chỉnh là số lần thử. Giá trị trung bình
          thường giảm khi ngân sách điều chỉnh tăng.

Hình 3: ResNet-50 được điều chỉnh trên ImageNet với 100 lượt thử. Bằng cách sử dụng phương pháp tự thân khởi nghiệp, các mức ngân sách điều chỉnh khác nhau đã được mô phỏng. Biểu đồ hộp cho thấy hiệu suất tốt nhất đối với từng ngân sách thử nghiệm được lập biểu đồ.

 

Lưu ý những điều sau về Hình 3:

  • Phạm vi liên phần tư khi 6 thử nghiệm được lấy mẫu lớn hơn nhiều so với khi lấy mẫu 20 phiên bản.
  • Ngay cả với 20 lần thử, sự khác biệt giữa đặc biệt may mắn và không may mắn nghiên cứu có thể lớn hơn mức thay đổi thông thường giữa các lần huấn luyện lại của mô hình này trên các hạt giống ngẫu nhiên khác nhau, với các siêu tham số cố định, mà đối với khối lượng công việc này có thể vào khoảng +/- 0,1% đối với tỷ lệ lỗi xác thực là ~23%.

  1. Ben Recht và Kevin Jamieson chỉ ra sức mạnh Tìm kiếm ngẫu nhiên ngân sách gấp 2 lần là đường cơ sở ( Giấy siêu băng tần đưa ra các đối số tương tự), nhưng chắc chắn có thể tìm được cụm từ tìm kiếm không gian và vấn đề trong đó tối ưu hoá công nghệ tiên tiến Bayes các kỹ thuật phá vỡ tìm kiếm ngẫu nhiên giúp tăng gấp đôi ngân sách. Tuy nhiên, trong vượt qua tìm kiếm ngẫu nhiên ở mức ngân sách gấp 2 lần trở nên khó khăn hơn nhiều trong chế độ song song cao vì phương pháp tối ưu hoá Bayes không có cơ hội quan sát kết quả của các thử nghiệm trước đó.