Tìm kiếm gần như ngẫu nhiên

Đơn vị này tập trung vào phương pháp tìm kiếm gần như ngẫu nhiên.

Tại sao nên sử dụng tìm kiếm gần như ngẫu nhiên?

Tìm kiếm ngẫu nhiên (dựa trên trình tự có độ chênh lệch thấp) là ưu tiên của chúng tôi so với các công cụ tối ưu hoá hộp đen kỳ ảo hơn khi được sử dụng như một phần của quá trình điều chỉnh lặp lại nhằm tối đa hoá thông tin chi tiết về vấn đề điều chỉnh (mà chúng tôi gọi là "giai đoạn khám phá"). Phương pháp tối ưu hoá Bayes và các công cụ tương tự phù hợp hơn cho giai đoạn khai thác. Phương pháp tìm kiếm gần như ngẫu nhiên dựa trên các trình tự có độ chênh lệch thấp được dịch chuyển ngẫu nhiên có thể được coi là "tìm kiếm lưới xáo trộn, xáo trộn", vì phương pháp này đồng nhất, nhưng ngẫu nhiên, khám phá một không gian tìm kiếm nhất định và trải rộng các điểm tìm kiếm nhiều hơn so với tìm kiếm ngẫu nhiên.

Ưu điểm của việc tìm kiếm gần như ngẫu nhiên so với các công cụ tối ưu hoá hộp đen tinh vi hơn (ví dụ: tối ưu hoá Bayes, thuật toán tiến hoá) bao gồm:

  • Việc lấy mẫu không gian tìm kiếm một cách không thích ứng giúp bạn có thể thay đổi mục tiêu điều chỉnh trong quá trình phân tích hậu kỳ mà không cần chạy lại các thử nghiệm. Ví dụ: chúng tôi thường muốn tìm bản thử nghiệm tốt nhất xét về lỗi xác thực đạt được tại bất kỳ thời điểm nào trong quá trình huấn luyện. Tuy nhiên, tính chất không thích ứng của tìm kiếm gần như ngẫu nhiên giúp bạn có thể tìm thấy thử nghiệm phù hợp nhất dựa trên lỗi xác thực cuối cùng, lỗi huấn luyện hoặc một số chỉ số đánh giá thay thế mà không cần chạy lại bất kỳ thử nghiệm nào.
  • Tính năng tìm kiếm gần như ngẫu nhiên sẽ hoạt động theo cách nhất quán và có thể tái tạo về mặt thống kê. Bạn có thể tái tạo một nghiên cứu từ 6 tháng trước, ngay cả khi việc triển khai thuật toán tìm kiếm thay đổi, miễn là nghiên cứu đó duy trì cùng các thuộc tính nhất quán. Nếu bạn sử dụng phần mềm tối ưu hoá Bayesian tinh vi, thì việc triển khai có thể thay đổi theo một cách quan trọng giữa các phiên bản, khiến việc tái tạo nội dung tìm kiếm cũ trở nên khó khăn hơn nhiều. Không phải lúc nào bạn cũng có thể khôi phục về phương thức triển khai cũ (ví dụ: khi công cụ tối ưu hoá đang chạy dưới dạng một dịch vụ).
  • Dữ liệu khám phá thống nhất của công cụ này về không gian tìm kiếm giúp bạn dễ dàng lý giải về kết quả và những gợi ý của kết quả về không gian tìm kiếm. Ví dụ: nếu điểm tốt nhất trong quá trình truyền tải nội dung tìm kiếm gần như ngẫu nhiên là ở ranh giới của không gian tìm kiếm, thì đây là một tín hiệu tốt (nhưng không chắc chắn) rằng giới hạn không gian tìm kiếm nên được thay đổi. Tuy nhiên, một thuật toán tối ưu hoá hộp đen thích ứng có thể đã bỏ qua các phần giữa không gian tìm kiếm do một số thử nghiệm ban đầu không được mong đợi, ngay cả khi nó cũng chứa các điểm tốt tương đương, vì đây chính xác là loại không đồng nhất mà một thuật toán tối ưu hoá hiệu quả cần sử dụng để tăng tốc độ tìm kiếm.
  • Việc chạy số lượng thử nghiệm khác nhau song song so với tuần tự không tạo ra kết quả khác nhau có ý nghĩa thống kê khi sử dụng tìm kiếm gần như ngẫu nhiên (hoặc các thuật toán tìm kiếm không thích ứng khác), không giống như thuật toán thích ứng.
  • Các thuật toán tìm kiếm phức tạp hơn không phải lúc nào cũng xử lý chính xác các điểm không khả thi, đặc biệt là khi các thuật toán đó không được thiết kế bằng việc điều chỉnh siêu tham số mạng nơron.
  • Tìm kiếm quasi ngẫu nhiên rất đơn giản và đặc biệt hiệu quả khi nhiều phép thử điều chỉnh đang chạy song song. Có thể nói1, thuật toán thích ứng sẽ rất khó để đánh bại một lượt tìm kiếm ngẫu nhiên có ngân sách gấp 2 lần so với một lượt tìm kiếm ngẫu nhiên có ngân sách gấp 2 lần, đặc biệt là khi nhiều lượt thử cần chạy song song (và do đó có rất ít cơ hội tận dụng kết quả thử nghiệm trước đó khi chạy các lượt thử mới). Nếu không có chuyên môn về tối ưu hoá Bayes cũng như các phương pháp tối ưu hoá hộp đen nâng cao khác, về nguyên tắc, bạn có thể không đạt được những lợi ích mà chúng mang lại. Rất khó để đo điểm chuẩn các thuật toán tối ưu hoá hộp đen nâng cao trong các điều kiện điều chỉnh thực tế cho mô hình học sâu. Đây là một lĩnh vực rất tích cực trong nghiên cứu hiện tại và các thuật toán phức tạp hơn cũng đi kèm với những cạm bẫy riêng cho những người dùng chưa có kinh nghiệm. Các chuyên gia về các phương pháp này có thể thu được kết quả tốt. Nhưng trong điều kiện tải song song cao, không gian tìm kiếm và ngân sách có xu hướng quan trọng hơn rất nhiều.

Điều đó có nghĩa là nếu tài nguyên điện toán của bạn chỉ cho phép một số ít phép thử chạy song song và bạn có đủ khả năng chạy nhiều phép thử theo trình tự, thì tính năng tối ưu hoá Bayes sẽ trở nên hấp dẫn hơn nhiều mặc dù khiến kết quả điều chỉnh của bạn khó diễn giải hơn.

Vizier nguồn mở đã triển khai phương thức tìm kiếm gần như ngẫu nhiên. Đặt algorithm="QUASI_RANDOM_SEARCH" trong ví dụ về cách sử dụng Vizier này. Bạn có thể sử dụng một phương thức triển khai khác trong ví dụ về quét siêu tham số này. Cả hai cách triển khai này đều tạo ra trình tự Halton cho một không gian tìm kiếm nhất định (nhằm triển khai trình tự Halton đã dịch chuyển, xáo trộn theo đề xuất trong phần Siêu tham số quan trọng: Không ngẫu nhiên, Không có lượt khóc.

Nếu không có thuật toán tìm kiếm gần như ngẫu nhiên dựa trên trình tự có độ chênh lệch thấp, thì bạn có thể thay thế thuật toán tìm kiếm đồng nhất giả ngẫu nhiên, mặc dù cách này có thể kém hiệu quả hơn một chút. Trong 1–2 chiều, bạn cũng có thể tìm kiếm theo chế độ lưới, mặc dù không phải ở các chiều cao hơn. (Xem Bergstra và Bengio, 2012).

Cần bao nhiêu lượt thử để có kết quả tốt bằng phương thức tìm kiếm gần như ngẫu nhiên?

Không có cách nào để xác định số lượng lượt thử cần thiết để nhận được kết quả với phương thức tìm kiếm gần như ngẫu nhiên nói chung, nhưng bạn có thể xem các ví dụ cụ thể. Như Hình 3 cho thấy, số lượng phiên bản thử trong một nghiên cứu có thể có tác động đáng kể đến kết quả:

Biểu đồ hộp của tỷ lệ lỗi xác thực (trục y) so với ngân sách điều chỉnh (trục x), trong đó ngân sách điều chỉnh là số lần thử. Tỷ lệ lỗi xác thực trung bình thường giảm khi ngân sách điều chỉnh tăng.

Hình 3: ResNet-50 được điều chỉnh trên ImageNet với 100 lượt thử. Sử dụng phương pháp tự khởi động, các số tiền ngân sách điều chỉnh khác nhau đã được mô phỏng. Biểu đồ hiệu suất tốt nhất cho từng ngân sách thử nghiệm được lập biểu đồ.

 

Hãy lưu ý những điều sau đây về Hình 3:

  • Phạm vi liên vùng khi 6 thử nghiệm được lấy mẫu lớn hơn nhiều so với 20 thử nghiệm được lấy mẫu.
  • Ngay cả với 20 thử nghiệm, sự khác biệt giữa các nghiên cứu đặc biệt may mắn và không may mắn có thể lớn hơn mức biến động thông thường giữa các lần huấn luyện lại mô hình này trên các hạt ngẫu nhiên khác nhau, với siêu tham số cố định, với tải công việc này có thể vào khoảng +/- 0,1% với tỷ lệ lỗi xác thực ~23%.

  1. Ben Recht và Kevin Jamieson chỉ ra khả năng tìm kiếm ngẫu nhiên theo ngân sách 2X mạnh như một cơ sở (nghiên cứu siêu băng tần đưa ra những đối số tương tự), nhưng chắc chắn vẫn có thể tìm ra các không gian tìm kiếm và những vấn đề mà kỹ thuật tối ưu hoá Bayes hiện đại có thể nghiền ngẫm kết quả tìm kiếm ngẫu nhiên có ngân sách gấp đôi. Tuy nhiên, theo kinh nghiệm của chúng tôi, việc vượt qua hoạt động tìm kiếm ngẫu nhiên với ngân sách gấp 2 lần sẽ khó hơn nhiều trong chế độ song song cao vì phương pháp tối ưu hoá Bayes không có cơ hội quan sát kết quả của các lần thử trước.