Tốc độ học tập

Phụ lục này có một số thông tin bổ sung về tỷ lệ học tập.

Lịch biểu giảm dựa trên tốc độ học

Nhóm lịch biểu giảm dựa trên tốc độ học tập là một vấn đề ngỏ; chưa rõ cách xây dựng một tập hợp các thử nghiệm nghiêm ngặt để tự tin trả lời câu hỏi này. Mặc dù không biết lịch trình tốt nhất, nhưng chúng tôi tin chắc rằng:

  • Bạn cần có một số lịch biểu (không thay đổi).
  • Việc điều chỉnh lịch biểu đó rất quan trọng.

Các tốc độ học tập hoạt động tốt nhất tại những thời điểm khác nhau trong quá trình tối ưu hoá. Việc có một số loại lịch trình giúp mô hình có khả năng đạt được tốc độ học tập tốt hơn.

Mức giảm tỷ lệ học tập mặc định tốt nhất

Bạn nên sử dụng một trong hai nhóm giảm tốc độ học tập sau đây làm mặc định:

  • Giảm dần tuyến tính
  • Phân rã coin

Nhiều gia đình có lịch trình khác có lẽ cũng ổn.

Tại sao một số bài báo có lịch trình tốc độ học phức tạp?

Nhiều bài viết học thuật sử dụng lịch phân tích tỷ lệ học tập (LR) phức tạp. Độc giả thường thắc mắc vì sao tác giả đưa ra một lịch trình phức tạp như vậy. Nhiều lịch phân rã LR phức tạp là kết quả của việc điều chỉnh lịch biểu dưới dạng một hàm của hiệu suất tập hợp xác thực theo cách đặc biệt. Đó là:

  1. Bắt đầu một bài tập huấn luyện đơn giản với một số mức giảm của LR đơn giản (hoặc tốc độ học liên tục).
  2. Tiếp tục thực hiện bài tập cho đến khi hiệu suất có vẻ trì trệ. Nếu điều này xảy ra, hãy tạm dừng đào tạo. Sau đó, tiếp tục chạy với một lịch trình giảm dần LR phù hợp (hoặc cho tốc độ học liên tục nhỏ hơn) từ thời điểm này. Lặp lại quy trình này (cho đến khi hết thời gian hội nghị hoặc sự kiện ra mắt).

Thường thì việc sao chép lịch biểu kết quả thường không phải là một ý tưởng hay vì lịch biểu cụ thể tốt nhất sẽ nhạy cảm với nhiều lựa chọn siêu thông số khác. Bạn nên sao chép thuật toán tạo lịch trình, mặc dù điều này hiếm khi có thể xảy ra khi sự đánh giá của con người tùy ý tạo lịch trình. Bạn có thể sử dụng loại lịch biểu nhạy cảm với lỗi xác thực nếu lịch này có thể được tự động hóa hoàn toàn, nhưng lịch trình lặp lại do con người thực hiện là một chức năng của lỗi xác thực dễ bị gián đoạn và không dễ lặp lại, vì vậy bạn nên tránh sử dụng. Trước khi xuất bản kết quả sử dụng lịch biểu như vậy, vui lòng cố gắng tạo nội dung có thể mô phỏng đầy đủ.

Các thông số của Adam phải được điều chỉnh như thế nào?

Không phải tất cả các siêu thông số trong Adam đều quan trọng như nhau. Các quy tắc chung sau đây tương ứng với "ngân sách" khác nhau cho số lượt thử trong một nghiên cứu.

  • Nếu có dưới 10 lượt thử trong một nghiên cứu, bạn chỉ nên điều chỉnh tỷ lệ học (cơ sở).
  • Nếu có 10-25 lượt thử trong một nghiên cứu, hãy điều chỉnh tỷ lệ học và beta_1.
  • Nếu trên 25 lượt thử, hãy điều chỉnh tốc độ học, beta_1epsilon.
  • Nếu thực sự có hơn 25 lượt thử, hãy điều chỉnh thêm beta_2.

Căn cứ vào độ khó của việc cung cấp quy tắc chung về không gian tìm kiếm và số lượng điểm bạn nên lấy mẫu từ không gian tìm kiếm, hãy xem quy tắc chung được nêu trong phần này dưới dạng nguyên tắc chung."