Trong bài tập này, bạn sẽ xem lại biểu đồ dữ liệu về mức tiết kiệm nhiên liệu từ bài tập về Thông số. Nhưng lần này, bạn sẽ sử dụng phương pháp hạ dần để tìm hiểu các giá trị trọng số và độ lệch tối ưu cho một mô hình tuyến tính giúp giảm thiểu tổn thất.
Hoàn thành 3 nhiệm vụ bên dưới biểu đồ.
Tác vụ #1: Điều chỉnh thanh trượt Tốc độ học bên dưới biểu đồ để đặt tốc độ học là 0,03. Nhấp vào nút Start (Bắt đầu) để chạy quá trình giảm độ dốc.
Quá trình huấn luyện mô hình mất bao lâu để hội tụ (đạt giá trị tổn thất tối thiểu ổn định)? Giá trị MSE tại thời điểm hội tụ mô hình là bao nhiêu? Giá trị trọng số và độ lệch nào tạo ra giá trị này?
Nhấp vào biểu tượng dấu cộng để xem giải pháp của chúng tôi
Khi chúng ta đặt tốc độ học là 0,03, mô hình đã hội tụ sau khoảng 30 giây, đạt được MSE chỉ dưới 3 với các giá trị trọng số và độ lệch lần lượt là –2,08 và 23,098. Điều này cho thấy chúng ta đã chọn một giá trị tốc độ học phù hợp.
Tác vụ #2: Nhấp vào nút Reset (Đặt lại) bên dưới biểu đồ để đặt lại các giá trị Trọng số và Chiều lệch trong biểu đồ. Điều chỉnh thanh trượt Tốc độ học thành một giá trị khoảng 1,10e–5. Nhấp vào nút Start (Bắt đầu) để chạy thuật toán hạ gradient.
Bạn nhận thấy điều gì về thời gian huấn luyện mô hình để hội tụ lần này?
Nhấp vào biểu tượng dấu cộng để xem giải pháp
Sau vài phút, quá trình huấn luyện mô hình vẫn chưa hội tụ. Các bản cập nhật nhỏ đối với giá trị Trọng số và Độ lệch tiếp tục dẫn đến giá trị tổn thất thấp hơn một chút. Điều này cho thấy rằng việc chọn tốc độ học cao hơn sẽ giúp phương pháp hạ gradient tìm thấy các giá trị trọng số và độ lệch tối ưu nhanh hơn.
Tác vụ #3: Nhấp vào nút Reset (Đặt lại) bên dưới biểu đồ để đặt lại các giá trị Trọng số và Độ lệch trong biểu đồ. Điều chỉnh thanh trượt Tốc độ học lên đến 1. Nhấp vào nút Start (Bắt đầu) để chạy thuật toán hạ gradient.
Điều gì sẽ xảy ra với các giá trị tổn thất khi phương pháp giảm độ dốc chạy? Lần này, quá trình huấn luyện mô hình sẽ mất bao lâu để hội tụ?
Nhấp vào biểu tượng dấu cộng để xem giải pháp
Giá trị tổn hao biến động mạnh ở các giá trị cao (MSE trên 300). Điều này cho thấy tốc độ học quá cao và quá trình huấn luyện mô hình sẽ không bao giờ đạt được sự hội tụ.