Phương pháp truyền ngược là thuật toán huấn luyện phổ biến nhất cho mạng nơron. Điều này giúp phương pháp giảm độ dốc trở nên khả thi cho các mạng nơron nhiều lớp. Nhiều thư viện mã học máy (chẳng hạn như Keras) tự động xử lý tính năng hồi quy, vì vậy, bạn không cần tự thực hiện bất kỳ phép tính cơ bản nào. Hãy xem video sau đây để biết thông tin tổng quan về khái niệm cách hoạt động của phương pháp hồi quy ngược:
Các phương pháp hay nhất để huấn luyện mạng nơron
Phần này giải thích các trường hợp không thành công của phương pháp hồi quy ngược và cách phổ biến nhất để điều chỉnh mạng nơron.
Chuyển màu biến mất
Độ dốc cho các lớp mạng nơron thấp hơn (các lớp gần lớp đầu vào hơn) có thể trở nên rất nhỏ. Trong mạng sâu (mạng có nhiều lớp ẩn), việc tính toán các độ dốc này có thể liên quan đến việc lấy tích của nhiều hạng nhỏ.
Khi các giá trị chuyển màu tiến gần đến 0 cho các lớp thấp hơn, các chuyển màu được cho là "biến mất". Các lớp có độ dốc biến mất sẽ huấn luyện rất chậm hoặc hoàn toàn không huấn luyện.
Hàm kích hoạt ReLU có thể giúp ngăn chặn độ dốc biến mất.
Vạch chuyển vị trí nổ
Nếu trọng số trong một mạng rất lớn, thì độ dốc cho các lớp thấp hơn liên quan đến sản phẩm có nhiều số hạng lớn. Trong trường hợp này, bạn có thể có hiệu ứng chuyển màu bùng nổ: hiệu ứng chuyển màu quá lớn để hội tụ.
Việc chuẩn hoá theo lô có thể giúp ngăn chặn hiện tượng tăng dần, cũng như có thể làm giảm tốc độ học.
Đơn vị ReLU chết
Khi tổng trọng số của một đơn vị ReLU giảm xuống dưới 0, đơn vị ReLU có thể bị treo. Lớp này trả về giá trị 0, không đóng góp gì vào đầu ra của mạng, và các độ dốc không thể chảy qua lớp này trong quá trình truyền ngược. Khi nguồn độ dốc bị cắt, dữ liệu đầu vào cho ReLU có thể không bao giờ thay đổi đủ để đưa tổng trọng số trở lại trên 0.
Việc giảm tốc độ học có thể giúp các đơn vị ReLU không bị tắt.
Điều chỉnh dropout
Tuy nhiên, một hình thức chuẩn hoá khác, được gọi là chuẩn hoá bỏ qua, rất hữu ích cho mạng nơron. Công cụ này hoạt động bằng cách "bỏ qua" các lượt kích hoạt đơn vị một cách ngẫu nhiên trong một mạng cho một bước chuyển màu duy nhất. Bạn càng bỏ qua nhiều giá trị thì quá trình chuẩn hoá càng mạnh:
- 0.0 = Không có quy trình chuẩn hoá dropout.
- 1.0 = Rời khỏi tất cả các nút. Mô hình không học được gì.
- Giá trị từ 0,0 đến 1,0 = Hữu ích hơn.