Mạng nơron: Đào tạo bằng kỹ thuật lan truyền ngược

Backpropagation là phổ biến nhất để huấn luyện mạng nơron. Điều này giúp khả năng giảm độ dốc cho mạng nơron nhiều lớp. Nhiều thư viện mã trong học máy (chẳng hạn như Keras) tự động xử lý lan truyền ngược, nên bạn không cần thực hiện bất kỳ thao tác nào các phép tính cơ bản. Hãy xem video sau đây để biết tổng quan khái niệm về cách hoạt động của kỹ thuật lan truyền ngược:

Các phương pháp hay nhất để huấn luyện mạng nơron

Phần này giải thích các trường hợp lỗi của lan truyền ngược và phương pháp phổ biến để điều chỉnh mạng nơron.

Hiệu ứng chuyển màu

Độ dốc của nơron dưới các lớp mạng (các lớp gần lớp đầu vào) có thể trở nên rất nhỏ. Trong mạng sâu (mạng có nhiều lớp ẩn), thì việc tính toán các độ dốc này có thể liên quan đến việc lấy tích của nhiều cụm từ nhỏ.

Khi các giá trị độ dốc tiến gần đến 0 đối với các lớp thấp hơn, tô chuyển tiếp nói là "biến mất". Các lớp có gradient biến mất chạy rất chậm hoặc không nào.

Chức năng kích hoạt ReLU có thể giúp ngăn ngừa việc biến mất độ dốc.

Vạch chuyển màu nổ

Nếu trọng số trong một mạng rất lớn, thì độ dốc cho liên quan đến sản phẩm của nhiều cụm từ lớn. Trong trường hợp này, bạn có thể hiệu ứng chuyển màu bùng nổ: độ dốc quá lớn để hội tụ.

Chuẩn hoá hàng loạt có thể giúp ngăn chặn hiện tượng chuyển màu bùng nổ, cũng như có thể làm giảm tốc độ học tập.

Đơn vị ReLU chết

Sau khi tổng trọng số của đơn vị ReLU giảm xuống dưới 0, đơn vị ReLU có thể nhận được bị lỗi. Đầu ra là 0, không đóng góp gì vào đầu ra của mạng, và độ dốc không thể chạy qua trong quá trình lan truyền ngược. Có nguồn chuyển màu bị cắt, đầu vào cho ReLU có thể không bao giờ thay đổi đủ để đưa tổng có trọng số trở về trên 0.

Việc giảm tốc độ học có thể giúp các đơn vị ReLU không bị tắt.

Thường xuyên bỏ ngang

Vẫn còn một dạng điều chỉnh khác, được gọi là chuẩn hoá tỷ lệ bỏ học, rất hữu ích cho mạng nơron. Tính năng này hoạt động bằng cách "bỏ ngang" ngẫu nhiên các đơn vị kích hoạt trong mạng cho một bước chuyển màu. Bạn càng bỏ ngang thì quá trình điều chỉnh càng mạnh mẽ:

  • 0.0 = Không có điều chỉnh bỏ qua.
  • 1,0 = Bỏ tất cả các nút. Mô hình này không học được gì cả.
  • Giá trị giữa 0,0 và 1,0 = Hữu ích hơn.