Mạng nơron đào tạo: Các phương pháp hay nhất

Phần này giải thích các trường hợp lỗi truyền ngược và cách phổ biến nhất để điều chỉnh mạng nơron.

Trường hợp lỗi

Có một số cách phổ biến khiến việc truyền ngược không chính xác.

Chuyển màu biến mất

Độ dốc cho các lớp thấp hơn (gần với đầu vào hơn) có thể trở nên rất nhỏ. Trong các mạng sâu, việc tính toán các chuyển màu này có thể liên quan đến việc lấy sản phẩm của nhiều thuật ngữ nhỏ.

Khi độ dốc biến mất về 0 đối với các lớp thấp hơn, các lớp này sẽ huấn luyện rất chậm hoặc hoàn toàn không hoạt động.

Hàm kích hoạt ReLU có thể giúp ngăn chặn việc chuyển màu (gradient) biến mất.

Dải chuyển màu đang nổ

Nếu trọng số trong mạng là rất lớn, thì màu chuyển tiếp cho các lớp thấp hơn sẽ liên quan đến các sản phẩm của nhiều số hạng lớn. Trong trường hợp này, bạn có thể có các hiệu ứng chuyển màu (gradient) bùng nổ: các màu chuyển tiếp có kích thước quá lớn nên không hội tụ được.

Quá trình chuẩn hoá theo nhóm có thể giúp ngăn chặn hiện tượng chuyển màu nổ, cũng như làm giảm tốc độ học.

Đơn vị ReLU bị hỏng

Khi tổng có trọng số của một đơn vị ReLU giảm xuống dưới 0, đơn vị ReLU có thể bị kẹt. Lớp này không tạo ra lượt kích hoạt nào, không đóng góp gì vào đầu ra của mạng và tính năng chuyển màu (gradient) không còn có thể truyền qua mạng này trong quá trình truyền ngược. Khi nguồn chuyển màu bị cắt bớt, dữ liệu đầu vào cho ReLU có thể chưa bao giờ thay đổi đủ để đưa tổng có trọng số trở lại trên 0.

Việc giảm tốc độ học có thể giúp các đơn vị ReLU không biến mất.

Quy trình bỏ học

Tuy nhiên, có một hình thức chính quy khác, được gọi là Dropout, rất hữu ích cho mạng nơron. Tính năng này hoạt động bằng cách "bỏ qua" các lần kích hoạt đơn vị ngẫu nhiên trong mạng cho một bước chuyển màu duy nhất. Bạn càng bỏ ngang nhiều lần, việc điều chỉnh càng chặt chẽ:

  • 0.0 = Không chính quy bỏ học.
  • 1.0 = Loại bỏ mọi thứ. Mô hình này không học hỏi điều gì.
  • Giá trị từ 0,0 đến 1,0 = Hữu ích hơn.