Mạng nơron: Cấu trúc

Để xem mạng nơron có thể giúp giải quyết các vấn đề phi tuyến tính như thế nào, hãy bắt đầu bằng cách biểu diễn mô hình tuyến tính dưới dạng biểu đồ:

3 vòng tròn màu xanh dương trên một hàng được nối với nhau bằng các mũi tên thành một vòng tròn màu xanh lục bên trên

Hình 3. Mô hình tuyến tính dưới dạng biểu đồ.

Mỗi vòng tròn màu xanh dương đại diện cho một tính năng nhập, còn vòng tròn màu xanh lục biểu thị tổng có trọng số của các giá trị đầu vào.

Chúng ta có thể thay đổi mô hình này như thế nào để cải thiện khả năng xử lý các vấn đề phi tuyến tính không?

Lớp ẩn

Trong mô hình được biểu thị bằng đồ thị sau, chúng tôi đã thêm một "lớp ẩn" giá trị trung gian. Mỗi nút màu vàng trong lớp ẩn là tổng có trọng số trong số giá trị nút đầu vào màu xanh dương. Kết quả là tổng màu vàng có trọng số nút.

3 vòng tròn màu xanh dương trong một hàng có gắn nhãn

Hình 4. Đồ thị của mô hình hai lớp.

Mô hình này có tuyến tính không? Có—kết quả của nó vẫn là một tổ hợp tuyến tính của đầu vào.

Trong mô hình được biểu diễn bằng đồ thị sau đây, chúng tôi đã thêm một ẩn thứ hai lớp tổng có trọng số.

3 vòng tròn màu xanh dương trong một hàng có gắn nhãn

Hình 5. Đồ thị của mô hình ba lớp.

Mô hình này có còn là mô hình tuyến tính không? Vâng, đúng vậy. Khi bạn biểu thị kết quả dưới dạng và rút gọn, bạn chỉ nhận được tổng có trọng số khác của thông tin đầu vào. Tổng này sẽ không lập mô hình hiệu quả vấn đề phi tuyến tính trong Hình 2.

Hàm kích hoạt

Để lập mô hình một vấn đề phi tuyến tính, chúng ta có thể trực tiếp đưa ra một phép phi tuyến tính. Chúng ta có thể chuyển từng nút lớp ẩn thông qua một hàm phi tuyến tính.

Trong mô hình được biểu thị bằng đồ thị sau, giá trị của mỗi nút trong Lớp ẩn 1 được một hàm phi tuyến biến đổi trước khi được truyền thành tổng có trọng số của lớp tiếp theo. Hàm phi tuyến này được gọi là chức năng kích hoạt.

Giống như hình trước, ngoại trừ một hàng gồm các vòng tròn màu hồng có nhãn "Lớp chuyển đổi phi tuyến tính" đã được thêm vào giữa hai lớp ẩn.

Hình 6. Đồ thị mô hình ba lớp có hàm kích hoạt.

Bây giờ chúng ta đã thêm hàm kích hoạt, việc thêm các lớp sẽ có nhiều tác động hơn. Việc xếp chồng phi tuyến tính trên các phi tuyến tính cho phép chúng tôi lập mô hình rất phức tạp mối quan hệ giữa đầu vào và đầu ra được dự đoán. Tóm lại, mỗi sẽ học một hàm phức tạp hơn, ở cấp cao hơn một cách hiệu quả thông qua đầu vào thô. Nếu bạn muốn nâng cao trực giác về cách hoạt động của quy trình này, hãy xem Bài đăng rất hay của Chris Olah trên blog.

Các hàm kích hoạt phổ biến

Hàm kích hoạt sigmoid sau đây chuyển đổi tổng có trọng số thành một giá trị nằm trong khoảng từ 0 đến 1.

$$F(x)=\frac{1} {1+e^{-x}}$$

Dưới đây là cốt truyện:

Hàm sigmoid

Hình 7. Hàm kích hoạt Sigmoid.

Hàm kích hoạt đơn vị tuyến tính đã chỉnh sửa sau đây (hoặc ReLU, cho ngắn) thường hoạt động tốt hơn một chút so với một hàm trơn tru như sigmoid, mà vẫn dễ tính toán hơn đáng kể.

$$F(x)=max(0,x)$$

Tính vượt trội của ReLU là dựa trên các phát hiện thực nghiệm, có thể là do ReLU mang lại có phạm vi phản hồi hữu ích hơn. Khả năng phản ứng của sigmoid giảm tương đối nhanh ở cả hai bên.

Hàm kích hoạt ReLU

Hình 8. Hàm kích hoạt ReLU.

Trên thực tế, mọi hàm toán học đều có thể đóng vai trò là hàm kích hoạt. Giả sử rằng \(\sigma\) đại diện cho hàm kích hoạt của chúng ta (Relu, Sigmoid hoặc bất kỳ tên nào khác). Do đó, giá trị của một nút trong mạng được cho trước như sau công thức:

$$\sigma(\boldsymbol w \cdot \boldsymbol x+b)$$

Tóm tắt

Mô hình của chúng tôi hiện có tất cả các thành phần tiêu chuẩn của những gì mọi người thường có nghĩa là khi họ nói "mạng nơron":

  • Một tập hợp các nút, tương tự như các nơron, được sắp xếp theo lớp.
  • Một tập hợp trọng số đại diện cho các kết nối giữa mỗi mạng nơron và lớp bên dưới nó. Lớp bên dưới có thể một lớp mạng nơron khác hoặc một loại lớp khác.
  • Một tập hợp các độ lệch, một độ lệch cho mỗi nút.
  • Một hàm kích hoạt chuyển đổi đầu ra của mỗi nút trong một lớp. Các lớp khác nhau có thể có các hàm kích hoạt khác nhau.

Lưu ý: mạng nơron không phải lúc nào cũng tốt hơn nhưng mạng nơron có cung cấp một phương án thay thế linh hoạt trong nhiều trường hợp.