Mạng nơron: Các nút và lớp ẩn

Cách xây dựng mạng nơron có khả năng tìm hiểu các tính phi tuyến tính, bắt đầu bằng cấu trúc mô hình quen thuộc sau: mô hình tuyến tính của biểu mẫu $y' = b + w_1x_1 + w_2x_2 + w_3x_3$.

Chúng ta có thể hình dung phương trình này như sau, trong đó $x_1$, $x_2$ và $x_3$ là ba nút đầu vào (màu xanh dương) và $y'$ là nút đầu ra của chúng ta (có màu xanh lục).

Bài tập 1

Trong mô hình trên, trọng số và Các giá trị độ lệch được ngẫu nhiên đã khởi chạy. Thực hiện các tác vụ sau để làm quen với giao diện và khám phá mô hình tuyến tính. Bạn có thể tạm thời bỏ qua trình đơn thả xuống Kích hoạt; chúng ta sẽ thảo luận về vấn đề này chủ đề này trong phần sau của học phần.

  1. Nhấp vào nút Phát (▶️) phía trên mạng để tính giá trị của Nút đầu ra cho các giá trị đầu vào $x_1 = 1.00$, $x_2 = 2.00$, và $x_3 = 3,00$.

  2. Nhấp vào nút thứ hai trong lớp đầu vào và tăng giá trị từ 2 lên 2,50. Xin lưu ý rằng giá trị của nút đầu ra sẽ thay đổi. Chọn đầu ra nút (màu xanh lục) và xem bảng điều khiển Tính toán để xem kết quả đã được tính toán.

  3. Nhấp vào nút đầu ra (màu xanh lục) để xem trọng số ($w_1$, $w_2$, $w_3$) và độ lệch ($b$). Giảm giá trị trọng lượng cho $w_3$ (xin nhắc lại, hãy lưu ý rằng giá trị của nút đầu ra và các phép tính bên dưới đã thay đổi). Sau đó, hãy tăng giá trị độ lệch. Xem cách những thay đổi này đã ảnh hưởng đến kết quả của mô hình.

Thêm các lớp vào mạng

Lưu ý rằng khi bạn điều chỉnh các giá trị trọng số và độ chệch của mạng theo Bài tập 1, việc này không thay đổi phép toán tổng thể mối quan hệ giữa đầu vào và đầu ra. Mô hình của chúng ta vẫn là mô hình tuyến tính.

Nhưng nếu chúng ta thêm một lớp khác vào mạng, ở giữa lớp đầu vào thì sao và lớp đầu ra là gì? Trong thuật ngữ mạng nơron, các lớp bổ sung giữa lớp đầu vào và lớp đầu ra được gọi là lớp ẩn và nút trong các lớp này được gọi là nơron.

Giá trị của mỗi nơron trong lớp ẩn được tính theo cách tương tự như đầu ra của mô hình tuyến tính: lấy tổng của tích của từng giá trị đầu vào của nó (các nơron trong lớp mạng trước đó) và một tham số trọng số duy nhất, và thiên kiến. Tương tự, các nơron trong lớp tiếp theo (ở đây là lớp đầu ra) được tính toán bằng cách sử dụng các giá trị nơron của lớp ẩn làm đầu vào.

Lớp ẩn mới này cho phép mô hình của chúng ta kết hợp lại dữ liệu đầu vào bằng một bộ thông số. Điều này có thể giúp mô hình của chúng ta tìm hiểu các mối quan hệ phi tuyến tính không?

Bài tập 2

Chúng tôi đã thêm một lớp ẩn chứa bốn nơron vào mô hình.

Nhấp vào nút Phát (▶️) phía trên mạng để tính giá trị của bốn nút lớp ẩn và nút đầu ra cho các giá trị đầu vào $x_1 = 1.00$, $x_2 = 2.00$ và $x_3 = 3.00$.

Sau đó, khám phá mô hình và sử dụng mô hình đó để trả lời các câu hỏi sau.

Có bao nhiêu tham số (trọng số và độ chệch) thực hiện việc này của các mô hình mạng?
4
Mô hình ban đầu của chúng tôi trong Bài tập 1 có bốn tham số: w11, w21, w31 và b. Bởi vì mô hình này có chứa có nhiều tham số hơn.
12
Xin lưu ý rằng tổng số tham số bao gồm cả hai tham số được dùng để tính toán các giá trị nút trong lớp ẩn từ giá trị đầu vào và các tham số dùng để tính giá trị đầu ra từ các giá trị nút trong lớp ẩn.
16
Lưu ý rằng tổng số lượng thông số bao gồm cả trọng số và tham số độ lệch.
21
Có 4 tham số được dùng để tính toán từng giá trị trong số 4 nút trong lớp ẩn – 3 trọng số (mỗi trọng số cho một giá trị đầu vào) và một độ lệch—tổng cộng bằng 16 tham số. Sau đó, có 5 thông số được sử dụng để tính toán giá trị đầu ra: 4 trọng số (một trọng số cho mỗi nút trong độ lệch) và độ lệch. Tổng cộng, mạng nơron này có 21 tham số.

Hãy thử sửa đổi các tham số của mô hình rồi quan sát hiệu quả đối với giá trị nút lớp ẩn và giá trị đầu ra (bạn có thể xem lại Bảng tính toán bên dưới để xem các giá trị này tính).

Mô hình này có thể học các hành vi phi tuyến tính không?

Nhấp vào từng nút trong lớp ẩn và nút đầu ra, rồi xem các phép tính dưới đây. Bạn nhận thấy điều gì tất cả các phép tính này không?
Không

Nếu bạn nhấp vào từng nút trong lớp ẩn và xem lại các phép tính bên dưới, bạn sẽ thấy rằng tất cả chúng đều tuyến tính (bao gồm phép nhân và phép cộng).

Sau đó, nếu bạn nhấp vào nút đầu ra và xem lại phép tính bên dưới, bạn sẽ thấy rằng phép tính này cũng là phép tính tuyến tính. Mô hình phân bổ tuyến tính các phép tính được thực hiện dựa trên kết quả của các phép tính tuyến tính. tuyến tính, nghĩa là mô hình này không thể học các hành vi phi tuyến tính.