Trang này được dịch bởi Cloud Translation API.

Giảm tổn thất: Dốc dốc

Sơ đồ phương pháp lặp lại (Hình 1) có một hộp gợn sóng tay màu xanh lục có tiêu đề "Tính toán bản cập nhật thông số". Giờ chúng tôi sẽ thay thế bụi thần tiên thuật toán đó bằng một thứ gì đó quan trọng hơn.

Giả sử chúng ta có thời gian và tài nguyên điện toán để tính toán tổn thất cho tất cả các giá trị có thể có của $w_1$. Đối với loại bài toán hồi quy mà chúng tôi đã kiểm tra, biểu đồ thua lỗ so với $w_1$ sẽ luôn là dạng lồi. Nói cách khác, cốt truyện sẽ luôn có dạng bát, tương tự như sau:

Biểu đồ một đường cong hình chữ U, với trục tung được gắn nhãn 'giảm' và trục ngang được gắn nhãn giá trị của trọng số w i.

Hình 2. Bài toán hồi quy dẫn đến sự sụt giảm lồi so với biểu đồ trọng lượng.

Các bài toán lồi chỉ có một giá trị tối thiểu; tức là chỉ có một vị trí có hệ số góc chính xác bằng 0. Mức tối thiểu đó là nơi hàm mất hội tụ.

Việc tính toán hàm tổn thất cho mọi giá trị có thể hình dung của $w_1$trên toàn bộ tập dữ liệu sẽ là cách không hiệu quả để tìm điểm hội tụ. Hãy tìm hiểu một cơ chế tốt hơn (rất phổ biến trong công nghệ học máy) có tên là giảm độ chuyển màu (gradient).

Giai đoạn đầu tiên của quá trình giảm độ dốc là chọn một giá trị bắt đầu (điểm bắt đầu) cho $w_1$. Điểm xuất phát không quan trọng nhiều; do đó, nhiều thuật toán chỉ đặt $w_1$ thành 0 hoặc chọn một giá trị ngẫu nhiên. Hình sau đây cho thấy chúng tôi đã chọn điểm bắt đầu lớn hơn 0 một chút:

Biểu đồ một đường cong hình chữ U. Một điểm nằm ở khoảng giữa phía bên trái của đường cong được gắn nhãn 'Điểm bắt đầu'.

Hình 3. Điểm xuất phát của phương pháp giảm độ dốc.

Sau đó, thuật toán giảm độ dốc sẽ tính toán độ dốc của đường cong mất dữ liệu tại điểm bắt đầu. Ở Hình 3, độ dốc của tổn thất tương đương với dẫn xuất (độ dốc) của đường cong và cho bạn biết hướng nào "ấm" hơn hay "đậm hơn". Khi có nhiều trọng số, gradient là vectơ của các đạo hàm riêng tính theo trọng số.

Nhấp vào biểu tượng dấu cộng để tìm hiểu thêm về đạo hàm từng phần và độ dốc.

Toán học xoay quanh công nghệ học máy thật thú vị và chúng tôi rất vui vì bạn đã nhấp vào đường liên kết để tìm hiểu thêm. Tuy nhiên, xin lưu ý rằng TensorFlow xử lý tất cả các phép tính toán chuyển màu cho bạn, vì vậy, bạn thực sự không phải hiểu về cách tính toán được cung cấp ở đây.

Đạo hàm từng phần

Hàm nhiều biến là hàm có nhiều đối số, chẳng hạn như:

$$f(x,y) = e^{2y}\sin(x)$$

Đạo hàm một phần $f$ đối với $x$, được biểu thị như sau:

$$ \partial f \over \partial x $$

là đạo hàm của $f$ được coi là một hàm độc lập của $x$. Cách tìm những mục sau:

$$\partial f \over \partial x $$

bạn phải giữ hằng $y$ hằng (vì vậy $f$ nay là hàm của một biến $x$), và lấy đạo hàm thông thường của $f$với $x$. Ví dụ: khi $y$ được cố định ở mức 1, hàm trước đó sẽ trở thành:

$$ f(x) = e^2\sin(x) $$

Đây chỉ là hàm của một biến $x$có đạo hàm bằng:

$$ e^2\cos(x) $$

Nhìn chung, dựa trên $y$ cố định, đạo hàm riêng của $f$ với $x$ được tính như sau:

$$\frac{\partial f}{\partial x}(x,y) = e^{2y}\cos(x)$$

Tương tự, nếu chúng ta giữ $x$ cố định, đạo hàm riêng của $f$ tương ứng với $y$ :

$$ \frac{\partial f}{\partial y}(x,y) = 2e^{2y}\sin(x) $$

Theo trực quan, đạo hàm riêng cho bạn biết hàm thay đổi bao nhiêu khi bạn rối loạn một biến một chút. Trong ví dụ trước:

$$ \frac{\partial f}{\partial x} (0,1) = e^2 \approx 7.4 $$

Vì vậy, khi bạn bắt đầu ở $(0,1)$, hãy giữ $y$ không đổi và di chuyển $x$ một chút,$f$ sẽ thay đổi khoảng 7,4 lần số tiền bạn đã thay đổi $x$.

Trong công nghệ học máy, các đạo hàm riêng phần chủ yếu được dùng kết hợp với độ dốc của hàm.

Chuyển màu

Độ dốc của một hàm, được biểu thị như sau, là vectơ của đạo hàm riêng đối với tất cả các biến độc lập:

$$ \nabla f $$

Chẳng hạn, nếu:

$$ f(x,y) = e^{2y}\sin(x) $$

thì:

$$\nabla f(x,y) = \left(\frac{\partial f}{\partial x}(x,y), \frac{\partial f}{\partial y}(x,y)\right) = (e^{2y}\cos(x), 2e^{2y}\sin(x))$$

Xin lưu ý những điều sau:

$$\nabla f$$	Các điểm theo hướng tăng lớn nhất của hàm số.
$$ {-\nabla f} $$	Các điểm theo hướng giảm lớn nhất của hàm số.

Số lượng kích thước trong vectơ bằng với số lượng biến trong công thức cho $f$; nói cách khác, vectơ nằm trong không gian miền của hàm. Ví dụ: biểu đồ của hàm sau $f(x,y)$:

$$ f(x,y) = 4 + (x - 2)^2 + 2y^2 $$

khi được xem ở 3 chiều với $z = f(x,y)$ trông giống như một thung lũng với tối thiểu là $(2,0,4)$:

Độ dốc của $f(x,y)$ là vectơ hai chiều cho biết hướng$(x,y)$ di chuyển theo hướng nào để tăng tối đa chiều cao. Do đó, giá trị âm của hiệu ứng chuyển màu sẽ di chuyển theo hướng giảm chiều cao tối đa. Nói cách khác, giá trị âm của các điểm vectơ chuyển màu vào thung lũng.

Trong công nghệ học máy, màu chuyển tiếp được sử dụng khi giảm độ dốc. Chúng ta thường gặp một hàm mất dữ liệu gồm nhiều biến mà chúng ta đang cố gắng giảm thiểu. Chúng ta cố gắng thực hiện điều này bằng cách đi theo giá trị âm của độ dốc của hàm đó.

Lưu ý rằng vectơ chuyển màu là một vectơ, vì vậy, vectơ này có cả hai đặc điểm sau:

một hướng
độ lớn

Độ dốc luôn trỏ theo hướng tăng mạnh nhất trong hàm mất. Thuật toán giảm độ dốc sẽ thực hiện một bước theo hướng chuyển màu âm nhằm giảm tình trạng mất màu nhanh nhất có thể.

Biểu đồ một đường cong hình chữ U. Một điểm ở phía bên trái của đường cong được gắn nhãn 'Điểm bắt đầu'. Một mũi tên có nhãn 'gradient âm' trỏ từ điểm này sang bên phải.

Hình 4. Tính năng giảm chuyển màu phụ thuộc vào màu chuyển tiếp âm.

Để xác định điểm tiếp theo trên đường cong của hàm mất màu, thuật toán giảm độ dốc sẽ thêm một phần độ lớn của độ dốc vào điểm bắt đầu như minh hoạ trong hình sau đây:

Hình 5. Một bước chuyển màu sẽ đưa chúng ta đến điểm tiếp theo trên đường cong tổn thất.

Sau đó, quá trình giảm độ dốc sẽ lặp lại quá trình này, bao giờ gần mức tối thiểu.

Phương pháp lặp lại

Tiếp

Tốc độ học tập