Hồi quy tuyến tính: Siêu tham số

Siêu tham số là các biến kiểm soát các khía cạnh khác nhau của quá trình đào tạo. Có ba siêu tham số phổ biến là:

Ngược lại, tham số là các biến số như trọng số và độ chệch, vốn là một phần của mô hình. Trong nói cách khác, siêu tham số là các giá trị mà bạn kiểm soát; thông số là giá trị mà mô hình này tính toán trong quá trình huấn luyện.

Tốc độ học

Tỷ lệ học là dấu phẩy động mà bạn đặt sẽ ảnh hưởng đến tốc độ mô hình hội tụ. Nếu tốc độ học quá thấp, mô hình có thể mất nhiều thời gian để hội tụ. Tuy nhiên, nếu tốc độ học quá cao, mô hình sẽ không bao giờ hội tụ, mà thay vào đó lại tăng xung quanh các trọng số và độ chệch tổn thất. Mục tiêu là chọn tốc độ học không quá cao hoặc quá thấp để mà mô hình hội tụ nhanh chóng.

Tốc độ học tập xác định mức độ thay đổi đối với trọng số và độ lệch trong mỗi bước của quá trình giảm độ dốc. Mô hình này làm tăng độ dốc theo tốc độ học tập để xác định các tham số của mô hình (trọng số và độ lệch) cho lần lặp tiếp theo. Ở bước thứ ba của tính năng chuyển màu gốc, "số lượng nhỏ" để di chuyển theo hướng độ dốc âm đề cập đến tốc độ học.

Sự khác biệt giữa các thông số của mô hình cũ và các thông số của mô hình mới là tỷ lệ với hệ số góc của hàm mất mát. Ví dụ, nếu hệ số góc là lớn, mô hình này có một bước tiến lớn. Nếu quy mô nhỏ, bạn chỉ cần thực hiện một bước nhỏ. Để ví dụ: nếu độ lớn của độ dốc là 2,5 và tốc độ học tập là 0,01, thì mô hình sẽ thay đổi tham số đến 0,025.

Tốc độ học lý tưởng giúp mô hình hội tụ ở một con số hợp lý lặp lại. Trong Hình 21, đường cong tổn thất thể hiện đáng kể mô hình cải thiện trong 20 lần lặp lại đầu tiên trước khi bắt đầu hội tụ:

Hình 21. Đường cong tổn hao cho thấy một độ dốc đứng trước khi làm phẳng.

Hình 21. Biểu đồ tổn thất cho thấy một mô hình được huấn luyện với tốc độ học tập hội tụ một cách nhanh chóng.

Ngược lại, tốc độ học quá nhỏ có thể phải lặp lại quá nhiều lần hội tụ. Trong Hình 22, đường cong tổn thất cho thấy mô hình chỉ tạo ra các thành phần nhỏ sau mỗi lần lặp lại:

Hình 22. Đường cong tổn thất cho thấy một độ dốc gần như 45 độ.

Hình 22. Biểu đồ tổn thất cho thấy một mô hình được huấn luyện với tốc độ học nhỏ.

Tốc độ học quá lớn không bao giờ hội tụ vì mỗi lần lặp lại làm cho khoản thua tăng lên hoặc tăng lên liên tục. Trong Hình 23, mức tổn thất đường cong cho thấy mô hình giảm dần rồi lại tăng dần mức hao tổn sau mỗi lần lặp lại. và trong Hình 24, tổn thất tăng lên ở các lần lặp lại sau:

Hình 23. Đường cong mất cho thấy đường thẳng lên và xuống.

Hình 23. Biểu đồ tổn hao cho thấy một mô hình được huấn luyện với tốc độ học tập quá lớn, trong đó đường cong tổn thất dao động mạnh, đi lên và giảm xuống khi số lần lặp lại tăng lên.

Hình 24. Đường cong tổn thất cho thấy mức ngừng sử dụng tăng lên ở các lần lặp lại sau

Hình 24. Biểu đồ tổn hao cho thấy một mô hình được huấn luyện với tốc độ học tập quá lớn, khiến đường cong tổn thất tăng lên đáng kể trong các lần lặp lại sau đó.

Bài tập: Kiểm tra kiến thức

Tốc độ học tập lý tưởng là bao nhiêu?
Tốc độ học tập lý tưởng là phụ thuộc vào vấn đề.
Mỗi mô hình và tập dữ liệu sẽ có tốc độ học lý tưởng riêng.
0,01
1.0

Kích thước lô

Kích thước lô là một siêu tham số là số lượng ví dụ mà mô hình xử lý trước khi cập nhật trọng số và thành kiến. Bạn có thể cho rằng mô hình này nên tính toán mức tổn thất cho mọi trong tập dữ liệu trước khi cập nhật trọng số và độ chệch. Tuy nhiên, khi một chứa hàng trăm nghìn hoặc thậm chí hàng triệu ví dụ, sử dụng toán tử toàn bộ lô không hiệu quả.

Hai kỹ thuật phổ biến để có được độ dốc phù hợp trung bình mà không cần Hãy xem xét mọi ví dụ trong tập dữ liệu trước khi cập nhật trọng số và độ chệch giảm độ dốc ngẫu nhiênhiệu ứng chuyển màu ngẫu nhiên theo lô nhỏ hạ thấp độ cao:

  • Giảm độ dốc ngẫu nhiên (SGD): Chỉ sử dụng chế độ giảm độ dốc ngẫu nhiên một ví dụ duy nhất (kích thước lô là một) trên mỗi lần lặp. Được cung cấp đủ lặp lại, SGD hoạt động nhưng rất ồn. "Tiếng ồn" đề cập đến các biến thể trong khoảng thời gian làm cho lượng tổn thất tăng lên thay vì giảm xuống trong thời gian lặp lại. Từ khoá "ngẫu nhiên" điều này cho thấy một ví dụ bao gồm mỗi lô được chọn ngẫu nhiên.

    Hãy lưu ý trong hình sau đây mức độ biến động nhẹ khi mô hình cập nhật trọng số và độ chệch bằng cách sử dụng SGD, điều này có thể dẫn đến nhiễu trong tổn thất biểu đồ:

    Hình 25. Đường cong tổn thất dốc đứng phẳng và có nhiều biến động nhỏ.

    Hình 25. Mô hình được huấn luyện bằng phương pháp giảm độ dốc ngẫu nhiên (SGD) cho thấy độ nhiễu trong đường cong tổn hao.

    Lưu ý rằng việc sử dụng chế độ giảm độ dốc ngẫu nhiên có thể tạo ra nhiễu trong toàn bộ toàn bộ đường cong tổn thất, chứ không chỉ gần như hội tụ.

  • Giảm độ dốc ngẫu nhiên theo lô nhỏ (SGD nhỏ theo lô): Gói nhỏ giảm độ dốc ngẫu nhiên là sự cân bằng giữa toàn bộ lô và SGD. Để $ N $ số điểm dữ liệu, kích thước lô có thể là bất kỳ số nào lớn hơn 1 và dưới $ N $. Mô hình sẽ chọn các ví dụ được đưa vào mỗi lô một cách ngẫu nhiên, lấy trung bình độ dốc, sau đó cập nhật trọng số và độ chệch một lần cho mỗi lần lặp.

    Việc xác định số lượng ví dụ cho mỗi lô phụ thuộc vào tập dữ liệu và tài nguyên điện toán có sẵn. Nhìn chung, kích thước lô nhỏ hoạt động như SGD và các kích thước lô lớn hơn sẽ hoạt động như phương pháp giảm độ dốc theo lô toàn bộ.

    Hình 26. Đường cong tổn thất dốc bắt đầu phẳng hơn, với các biến động nhỏ hơn nhiều gần điểm hội tụ.

    Hình 26. Mô hình được huấn luyện bằng SGD theo lô nhỏ.

Khi huấn luyện một mô hình, bạn có thể nghĩ rằng tiếng ồn là điều không mong muốn đặc điểm cần loại bỏ. Tuy nhiên, một lượng nhiễu nhất định có thể là điều tốt. Trong các mô-đun sau, bạn sẽ tìm hiểu cách nhiễu có thể hỗ trợ một mô hình tổng quát tốt hơn và tìm ra độ lệch và trọng số tối ưu trong mạng nơron mạng.

Các thời kỳ

Trong quá trình huấn luyện, epoch có nghĩa là đã xử lý mọi ví dụ trong tập huấn luyện một lần. Ví dụ: giả sử một tập huấn luyện với 1.000 ví dụ và quy mô lô nhỏ gồm 100 ví dụ, sẽ lấy mô hình 10 vòng lặp để hoàn thành một khoảng thời gian bắt đầu của hệ thống.

Quá trình huấn luyện thường đòi hỏi nhiều khoảng thời gian bắt đầu của hệ thống. Điều đó có nghĩa là hệ thống cần phải xử lý mỗi ví dụ trong tập huấn luyện nhiều lần.

Số thời gian bắt đầu của hệ thống là một siêu tham số mà bạn đặt trước khi mô hình bắt đầu huấn luyện. Trong nhiều trường hợp, bạn sẽ cần thử nghiệm số lượng thời gian bắt đầu của hệ thống để mô hình hội tụ. Nhìn chung, càng nhiều thời gian bắt đầu thì mô hình càng tốt, nhưng cũng mất nhiều thời gian hơn để đào tạo.

Hình 27. Một lô đầy đủ là toàn bộ tập dữ liệu, một lô nhỏ là một tập hợp con của tập dữ liệu và một thời gian bắt đầu của hệ thống là một lượt truyền đầy đủ thông qua 10 lô nhỏ.

Hình 27. Lô đầy đủ so với lô nhỏ.

Bảng sau đây mô tả cách kích thước lô và thời gian bắt đầu của hệ thống liên quan đến số lượng số lần một mô hình cập nhật các tham số.

Loại lô Khi trọng số và cập nhật độ lệch
Toàn bộ lô Sau khi mô hình xem xét tất cả ví dụ trong tập dữ liệu. Ví dụ: nếu một tập dữ liệu chứa 1.000 ví dụ và mô hình huấn luyện trong 20 thời gian bắt đầu của hệ thống, mô hình cập nhật các trọng số và độ lệch 20 lần, một lần cho mỗi thời gian bắt đầu của hệ thống.
Giảm độ dốc ngẫu nhiên Sau khi mô hình xem xét một ví dụ duy nhất trong tập dữ liệu. Ví dụ: nếu một tập dữ liệu chứa 1.000 ví dụ và thông tin về tàu hoả Sau 20 khoảng thời gian bắt đầu của hệ thống, mô hình sẽ cập nhật trọng số và độ lệch 20.000 lần.
Giảm độ dốc ngẫu nhiên theo lô nhỏ Sau khi mô hình xem các ví dụ trong mỗi lô. Ví dụ: nếu tập dữ liệu chứa 1.000 ví dụ và kích thước lô là 100, và mô hình này huấn luyện trong 20 khoảng thời gian bắt đầu của hệ thống, mô hình sẽ cập nhật các trọng số và 200 lần.

Bài tập: Kiểm tra kiến thức

1. Kích thước lô phù hợp nhất khi sử dụng SGD theo lô nhỏ?
Cái đó còn tùy
Kích thước lô lý tưởng phụ thuộc vào tập dữ liệu và tài nguyên điện toán
10 ví dụ mỗi lô
100 ví dụ trong mỗi lô
2. Câu nào sau đây là đúng?
Các lô lớn hơn không phù hợp với dữ liệu có nhiều ngoại lệ.
Nhận định này sai. Bằng cách lấy trung bình nhiều độ dốc hơn, kích thước lớn hơn kích thước lô có thể giúp giảm tác động tiêu cực của việc có các điểm ngoại lai trong dữ liệu.
Việc tăng gấp đôi tốc độ học có thể làm chậm quá trình tập luyện.
Câu này đúng. Việc tăng gấp đôi tốc độ học tập có thể dẫn đến tốc độ học quá lớn, nên dẫn đến trọng số đến "giải quyết", tăng khoảng thời gian cần thiết để hội tụ. Như mọi khi, các siêu tham số tốt nhất phụ thuộc vào tập dữ liệu và tài nguyên điện toán có sẵn.