Vùng kín

Quá tải nghĩa là tạo một mô hình khớp với (ghi nhớ) tập huấn luyện để gần như chắc chắn mô hình này sẽ không đưa ra được dự đoán chính xác về dữ liệu mới. Mô hình quá tải cũng tương tự như một phát minh hoạt động hiệu quả trong phòng thí nghiệm nhưng là vô giá trị trong thế giới thực.

Trong Hình 11, hãy tưởng tượng rằng mỗi hình dạng hình học đại diện cho vị trí của một cái cây trong một khu rừng hình vuông. Những hình thoi màu xanh dương đánh dấu vị trí của cây xanh tốt, trong khi các vòng tròn màu cam đánh dấu vị trí của cây bị bệnh.

Hình 11. Hình này chứa khoảng 60 dấu chấm, một nửa trong số đó
            cây khoẻ và nửa cây còn lại bị ốm.
            Cây khoẻ chủ yếu nằm ở góc phần tư phía đông bắc, mặc dù có một vài
            cây khỏe mạnh lẻn vào góc phần tư phía tây bắc. Cây bị bệnh
            chủ yếu nằm ở góc phần tư phía đông nam, nhưng có một số ít cây bị bệnh
            tràn vào các góc phần tư khác.
Hình 11. Bộ bài tập huấn luyện: vị trí của những cây khoẻ và bị bệnh trong một khu rừng hình vuông.

 

Dùng tinh thần vẽ bất kỳ hình dạng nào – đường thẳng, đường cong, hình bầu dục...bất kỳ thứ gì – để tách riêng phần cây khoẻ mạnh từ cây bị bệnh. Sau đó, mở rộng dòng tiếp theo để tìm hiểu một cách phân tách khả thi.

Các hình dạng phức tạp như trong Hình 12 đã phân loại thành công tất cả trừ hai phần tử cây cối. Nếu chúng ta hình dung về các hình dạng như một mô hình, thì đây là mô hình.

Mà có khó lắm không nhỉ? Một mô hình thực sự xuất sắc sẽ phân loại thành công các ví dụ mới. Hình 13 cho thấy điều gì sẽ xảy ra khi cùng một mô hình đó đưa ra các dự đoán về ví dụ từ tập kiểm thử:

Hình 13. Một loạt cây mới khoẻ mạnh và bị bệnh phủ lên trên
            mô hình được minh hoạ trong Hình 12. Mô hình này đã phân loại sai nhiều
            cây xanh.
Hình 13.Bộ kiểm thử: một mô hình phức tạp để phân biệt cây bị bệnh với cây khoẻ.

 

Vì vậy, mô hình phức tạp như trong Hình 12 đã làm rất tốt trên tập huấn luyện nhưng lại khá tệ trong bài kiểm thử. Đây là trường hợp cổ điển của một mô hình thêm tối đa dữ liệu vào tập dữ liệu huấn luyện.

Điều chỉnh kích cỡ khuôn hình, giúp việc mặc quá mức và thiếu sự ôm sát

Mô hình phải đưa ra dự đoán chính xác về dữ liệu mới. Tức là bạn đang muốn tạo ra một mô hình "phù hợp" dữ liệu mới.

Như bạn đã thấy, mô hình overfit đưa ra những dự đoán cực kỳ chính xác về quá trình huấn luyện đặt ra nhưng dự đoán kém về dữ liệu mới. Một người mẫu quần áo thậm chí không đưa ra dự đoán chính xác về dữ liệu huấn luyện. Nếu người mẫu mặc quần áo là giống như một sản phẩm hoạt động tốt trong phòng thí nghiệm nhưng lại kém hiệu quả trong thế giới thực, thì người mẫu quần áo giống như một sản phẩm thậm chí không thành công về phòng thí nghiệm.

Hình 14. Cốt truyện Descartes. Trục X được gắn nhãn 'chất lượng dự đoán
            về tập huấn luyện." Trục Y được gắn nhãn 'chất lượng dự đoán trên
            dữ liệu thực tế." Đường cong bắt đầu tại điểm gốc và tăng dần,
            nhưng sau đó lại rơi xuống nhanh chóng. Phần dưới bên trái của đường cong
            (chất lượng dự đoán thấp về dữ liệu trong thế giới thực và chất lượng thấp của
            dự đoán về tập huấn luyện) được gắn nhãn "mô hình phù hợp". Chiến lược phát hành đĩa đơn
            phần dưới bên phải của đường cong (chất lượng dự đoán thấp trên
            dữ liệu thực tế nhưng có chất lượng dự đoán cao đối với tập huấn luyện)
            được gắn nhãn 'mô hình quá mức'. Điểm cao nhất của đường cong (chất lượng cao
            các dự đoán về dữ liệu trong thế giới thực và chất lượng trung bình của các dự đoán
            trên tập huấn luyện) được gắn nhãn 'phù hợp với mô hình'.
Hình 14. Người mẫu mặc quần áo, vừa vặn và ôm sát.

 

Tổng quát là trái ngược với khái niệm khái quát hoá quá mức. Tức là một mô hình tổng quát hoá tốt tạo nên các dự đoán về dữ liệu mới. Mục tiêu của bạn là tạo ra một mô hình tổng quát hoá dữ liệu mới.

Phát hiện tình trạng quá cân

Những đường cong sau đây giúp bạn phát hiện tình trạng quá cân:

  • đường cong tổn thất
  • đường cong tổng quát

Đường cong tổn thất biểu thị mức tổn thất của một mô hình dựa trên số lần lặp lại huấn luyện. Đồ thị hiển thị hai hoặc nhiều đường cong tổn thất được gọi là tổng quát hoá đường cong. Nội dung sau đây đường cong tổng quát hoá biểu thị hai đường cong tổn thất:

Hình 15. Hàm mất cho tập huấn luyện tăng dần
            từ chối. Hàm mất cho tập hợp xác thực cũng bị từ chối,
            nhưng sau đó nó bắt đầu tăng sau một số lần lặp nhất định.
Hình 15. Đường cong tổng quát hoá ngụ ý mạnh mẽ việc khái quát hoá quá mức.

 

Lưu ý rằng hai đường cong tổn thất hoạt động tương tự nhau lúc đầu rồi phân kỳ. Tức là, sau một số lần lặp lại nhất định, tổn thất giảm hoặc giữ ổn định (hội tụ) cho tập huấn luyện, nhưng tăng cho tập hợp xác thực. Điều này gợi ý đến việc sử dụng quá mức.

Ngược lại, đường cong tổng quát của một mô hình phù hợp cho thấy hai đường cong mức hao tổn có hình dạng tương tự.

Nguyên nhân gây ra tình trạng quá tải là gì?

Nói chung, tình trạng áp dụng quá mức là do một hoặc cả hai nguyên nhân sau đây vấn đề:

  • Tập hợp huấn luyện không thể hiện đầy đủ dữ liệu thực tế (hoặc tập xác thực hoặc tập hợp kiểm thử).
  • Mô hình quá phức tạp.

Điều kiện khái quát hoá

Một mô hình sẽ huấn luyện trên một tập huấn luyện, nhưng kiểm thử thực tế về giá trị của một mô hình là cách nó cũng đưa ra dự đoán về các ví dụ mới, đặc biệt là về dữ liệu thực tế. Trong khi phát triển một mô hình, tập hợp kiểm thử của bạn đóng vai trò như một proxy cho dữ liệu thực tế. Việc huấn luyện một mô hình tổng quát hoá ngụ ý tốt các điều kiện sau đây của tập dữ liệu:

  • Ví dụ: được phân phối một cách độc lập và giống hệt nhau, Đây là một cách nói vui nhộn, các ví dụ không thể ảnh hưởng lẫn nhau.
  • Tập dữ liệu là cố định, nghĩa là không thay đổi đáng kể theo thời gian.
  • Các phân vùng tập dữ liệu có cùng mức phân bổ. Tức là, các ví dụ trong tập huấn luyện có ý nghĩa thống kê tương tự với các ví dụ trong tập xác thực, tập kiểm thử và dữ liệu thực tế.

Khám phá các điều kiện trước đó thông qua các bài tập sau.

Bài tập: Kiểm tra mức độ hiểu biết của bạn

Hãy xem xét các phân vùng tập dữ liệu sau đây.
Một thanh ngang được chia thành ba phần: chiếm 70% thanh
                     là tập huấn luyện, 15% tập xác thực và 15%
                     tập kiểm thử
Bạn nên làm gì để đảm bảo rằng các ví dụ trong tập huấn luyện có phân phối thống kê tương tự như các ví dụ trong tập hợp xác thực và tập hợp kiểm thử?
Xáo trộn toàn bộ các ví dụ trong tập dữ liệu trước phân vùng chúng.
Có. Việc xáo trộn các ví dụ hợp lý giúp phân vùng nhiều hơn có thể tương tự về mặt thống kê.
Hãy sắp xếp các ví dụ từ sớm nhất đến gần đây nhất.
Nếu các ví dụ trong tập dữ liệu không cố định, thì cách sắp xếp khiến phân vùng giảm tương tự.
Không làm gì cả. Trong nhiều ví dụ, định luật trung bình một cách tự nhiên để đảm bảo rằng số liệu phân phối sẽ tương tự về mặt thống kê.
Rất tiếc là không đúng như vậy. Ví dụ ở một số phần nhất định của tập dữ liệu có thể khác với các phần khác của tập dữ liệu .
Một dịch vụ xem trực tuyến đang phát triển một mô hình để dự đoán mức độ phổ biến chương trình truyền hình mới tiềm năng trong ba năm tới. Chiến lược phát hành đĩa đơn dịch vụ xem trực tuyến lên kế hoạch huấn luyện mô hình trên một tập dữ liệu chứa hàng trăm triệu ví dụ, bao gồm 10 năm. Mô hình này có gặp sự cố nào không?
Có thể. Thời lượng xem thị hiếu thay đổi theo những cách mà hành vi trước đây không thể dự đoán.
Có. Thị hiếu của người xem không cố định. Chúng liên tục thay đổi.
Chắc chắn là không. Tập dữ liệu đủ lớn để tạo điều kiện dự đoán.
Rất tiếc, thị hiếu không ổn định.
Có thể là không. Thời lượng xem thị hiếu thay đổi theo chu kỳ có thể dự đoán. Dữ liệu của 10 năm sẽ giúp mô hình này đưa ra dự đoán chính xác về các xu hướng trong tương lai.
Mặc dù một số khía cạnh của giải trí có phần mang tính chu kỳ, mô hình được huấn luyện từ lịch sử giải trí trước đây sẽ gần như chắc chắn sẽ gặp khó khăn khi đưa ra dự đoán về vài năm tới.
Một mô hình nhằm dự đoán thời gian để mọi người đi bộ một dặm dựa trên dữ liệu thời tiết (nhiệt độ, điểm sương và lượng mưa) thu thập được trong một năm ở một thành phố có thời tiết thay đổi đáng kể theo mùa. Bạn có thể xây dựng và thử nghiệm một mô hình từ mặc dù chỉ số thời tiết thay đổi đáng kể mùa nào?
Có, bạn có thể xây dựng và thử nghiệm mô hình từ tập dữ liệu này. Bạn chỉ cần đảm bảo rằng dữ liệu được phân chia đồng đều, để dữ liệu từ cả bốn mùa được phân bổ đồng đều vào các phân vùng khác nhau.
Không
Giả sử tập dữ liệu này có đủ ví dụ về nhiệt độ, sương điểm và lượng mưa, sau đó bạn có thể xây dựng và thử nghiệm mô hình từ tập dữ liệu này. Bạn chỉ cần đảm bảo rằng dữ liệu đã được phân vùng đồng đều, để dữ liệu từ cả 4 mùa được phân phối đồng đều vào các phân vùng khác nhau.

Bài tập thử thách

Bạn đang tạo một mô hình dự đoán ngày lý tưởng để người lái xe mua cho một tuyến đường cụ thể. Ví dụ: mô hình có thể đề xuất rằng người dùng mua vé vào ngày 8 tháng 7 cho một chuyến tàu khởi hành ngày 23 tháng 7. Công ty tàu cập nhật giá hằng giờ dựa trên nhiều loại giá cập nhật nhưng chủ yếu là vào số lượng ghế trống hiện tại. Đó là:

  • Nếu có nhiều chỗ ngồi thì giá vé thường sẽ thấp.
  • Nếu có rất ít chỗ ngồi thì giá vé thường sẽ cao.
Mô hình của bạn có độ trễ thấp tổn thất trong tập xác thực và tập kiểm thử nhưng đôi khi các dự đoán khủng khiếp về dữ liệu thực tế. Tại sao?
Nhấp vào đây để xem câu trả lời