Vùng kín

Thừa khớp có nghĩa là tạo một mô hình khớp (ghi nhớ) tập huấn luyện một cách quá sát đến mức mô hình không thể đưa ra dự đoán chính xác về dữ liệu mới. Mô hình phù hợp quá mức tương tự như một phát minh hoạt động tốt trong phòng thí nghiệm nhưng vô giá trị trong thế giới thực.

Trong Hình 11, hãy tưởng tượng rằng mỗi hình dạng hình học đại diện cho vị trí của một cây trong một khu rừng hình vuông. Kim cương màu xanh dương đánh dấu vị trí của cây khỏe mạnh, còn vòng tròn màu cam đánh dấu vị trí của cây bị bệnh.

Hình 11. Hình này chứa khoảng 60 dấu chấm, một nửa là cây khoẻ và nửa còn lại là cây ốm.
            Cây khỏe mạnh chủ yếu nằm ở góc đông bắc, mặc dù một vài cây khỏe mạnh chen vào góc tây bắc. Cây bị bệnh chủ yếu ở góc đông nam, nhưng một vài cây bị bệnh cũng xuất hiện ở các góc khác.
Hình 11. Tập hợp dữ liệu huấn luyện: vị trí của cây khỏe và cây ốm trong một khu rừng hình vuông.

 

Hãy vẽ trong trí tưởng tượng bất kỳ hình dạng nào – đường thẳng, đường cong, hình bầu dục… bất kỳ hình dạng nào – để phân tách các cây khoẻ mạnh với cây bị bệnh. Sau đó, hãy mở rộng dòng tiếp theo để kiểm tra một cách phân tách có thể xảy ra.

Các hình dạng phức tạp trong Hình 12 đã phân loại thành công tất cả các cây ngoại trừ hai cây. Nếu chúng ta coi các hình dạng là một mô hình, thì đây là một mô hình tuyệt vời.

Mà có khó lắm không nhỉ? Một mô hình thực sự xuất sắc sẽ phân loại thành công các ví dụ mới. Hình 13 cho thấy điều gì sẽ xảy ra khi cùng một mô hình đó đưa ra dự đoán về các ví dụ mới trong tập kiểm thử:

Hình 13. Một lô cây mới khỏe mạnh và cây bị bệnh được phủ lên mô hình như trong Hình 12. Mô hình phân loại sai nhiều cây.
Hình 13. Tập dữ liệu kiểm thử: một mô hình phức tạp để phân biệt cây bị bệnh với cây khỏe mạnh.

 

Vì vậy, mô hình phức tạp trong Hình 12 đã hoạt động rất tốt trên tập huấn luyện nhưng lại hoạt động khá kém trên tập kiểm thử. Đây là một trường hợp điển hình về việc mô hình phù hợp quá mức với dữ liệu tập huấn.

Phù hợp, quá phù hợp và không phù hợp

Mô hình phải đưa ra dự đoán chính xác về dữ liệu mới. Tức là bạn đang hướng đến việc tạo một mô hình "phù hợp" với dữ liệu mới.

Như bạn đã thấy, mô hình quá phù hợp đưa ra dự đoán chính xác về tập dữ liệu huấn luyện nhưng dự đoán kém về dữ liệu mới. Mô hình không phù hợp thậm chí không đưa ra dự đoán chính xác về dữ liệu huấn luyện. Nếu mô hình phù hợp quá mức giống như một sản phẩm hoạt động tốt trong phòng thí nghiệm nhưng hoạt động kém trong thế giới thực, thì mô hình không phù hợp giống như một sản phẩm thậm chí không hoạt động tốt trong phòng thí nghiệm.

Hình 14. Biểu đồ Descartes. Trục X được gắn nhãn "chất lượng của dự đoán trên tập huấn luyện". Trục Y có nhãn "chất lượng của dự đoán trên dữ liệu thực tế". Một đường cong bắt đầu tại gốc và tăng dần, nhưng sau đó giảm nhanh như vậy. Phần dưới bên trái của đường cong (chất lượng dự đoán thấp trên dữ liệu thực tế và chất lượng dự đoán thấp trên tập huấn luyện) được gắn nhãn "mô hình không phù hợp". Phần
            dưới bên phải của đường cong (chất lượng dự đoán thấp trên
            dữ liệu thực tế nhưng chất lượng dự đoán cao trên tập huấn luyện)
            được gắn nhãn "mô hình phù hợp quá mức". Đỉnh của đường cong (chất lượng dự đoán cao trên dữ liệu thực tế và chất lượng dự đoán trung bình trên tập huấn luyện) được gắn nhãn "mô hình phù hợp".
Hình 14. Các mô hình không phù hợp, phù hợp và phù hợp quá mức.

 

Tổng quát hoá là khái niệm đối lập với việc điều chỉnh quá mức. Tức là một mô hình tổng quát hoá tốt sẽ đưa ra dự đoán chính xác về dữ liệu mới. Mục tiêu của bạn là tạo một mô hình khái quát hoá tốt cho dữ liệu mới.

Phát hiện tình trạng thích ứng quá mức

Các đường cong sau đây giúp bạn phát hiện tình trạng phù hợp quá mức:

  • đường cong tổn thất
  • đường cong tổng quát hoá

Đường cong tổn thất biểu thị tổn thất của mô hình so với số lần lặp lại quá trình huấn luyện. Biểu đồ cho thấy hai hoặc nhiều đường cong tổn thất được gọi là đường cong tổng quát hoá. Đường cong tổng quát sau đây cho thấy hai đường cong tổn hao:

Hình 15. Hàm mất mát cho tập huấn luyện sẽ giảm dần. Hàm mất mát cho tập hợp xác thực cũng giảm, nhưng sau đó bắt đầu tăng sau một số lần lặp nhất định.
Hình 15. Đường cong tổng quát hoá cho thấy rõ tình trạng phù hợp quá mức.

 

Lưu ý rằng hai đường cong tổn thất hoạt động tương tự nhau lúc đầu rồi sau đó phân kỳ. Tức là sau một số lần lặp nhất định, tổn thất sẽ giảm hoặc giữ nguyên (hội tụ) đối với tập huấn luyện, nhưng sẽ tăng đối với tập xác thực. Điều này cho thấy tình trạng phù hợp quá mức.

Ngược lại, một đường cong tổng quát cho mô hình phù hợp sẽ cho thấy hai đường cong tổn thất có hình dạng tương tự nhau.

Nguyên nhân gây ra hiện tượng thích ứng quá mức là gì?

Nói một cách khái quát, việc phù hợp quá mức là do một hoặc cả hai vấn đề sau đây gây ra:

  • Tập dữ liệu huấn luyện không thể hiện đầy đủ dữ liệu thực tế (hoặc tập dữ liệu xác thực hoặc tập dữ liệu kiểm thử).
  • Mô hình quá phức tạp.

Điều kiện tổng quát hoá

Mô hình được huấn luyện trên một tập huấn luyện, nhưng thử nghiệm thực sự về giá trị của mô hình là khả năng dự đoán của mô hình đối với các ví dụ mới, đặc biệt là đối với dữ liệu thực tế. Trong khi phát triển mô hình, tập dữ liệu kiểm thử đóng vai trò là proxy cho dữ liệu thực tế. Việc huấn luyện một mô hình có khả năng khái quát tốt đòi hỏi các điều kiện sau đây đối với tập dữ liệu:

  • Ví dụ phải được phân phối độc lập và giống hệt nhau. Đây là cách nói hoa mỹ để nói rằng các ví dụ của bạn không thể ảnh hưởng lẫn nhau.
  • Tập dữ liệu là không đổi, nghĩa là tập dữ liệu không thay đổi đáng kể theo thời gian.
  • Các phân vùng tập dữ liệu có cùng mức phân phối. Tức là các ví dụ trong tập huấn luyện có tính chất thống kê tương tự như các ví dụ trong tập xác thực, tập kiểm thử và dữ liệu thực tế.

Khám phá các điều kiện trước đó thông qua các bài tập sau.

Bài tập: Kiểm tra mức độ hiểu biết

Hãy xem xét các phân vùng tập dữ liệu sau.
Một thanh ngang được chia thành ba phần: 70% thanh là tập huấn luyện, 15% là tập xác thực và 15% là tập kiểm thử
Bạn nên làm gì để đảm bảo rằng các ví dụ trong tập huấn luyện có phân phối thống kê tương tự như các ví dụ trong tập xác thực và tập kiểm thử?
Hãy xáo trộn các ví dụ trong tập dữ liệu một cách rộng rãi trước khi phân vùng các ví dụ đó.
Có. Việc xáo trộn các ví dụ một cách hiệu quả sẽ giúp các phân vùng có nhiều khả năng tương tự nhau về mặt thống kê.
Sắp xếp các ví dụ từ sớm nhất đến gần đây nhất.
Nếu các ví dụ trong tập dữ liệu không tĩnh, thì việc sắp xếp sẽ khiến các phân vùng ít giống nhau hơn.
Không làm gì cả. Khi có đủ ví dụ, quy luật số trung bình sẽ tự nhiên đảm bảo rằng các phân phối sẽ tương tự nhau về mặt thống kê.
Rất tiếc, điều này không đúng. Các ví dụ trong một số phần nhất định của tập dữ liệu có thể khác với các ví dụ trong các phần khác.
Một dịch vụ phát trực tuyến đang phát triển một mô hình để dự đoán mức độ phổ biến của các chương trình truyền hình mới tiềm năng trong ba năm tới. Dịch vụ phát trực tuyến này dự định huấn luyện mô hình trên một tập dữ liệu chứa hàng trăm triệu ví dụ trong 10 năm qua. Mô hình này có gặp vấn đề gì không?
Có thể. Thị hiếu của người xem thay đổi theo những cách mà hành vi trước đây không thể dự đoán được.
Có. Thị hiếu của người xem không đứng yên. Các thuật toán này liên tục thay đổi.
Chắc chắn là không. Tập dữ liệu đủ lớn để đưa ra dự đoán chính xác.
Rất tiếc, thị hiếu của người xem không ổn định.
Có thể là không. Thị hiếu của người xem thay đổi theo chu kỳ có thể dự đoán. Dữ liệu trong 10 năm sẽ giúp mô hình đưa ra dự đoán chính xác về các xu hướng trong tương lai.
Mặc dù một số khía cạnh nhất định của ngành giải trí có tính chu kỳ, nhưng mô hình được huấn luyện từ lịch sử giải trí trước đây gần như chắc chắn sẽ gặp khó khăn trong việc dự đoán về vài năm tới.
Một mô hình nhằm mục đích dự đoán thời gian mọi người đi bộ một dặm dựa trên dữ liệu thời tiết (nhiệt độ, điểm sương và lượng mưa) được thu thập trong một năm ở một thành phố có thời tiết thay đổi đáng kể theo mùa. Bạn có thể xây dựng và kiểm thử một mô hình từ tập dữ liệu này không, mặc dù các chỉ số thời tiết thay đổi đáng kể theo mùa?
Có, bạn có thể tạo và kiểm thử mô hình từ tập dữ liệu này. Bạn chỉ cần đảm bảo rằng dữ liệu được phân vùng đồng đều để dữ liệu của cả 4 mùa được phân bổ đồng đều vào các phân vùng khác nhau.
Không
Giả sử tập dữ liệu này chứa đủ ví dụ về nhiệt độ, điểm sương và lượng mưa, thì bạn có thể tạo và kiểm thử một mô hình từ tập dữ liệu này. Bạn chỉ cần đảm bảo rằng dữ liệu được phân vùng đồng đều để dữ liệu của cả 4 mùa được phân bổ đồng đều vào các phân vùng khác nhau.

Bài tập thử thách

Bạn đang tạo một mô hình dự đoán ngày lý tưởng để hành khách mua vé tàu cho một tuyến đường cụ thể. Ví dụ: mô hình có thể đề xuất người dùng mua vé vào ngày 8 tháng 7 cho chuyến tàu khởi hành vào ngày 23 tháng 7. Công ty tàu cập nhật giá hằng giờ, dựa trên nhiều yếu tố nhưng chủ yếu là số lượng chỗ ngồi hiện có. Đó là:

  • Nếu có nhiều chỗ trống, giá vé thường thấp.
  • Nếu số lượng ghế còn rất ít, giá vé thường cao.
Mô hình của bạn cho thấy tổn thất thấp trên tập hợp xác thực và tập hợp kiểm thử, nhưng đôi khi đưa ra dự đoán tệ hại về dữ liệu thực tế. Tại sao?
Nhấp vào đây để xem câu trả lời