Hệ thống học máy sản xuất: Đào tạo tĩnh so với huấn luyện động

Nói chung, bạn có thể huấn luyện mô hình theo một trong hai cách:

  • Huấn luyện tĩnh (còn gọi là huấn luyện ngoại tuyến) có nghĩa là bạn chỉ huấn luyện một mô hình một lần. Sau đó, bạn sẽ phân phát chính mô hình đã huấn luyện đó trong một thời gian.
  • Huấn luyện động (còn gọi là huấn luyện trực tuyến) có nghĩa là bạn huấn luyện một mô hình liên tục hoặc ít nhất là thường xuyên. Bạn thường phân phát mô hình được huấn luyện gần đây nhất.
Hình 2. Bột sống tạo ra ba ổ bánh mì giống hệt nhau.
Hình 2. Huấn luyện tĩnh. Huấn luyện một lần; phân phát cùng một mô hình đã tạo nhiều lần. (Hình ảnh của Pexels và fancycrave1.)

 

Hình 3. Mỗi lần, bột chưa qua chế biến sẽ tạo ra những ổ bánh mì khác nhau một chút.
Hình 3. Đào tạo động. Thường xuyên huấn luyện lại; phân phát mô hình được tạo gần đây nhất. (Hình ảnh của Pexels và Couleur.)

 

Bảng 1. Ưu và nhược điểm chính.

Đào tạo tĩnh Đào tạo động
Ưu điểm Đơn giản hơn. Bạn chỉ cần phát triển và kiểm thử mô hình một lần. Dễ thích ứng hơn. Mô hình của bạn sẽ theo kịp mọi thay đổi đối với mối quan hệ giữa các tính năng và nhãn.
Nhược điểm Đôi khi cũ hơn. Nếu mối quan hệ giữa các đặc điểm và nhãn thay đổi theo thời gian, thì kết quả dự đoán của mô hình sẽ giảm sút. Công việc khác. Bạn phải luôn xây dựng, kiểm thử và phát hành sản phẩm mới.

Nếu tập dữ liệu của bạn thực sự không thay đổi theo thời gian, hãy chọn phương pháp huấn luyện tĩnh vì chi phí tạo và duy trì sẽ rẻ hơn so với phương pháp huấn luyện động. Tuy nhiên, tập dữ liệu có xu hướng thay đổi theo thời gian, ngay cả những tập dữ liệu có các đặc điểm mà bạn cho là không đổi, chẳng hạn như mực nước biển. Kết luận: ngay cả khi đào tạo tĩnh, bạn vẫn phải theo dõi dữ liệu đầu vào để biết sự thay đổi.

Ví dụ: hãy xem xét một mô hình được huấn luyện để dự đoán xác suất người dùng sẽ mua hoa. Do áp lực về thời gian, mô hình chỉ được huấn luyện một lần bằng cách sử dụng tập dữ liệu về hành vi mua hoa trong tháng 7 và tháng 8. Mô hình này hoạt động tốt trong vài tháng, nhưng sau đó đưa ra dự đoán tệ hại vào khoảng Ngày lễ tình nhân vì hành vi của người dùng trong khoảng thời gian lễ hoa đó thay đổi đáng kể.

Để tìm hiểu chi tiết hơn về hoạt động huấn luyện tĩnh và động, hãy xem khoá học Quản lý dự án học máy.

Bài tập: Kiểm tra mức độ hiểu biết

Hai câu nhận định nào sau đây là đúng về việc huấn luyện tĩnh (ngoại tuyến)?
Mô hình này luôn được cập nhật khi có dữ liệu mới.
Trên thực tế, nếu bạn huấn luyện ngoại tuyến, thì mô hình sẽ không có cách nào để kết hợp dữ liệu mới khi dữ liệu đó đến. Điều này có thể dẫn đến tình trạng mô hình lỗi thời nếu quá trình phân phối mà bạn đang cố gắng học hỏi thay đổi theo thời gian.
Bạn có thể xác minh mô hình trước khi áp dụng mô hình đó trong môi trường thực tế.
Có, quy trình huấn luyện ngoại tuyến mang đến nhiều cơ hội để xác minh hiệu suất của mô hình trước khi đưa mô hình vào hoạt động thực tế.
Việc huấn luyện ngoại tuyến đòi hỏi ít hoạt động giám sát công việc huấn luyện hơn so với hoạt động huấn luyện trực tuyến.
Nhìn chung, các yêu cầu về việc giám sát tại thời điểm huấn luyện sẽ ít nghiêm ngặt hơn đối với việc huấn luyện ngoại tuyến, giúp bạn không phải cân nhắc nhiều vấn đề khi phát hành công khai. Tuy nhiên, bạn càng huấn luyện mô hình thường xuyên thì bạn càng cần đầu tư nhiều hơn vào việc giám sát. Bạn cũng nên xác thực thường xuyên để đảm bảo rằng các thay đổi đối với mã (và các phần phụ thuộc của mã) không ảnh hưởng tiêu cực đến chất lượng mô hình.
Bạn chỉ cần giám sát rất ít dữ liệu đầu vào tại thời điểm dự đoán.
Trái với trực giác, bạn cần theo dõi dữ liệu đầu vào tại thời điểm phân phát. Nếu các phân phối đầu vào thay đổi, thì dự đoán của mô hình có thể trở nên không đáng tin cậy. Ví dụ: hãy tưởng tượng một mô hình chỉ được huấn luyện về dữ liệu quần áo mùa hè đột nhiên được dùng để dự đoán hành vi mua quần áo vào mùa đông.
Câu nào sau đây đúng về đào tạo linh động (trực tuyến)?
Mô hình này luôn được cập nhật khi có dữ liệu mới.
Đây là lợi ích chính của việc huấn luyện trực tuyến; bạn có thể tránh được nhiều vấn đề về tính lỗi thời bằng cách cho phép mô hình huấn luyện trên dữ liệu mới khi dữ liệu đó xuất hiện.
Bạn chỉ cần giám sát rất ít công việc huấn luyện.
Trên thực tế, bạn phải liên tục theo dõi các công việc huấn luyện để đảm bảo rằng các công việc đó hoạt động đúng cách và hiệu quả. Bạn cũng cần có cơ sở hạ tầng hỗ trợ như khả năng khôi phục mô hình về bản tổng quan nhanh trước đó trong trường hợp có sự cố trong quá trình huấn luyện, chẳng hạn như công việc bị lỗi hoặc dữ liệu đầu vào bị hỏng.
Bạn chỉ cần giám sát rất ít dữ liệu đầu vào tại thời điểm dự đoán.
Cũng giống như mô hình tĩnh, ngoại tuyến, bạn cũng cần theo dõi dữ liệu đầu vào cho các mô hình được cập nhật linh động. Bạn có thể không gặp phải rủi ro về các hiệu ứng theo mùa lớn, nhưng những thay đổi lớn và đột ngột đối với dữ liệu đầu vào (chẳng hạn như nguồn dữ liệu thượng nguồn bị ngừng hoạt động) vẫn có thể gây ra kết quả dự đoán không đáng tin cậy.