Hệ thống học máy sản xuất: Đào tạo tĩnh so với huấn luyện động

Nói chung, bạn có thể huấn luyện một mô hình theo một trong hai cách:

  • Đào tạo tĩnh (cũng có tên là đào tạo ngoại tuyến) có nghĩa là bạn huấn luyện một mô hình một lần. Sau đó, bạn phân phát cùng một mô hình đã huấn luyện đó trong một thời gian.
  • Đào tạo động (cũng có tên là đào tạo trực tuyến) có nghĩa là bạn huấn luyện một mô hình một cách liên tục hoặc ít nhất là thường xuyên. Bạn thường phục vụ nhiều nhất mô hình được huấn luyện gần đây.
Hình 2. Bột nhào thô tạo ra ba ổ bánh mì giống hệt nhau.
Hình 2. Huấn luyện tĩnh. Huấn luyện một lần; phân phát cùng một mô hình xây dựng nhiều lần. (Hình ảnh của Pexels và bởi createcrave1.)

 

Hình 3. Bột nhào thô tạo ra những ổ bánh mì hơi khác nhau
            mỗi lần.
Hình 3. Đào tạo linh động. Thường xuyên đào tạo lại; phục vụ nhiều nhất mô hình được xây dựng gần đây. (Hình ảnh của Pexels và Couleur.)

 

Bảng 1. Ưu điểm và nhược điểm chính.

Huấn luyện tĩnh Đào tạo động
Ưu điểm Đơn giản hơn. Bạn chỉ cần phát triển và kiểm thử mô hình một lần. Dễ thích ứng hơn. Mô hình của bạn sẽ bắt kịp với thay đổi về mối quan hệ giữa tính năng và nhãn.
Nhược điểm Đôi khi lỗi thời. Nếu mối quan hệ giữa các tính năng và nhãn sẽ thay đổi theo thời gian, thì thông tin dự đoán cho mô hình của bạn sẽ suy giảm. Làm việc khác. Bạn phải tạo, thử nghiệm và phát hành một sản phẩm mới mọi lúc.

Nếu tập dữ liệu thực sự không thay đổi theo thời gian, hãy chọn phương thức huấn luyện tĩnh vì thì việc tạo và duy trì sẽ rẻ hơn so với đào tạo động. Tuy nhiên, tập dữ liệu có xu hướng thay đổi theo thời gian, ngay cả những tính năng mà bạn cho là không đổi, chẳng hạn như mực nước biển. Bài học rút ra: ngay cả khi tĩnh huấn luyện, bạn vẫn phải theo dõi dữ liệu đầu vào của mình để thay đổi.

Ví dụ: hãy xem xét một mô hình được huấn luyện để dự đoán xác suất mà người dùng sẽ mua hoa. Do áp lực thời gian, mô hình chỉ được huấn luyện một lần bằng cách sử dụng tập dữ liệu về hành vi mua hoa trong tháng 7 và tháng 8. Mô hình này hoạt động tốt trong vài tháng nhưng sau đó đưa ra những dự đoán rất tệ vào khoảng Ngày lễ tình nhân vì hành vi của người dùng trong thời gian nghỉ lễ hoa thay đổi đáng kể.

Để tìm hiểu chi tiết hơn về quy trình đào tạo tĩnh và động, hãy xem Quản lý dự án học máy khóa học.

Bài tập: Kiểm tra mức độ hiểu biết của bạn

Hai nhận định nào sau đây là đúng về huấn luyện tĩnh (ngoại tuyến) không?
Mô hình này luôn được cập nhật khi có dữ liệu mới.
Trên thực tế, nếu bạn huấn luyện ngoại tuyến, mô hình không có cách nào để để kết hợp dữ liệu mới. Điều này có thể khiến mô hình lỗi thời, nếu sự phân phối mà bạn đang cố gắng tìm hiểu thay đổi theo thời gian.
Bạn có thể xác minh mô hình này trước khi áp dụng cho phiên bản chính thức.
Có, chương trình đào tạo ngoại tuyến mang đến nhiều cơ hội để xác minh mô hình trước khi đưa mô hình vào phiên bản chính thức.
Việc đào tạo ngoại tuyến đòi hỏi ít theo dõi hơn các công việc đào tạo so với đào tạo trực tuyến.
Nhìn chung, các yêu cầu giám sát tại thời điểm đào tạo khiêm tốn hơn cho chương trình đào tạo ngoại tuyến, giúp bạn tránh xa nhiều hoạt động sản xuất những yếu tố khác cần cân nhắc. Tuy nhiên, bạn càng thường xuyên huấn luyện mô hình, thì bạn cần phải đầu tư nhiều hơn cho hoạt động theo dõi. Bạn sẽ cũng muốn xác thực thường xuyên để đảm bảo rằng những thay đổi đối với mã của bạn (và các phần phụ thuộc của nó) không ảnh hưởng xấu đến chất lượng mô hình.
Cần rất ít giám sát dữ liệu đầu vào tại thời gian suy luận.
Ngược lại, bạn cần phải giám sát dữ liệu đầu vào khi phân phát bất cứ lúc nào. Nếu phân phối đầu vào thay đổi, thì giá trị các dự đoán có thể trở nên không đáng tin cậy. Ví dụ: hãy tưởng tượng một mô hình chỉ được đào tạo về dữ liệu quần áo mùa hè bỗng nhiên được sử dụng để dự đoán hành vi mua quần áo vào mùa đông.
Một nhận định nào sau đây là đúng với đào tạo trực tuyến linh động?
Mô hình này luôn được cập nhật khi có dữ liệu mới.
Đây là lợi ích chính của hoạt động đào tạo trực tuyến; bạn có thể tránh nhiều bằng cách cho phép mô hình huấn luyện dựa trên dữ liệu mới dưới dạng ứng dụng xuất hiện.
Cần giám sát rất ít các công việc đào tạo.
Trên thực tế, bạn phải liên tục theo dõi các công việc đào tạo để đảm bảo rằng chúng khoẻ mạnh và hoạt động bình thường. Bạn cũng cần cơ sở hạ tầng hỗ trợ như khả năng khôi phục một mô hình cho ảnh chụp nhanh trước đó phòng trường hợp có sự cố trong quá trình huấn luyện, chẳng hạn như công việc bị lỗi hoặc lỗi trong dữ liệu đầu vào.
Cần rất ít giám sát dữ liệu đầu vào tại thời gian suy luận.
Giống như mô hình tĩnh, ngoại tuyến, bạn cũng phải theo dõi dữ liệu đầu vào cho các mô hình được cập nhật linh động. Bạn có khả năng không có nguy cơ chịu tác động lớn về thời vụ, nhưng đột ngột, các thay đổi lớn đối với đầu vào (chẳng hạn như nguồn dữ liệu ở thượng nguồn sẽ xuống) vẫn có thể gây ra các dự đoán không đáng tin cậy.