Đo lường mức độ thành công

Làm cách nào để biết việc triển khai công nghệ học máy có xứng đáng với công sức bỏ ra không? Khi nào bạn nên bắt đầu ăn mừng: ngay sau khi mô hình đi vào hoạt động chính thức và hiển thị thông tin dự đoán đầu tiên, hay chỉ sau khi chỉ số kinh doanh định lượng bắt đầu đi đúng hướng?

Trước khi bắt đầu một dự án, bạn cần phải xác định các chỉ số thành công và thống nhất về nội dung phân phối. Bạn cần xác định và theo dõi 2 loại chỉ số sau:

Chỉ số kinh doanh

Chỉ số kinh doanh là quan trọng nhất. Chúng là lý do bạn sử dụng ML: bạn muốn cải thiện doanh nghiệp.

Bắt đầu bằng các chỉ số định lượng về sản phẩm hoặc doanh nghiệp. Chỉ số này phải chi tiết và có trọng tâm nhất có thể. Sau đây là ví dụ về các chỉ số kinh doanh tập trung và có thể định lượng:

  • Giảm 30% chi phí điện hằng tháng cho một trung tâm dữ liệu.
  • Tăng doanh thu từ đề xuất sản phẩm thêm 12%.
  • Tăng tỷ lệ nhấp thêm 9%.
  • Tăng mức độ hài lòng của khách hàng từ việc chọn tham gia khảo sát thêm 20%.
  • Tăng thời gian trên trang thêm 4 phần trăm.

Theo dõi các chỉ số kinh doanh

Nếu bạn hiện không theo dõi chỉ số kinh doanh mà bạn muốn cải thiện, hãy bắt đầu bằng cách triển khai cơ sở hạ tầng. Việc đặt mục tiêu tăng tỷ lệ nhấp thêm 15% là không hợp lý nếu bạn hiện không đo lường tỷ lệ nhấp.

Quan trọng hơn, hãy đảm bảo bạn đang đo lường đúng chỉ số cho vấn đề của mình. Ví dụ: đừng dành thời gian viết công cụ đo lường để theo dõi tỷ lệ nhấp nếu chỉ số quan trọng hơn có thể là doanh thu từ các đề xuất.

Khi dự án phát triển, bạn sẽ nhận ra liệu chỉ số thành công mục tiêu có thực sự là mục tiêu thực tế hay không. Trong một số trường hợp, bạn có thể xác định dự án không khả thi dựa trên các chỉ số thành công đã xác định.

Chỉ số của mô hình

Khi nào bạn nên đưa mô hình vào quy trình sản xuất? Khi nào AUC ở một giá trị nhất định? Khi mô hình đạt được một điểm F1 cụ thể? Câu trả lời cho câu hỏi này phụ thuộc vào loại vấn đề bạn đang giải quyết và chất lượng dự đoán mà bạn cho rằng mình cần cải thiện chỉ số kinh doanh.

Khi xác định những chỉ số để đánh giá mô hình, hãy cân nhắc những yếu tố sau:

  • Xác định một chỉ số duy nhất để tối ưu hoá. Ví dụ: bạn có thể đánh giá các mô hình phân loại theo nhiều chỉ số (AUC, AUC-PR, v.v.). Việc chọn mô hình tốt nhất có thể khó khăn khi các chỉ số khác nhau ưu tiên các mô hình khác nhau. Do đó, hãy thống nhất chọn một chỉ số duy nhất để đánh giá các mô hình.

  • Xác định các mục tiêu về khả năng chấp nhận cần đáp ứng. Mục tiêu về khả năng chấp nhận khác với chỉ số đánh giá mô hình. Chúng là những mục tiêu mà mô hình cần đáp ứng để được xem là phù hợp với trường hợp sử dụng dự kiến. Ví dụ: mục tiêu về khả năng chấp nhận có thể là "đầu ra không chính xác nhỏ hơn 0,1%" hoặc "mức độ thu hồi 5 danh mục hàng đầu lớn hơn 97%".

Ví dụ: giả sử một mô hình phân loại nhị phân phát hiện thấy các giao dịch gian lận. Chỉ số tối ưu hoá của mô hình này có thể được truy lại, trong khi mục tiêu về khả năng chấp nhận có thể là độ chính xác. Nói cách khác, chúng tôi sẽ ưu tiên việc thu hồi (thường là xác định chính xác hành vi gian lận) đồng thời muốn độ chính xác duy trì ở mức hoặc trên một giá trị cụ thể (xác định các giao dịch gian lận thực sự).

Mối kết nối giữa chỉ số mô hình và chỉ số kinh doanh

Về cơ bản, bạn đang cố gắng phát triển một mô hình có chất lượng dự đoán liên quan đến chỉ số kinh doanh của mình. Chỉ số của mô hình hiệu quả không nhất thiết phải ngụ ý rằng chỉ số kinh doanh được cải thiện. Có thể nhóm của bạn sẽ phát triển một mô hình có các chỉ số ấn tượng, nhưng thông tin dự đoán của mô hình có thể không cải thiện được chỉ số kinh doanh.

Khi bạn đã hài lòng với chất lượng dự đoán của mô hình, hãy cố gắng xác định mức độ ảnh hưởng của các chỉ số của mô hình đến chỉ số kinh doanh. Thông thường, các nhóm sẽ triển khai mô hình này cho 1% người dùng rồi theo dõi chỉ số kinh doanh.

Ví dụ: giả sử nhóm của bạn phát triển một mô hình để tăng doanh thu bằng cách dự đoán tình trạng khách hàng rời bỏ. Về lý thuyết, nếu có thể dự đoán liệu khách hàng có khả năng rời khỏi nền tảng hay không, bạn có thể khuyến khích họ ở lại.

Nhóm của bạn tạo một mô hình có chất lượng dự đoán là 95% và thử nghiệm mô hình đó trên một nhóm nhỏ người dùng. Tuy nhiên, doanh thu không tăng. Số lượng khách hàng rời bỏ thực sự gia tăng. Dưới đây là một số cách giải thích có thể chấp nhận:

  • Thông tin dự đoán không xuất hiện đủ sớm để hành động. Mô hình này chỉ có thể dự đoán khả năng khách hàng rời bỏ trong khung thời gian 7 ngày, do đó chưa đủ nhanh để đưa ra các chương trình khuyến khích nhằm giữ chân họ trên nền tảng.

  • Tính năng chưa hoàn chỉnh. Có thể các yếu tố khác góp phần khiến khách hàng rời bỏ ứng dụng không có trong tập dữ liệu huấn luyện.

  • Ngưỡng không đủ cao. Mô hình này có thể cần có chất lượng dự đoán là 97% trở lên thì mới hữu ích.

Ví dụ đơn giản này làm nổi bật hai ý:

  • Bạn cần phải sớm thực hiện kiểm thử người dùng để chứng minh (và hiểu) mối liên hệ giữa các chỉ số của mô hình và các chỉ số kinh doanh.
  • Các chỉ số của mô hình chất lượng cao không đảm bảo các chỉ số kinh doanh được cải thiện.

AI tạo sinh

Việc đánh giá kết quả của AI tạo sinh cũng đặt ra những thách thức chưa từng có. Trong nhiều trường hợp, như kết quả mở hoặc mẫu quảng cáo, việc đánh giá kết quả đầu ra của công nghệ học máy truyền thống sẽ khó hơn.

Các LLM có thể được đo lường và đánh giá dựa trên nhiều chỉ số. Việc xác định chỉ số nào để đánh giá mô hình sẽ tuỳ thuộc vào trường hợp sử dụng của bạn. Để biết thêm thông tin, hãy xem phần Giới thiệu về cách đánh giá các LLM.

Lưu ý

Đừng nhầm lẫn thành công của mô hình với thành công của doanh nghiệp. Nói cách khác, một mô hình có các chỉ số nổi bật không đảm bảo rằng doanh nghiệp sẽ thành công.

Nhiều kỹ sư có kỹ năng có thể tạo ra mô hình với những chỉ số ấn tượng. Việc huấn luyện một mô hình đủ tốt thường không phải là vấn đề. Thay vào đó, mô hình này không cải thiện chỉ số kinh doanh. Một dự án ML có thể sẽ gặp lỗi do sự không nhất quán giữa các chỉ số kinh doanh và các chỉ số của mô hình.

Kiểm tra kiến thức