Đo lường mức độ thành công

Làm cách nào để biết liệu việc triển khai ML có xứng đáng với công sức bỏ ra hay không? Bạn nên bắt đầu ăn mừng khi nào: ngay sau khi mô hình được đưa vào sản xuất và đưa ra dự đoán đầu tiên, hay chỉ sau khi một chỉ số kinh doanh định lượng bắt đầu đi đúng hướng?

Trước khi bắt đầu một dự án, bạn cần xác định các chỉ số thành công và thoả thuận về các sản phẩm bàn giao. Bạn cần xác định và theo dõi 2 loại chỉ số sau:

Chỉ số kinh doanh

Chỉ số kinh doanh là quan trọng nhất. Đó là lý do bạn sử dụng học máy: bạn muốn cải thiện hoạt động kinh doanh.

Bắt đầu bằng các chỉ số có thể đo lường về sản phẩm hoặc doanh nghiệp. Chỉ số này phải chi tiết và tập trung nhất có thể. Sau đây là ví dụ về các chỉ số kinh doanh có thể đo lường và tập trung:

  • Giảm 30% chi phí tiền điện hằng tháng của một trung tâm dữ liệu.
  • Tăng doanh thu từ các đề xuất sản phẩm thêm 12%.
  • Tăng tỷ lệ nhấp thêm 9%.
  • Tăng mức độ hài lòng của khách hàng thêm 20% thông qua các bản khảo sát chọn tham gia.
  • Tăng thời gian trên trang thêm 4%.

Theo dõi các chỉ số kinh doanh

Nếu bạn không theo dõi chỉ số kinh doanh mà bạn muốn cải thiện, hãy bắt đầu bằng cách triển khai cơ sở hạ tầng để làm như vậy. Việc đặt mục tiêu tăng tỷ lệ nhấp lên 15% là không hợp lý nếu bạn hiện không đo lường tỷ lệ nhấp.

Quan trọng hơn, hãy đảm bảo rằng bạn đang đo lường chỉ số phù hợp cho vấn đề của mình. Ví dụ: đừng mất thời gian viết tính năng đo lường để theo dõi tỷ lệ nhấp nếu chỉ số quan trọng hơn có thể là doanh thu từ đề xuất.

Khi dự án tiến triển, bạn sẽ nhận ra liệu chỉ số thành công mục tiêu có thực sự là một mục tiêu thực tế hay không. Trong một số trường hợp, bạn có thể xác định rằng dự án không khả thi dựa trên các chỉ số thành công đã xác định.

Chỉ số mô hình

Khi nào bạn nên đưa mô hình vào sản xuất? Khi AUC đạt đến một giá trị nhất định? Khi mô hình đạt được một điểm F1 cụ thể? Câu trả lời cho câu hỏi này phụ thuộc vào loại vấn đề mà bạn đang giải quyết và chất lượng dự đoán mà bạn cho rằng mình cần cải thiện chỉ số kinh doanh.

Khi xác định những chỉ số để đánh giá mô hình, hãy cân nhắc những yếu tố sau:

  • Xác định một chỉ số duy nhất để tối ưu hoá. Ví dụ: bạn có thể đánh giá các mô hình phân loại dựa trên nhiều chỉ số (AUC, AUC-PR, v.v.). Việc chọn mô hình phù hợp nhất có thể gặp khó khăn khi các chỉ số khác nhau lại phù hợp với các mô hình khác nhau. Do đó, hãy thống nhất một chỉ số duy nhất để đánh giá các mô hình.

  • Xác định các mục tiêu có thể chấp nhận được cần đạt được. Mục tiêu về khả năng chấp nhận khác với các chỉ số đánh giá mô hình. Đây là những mục tiêu mà một mô hình cần đáp ứng để được coi là chấp nhận được cho một trường hợp sử dụng dự kiến. Ví dụ: mục tiêu về khả năng chấp nhận có thể là "đầu ra không chính xác nhỏ hơn 0,1%" hoặc "khả năng thu hồi cho 5 danh mục hàng đầu lớn hơn 97%".

Ví dụ: giả sử một mô hình phân loại nhị phân phát hiện các giao dịch gian lận. Chỉ số tối ưu hoá của nó có thể là khả năng thu hồi, trong khi mục tiêu chấp nhận được có thể là độ chính xác. Nói cách khác, chúng tôi sẽ ưu tiên khả năng thu hồi (xác định chính xác hành vi gian lận hầu hết thời gian) trong khi vẫn muốn độ chính xác duy trì ở mức hoặc cao hơn một giá trị cụ thể (xác định giao dịch gian lận thực sự).

Mối liên hệ giữa các chỉ số mô hình và chỉ số kinh doanh

Về cơ bản, bạn đang cố gắng phát triển một mô hình có chất lượng dự đoán được kết nối theo quan hệ nhân quả với chỉ số kinh doanh của bạn. Các chỉ số mô hình tuyệt vời không nhất thiết ngụ ý các chỉ số kinh doanh được cải thiện. Nhóm của bạn có thể phát triển một mô hình có các chỉ số ấn tượng, nhưng các dự đoán của mô hình có thể không cải thiện được chỉ số kinh doanh.

Khi bạn hài lòng với chất lượng dự đoán của mô hình, hãy cố gắng xác định cách các chỉ số của mô hình ảnh hưởng đến chỉ số kinh doanh. Thông thường, các nhóm sẽ triển khai mô hình này cho 1% người dùng rồi theo dõi chỉ số kinh doanh.

Ví dụ: giả sử nhóm của bạn phát triển một mô hình để tăng doanh thu bằng cách dự đoán tình trạng khách hàng rời bỏ. Về lý thuyết, nếu có thể dự đoán liệu khách hàng có khả năng rời bỏ nền tảng hay không, bạn có thể khuyến khích họ ở lại.

Nhóm của bạn tạo một mô hình có chất lượng dự đoán là 95% và thử nghiệm mô hình đó trên một mẫu nhỏ người dùng. Tuy nhiên, doanh thu không tăng. Tỷ lệ khách hàng rời bỏ thực sự tăng lên. Sau đây là một số lý do có thể xảy ra:

  • Thông tin dự đoán không xuất hiện đủ sớm để bạn có thể hành động. Mô hình này chỉ có thể dự đoán tình trạng khách hàng rời bỏ trong khoảng thời gian 7 ngày, tức là không đủ sớm để đưa ra các ưu đãi nhằm giữ chân họ trên nền tảng.

  • Tính năng chưa hoàn thiện. Có thể những yếu tố khác góp phần vào việc khách hàng rời bỏ mà không có trong tập dữ liệu huấn luyện.

  • Ngưỡng chưa đủ cao. Mô hình có thể cần có chất lượng dự đoán từ 97% trở lên để hữu ích.

Ví dụ đơn giản này làm nổi bật 2 điểm:

  • Bạn cần tiến hành kiểm thử người dùng sớm để chứng minh (và hiểu) mối liên hệ giữa các chỉ số của mô hình và các chỉ số kinh doanh.
  • Các chỉ số mô hình tuyệt vời không đảm bảo các chỉ số kinh doanh được cải thiện.

AI tạo sinh

Việc đánh giá kết quả của AI tạo sinh có những thách thức riêng. Trong nhiều trường hợp, chẳng hạn như đầu ra sáng tạo hoặc đầu ra không giới hạn, việc đánh giá sẽ khó hơn so với việc đánh giá đầu ra của mô hình học máy truyền thống.

Bạn có thể đo lường và đánh giá các LLM dựa trên nhiều chỉ số. Việc xác định những chỉ số để đánh giá mô hình của bạn sẽ phụ thuộc vào trường hợp sử dụng.

Lưu ý

Đừng nhầm lẫn giữa sự thành công của mô hình và sự thành công của doanh nghiệp. Nói cách khác, một mô hình có các chỉ số nổi bật không đảm bảo thành công cho doanh nghiệp.

Nhiều kỹ sư có kỹ năng có thể tạo ra các mô hình có chỉ số ấn tượng. Việc huấn luyện một mô hình đủ tốt thường không phải là vấn đề. Thay vào đó, mô hình này không cải thiện chỉ số kinh doanh. Một dự án học máy có thể thất bại do sự không phù hợp giữa các chỉ số kinh doanh và chỉ số mô hình.

Kiểm tra mức độ hiểu biết của bạn

Bạn có một vấn đề kinh doanh rõ ràng và một giải pháp được xác định rõ để sử dụng LLM làm nhân viên hỗ trợ khách hàng. Bạn nên nghĩ như thế nào về việc đo lường xem giải pháp có thành công hay không?
Số lượng yêu cầu hỗ trợ đã được giải quyết cần có sự tham gia của con người giảm từ 72% xuống 50%.
Chính xác. Đây là một chỉ số kinh doanh có thể định lượng mà bạn có thể theo dõi.
Các chỉ số đánh giá của LLM luôn ở mức cao.
Các chỉ số mô hình tốt không đảm bảo rằng bạn sẽ cải thiện được các chỉ số kinh doanh.
Ý kiến phản hồi từ hoạt động kiểm thử ban đầu của người dùng rất tích cực.
Phản hồi ban đầu của người dùng thường mang tính định tính hơn là định lượng. Bạn cần xác định một chỉ số kinh doanh có thể định lượng để đo lường mức độ thành công.