Trang này được dịch bởi Cloud Translation API.

Đánh giá mô hình bằng các chỉ số

Mặc dù việc gỡ lỗi mô hình ML có vẻ khó khăn, nhưng các chỉ số về mô hình sẽ cho bạn biết bắt đầu từ đâu. Các phần sau đây thảo luận về cách đánh giá hiệu suất bằng các chỉ số.

Đánh giá chất lượng bằng chỉ số mô hình

Để đánh giá chất lượng của mô hình, các chỉ số thường dùng là:

Để nắm được hướng dẫn về cách diễn giải các chỉ số này, hãy đọc nội dung được liên kết từ Nội dung sự cố máy học. Để được hướng dẫn thêm về các vấn đề cụ thể, hãy xem bảng sau đây.

Vấn đề	Đánh giá chất lượng
Hồi quy	Ngoài việc giảm Lỗi vuông trung bình (MSE), hãy giảm MSE so với giá trị nhãn của bạn. Ví dụ: giả sử bạn dự đoán giá của 2 mặt hàng có giá trung bình là 5 và 100. Trong cả hai trường hợp, giả sử MSE của bạn là 5. Trong trường hợp đầu tiên, MSE sẽ bằng 100% giá trung bình của bạn, đây rõ ràng là một lỗi lớn. Trong trường hợp thứ hai, MSE sẽ bằng 5% giá trung bình, đây là một lỗi hợp lý.
Phân loại nhiều lớp	Nếu bạn dự đoán số lượng lớp nhỏ, hãy xem xét từng chỉ số trên mỗi lớp. Khi dự đoán trên nhiều lớp, bạn có thể tính trung bình các chỉ số trên mỗi lớp để theo dõi các chỉ số phân loại tổng thể. Ngoài ra, bạn có thể ưu tiên các mục tiêu chất lượng cụ thể tuỳ theo nhu cầu. Ví dụ: nếu bạn đang phân loại các đối tượng trong hình ảnh, thì bạn có thể ưu tiên chất lượng phân loại cho mọi người hơn các đối tượng khác.

Vấn đề

Đánh giá chất lượng

Hồi quy

Ngoài việc giảm Lỗi vuông trung bình (MSE), hãy giảm MSE so với giá trị nhãn của bạn. Ví dụ: giả sử bạn dự đoán giá của 2 mặt hàng có giá trung bình là 5 và 100. Trong cả hai trường hợp, giả sử MSE của bạn là 5. Trong trường hợp đầu tiên, MSE sẽ bằng 100% giá trung bình của bạn, đây rõ ràng là một lỗi lớn. Trong trường hợp thứ hai, MSE sẽ bằng 5% giá trung bình, đây là một lỗi hợp lý.

Phân loại nhiều lớp

Nếu bạn dự đoán số lượng lớp nhỏ, hãy xem xét từng chỉ số trên mỗi lớp. Khi dự đoán trên nhiều lớp, bạn có thể tính trung bình các chỉ số trên mỗi lớp để theo dõi các chỉ số phân loại tổng thể. Ngoài ra, bạn có thể ưu tiên các mục tiêu chất lượng cụ thể tuỳ theo nhu cầu. Ví dụ: nếu bạn đang phân loại các đối tượng trong hình ảnh, thì bạn có thể ưu tiên chất lượng phân loại cho mọi người hơn các đối tượng khác.

Kiểm tra chỉ số cho các Lát cắt dữ liệu quan trọng

Sau khi có mô hình chất lượng cao, mô hình của bạn vẫn có thể hoạt động kém trên các tập hợp con dữ liệu. Ví dụ: trình dự báo kỳ lân của bạn phải dự đoán tốt ở cả sa mạc Sahara và Thành phố New York, vào mọi thời điểm trong ngày. Tuy nhiên, bạn có ít dữ liệu đào tạo hơn cho sa mạc Sahara. Do đó, bạn muốn theo dõi chất lượng mô hình cụ thể cho sa mạc Sahara. Những tập hợp con dữ liệu như vậy, như tập hợp con tương ứng với sa mạc Sahara, được gọi là các phần dữ liệu. Bạn nên theo dõi riêng các phần dữ liệu khi hiệu suất đặc biệt quan trọng hoặc khi mô hình của bạn có thể hoạt động kém.

Vận dụng kiến thức về dữ liệu để xác định các phần dữ liệu bạn quan tâm. Sau đó, so sánh chỉ số mô hình cho các lát cắt dữ liệu với chỉ số cho toàn bộ tập dữ liệu của bạn. Việc kiểm tra mô hình của bạn thực hiện trên tất cả các phần dữ liệu sẽ giúp loại bỏ độ chệch. Để tìm hiểu thêm, hãy xem bài viết Sự công bằng: Đánh giá theo hướng thiên vị.

Sử dụng các chỉ số trong thực tế

Chỉ số mô hình không nhất thiết phải đo lường tác động thực tế của mô hình. Ví dụ: bạn có thể thay đổi một siêu tham số và tăng AUC, nhưng thay đổi này ảnh hưởng như thế nào đến trải nghiệm người dùng? Để đo lường tác động thực tế, bạn cần xác định các chỉ số riêng biệt. Ví dụ: bạn có thể khảo sát những người dùng nhìn thấy thông tin dự đoán về sự xuất hiện của kỳ lân để kiểm tra xem họ có nhìn thấy một con kỳ lân hay không. Việc đo lường tác động thực tế giúp so sánh chất lượng của các lần lặp lại của mô hình.

Diễn giải đường cong suy hao

Tiếp

Kiểm tra kiến thức