Công bằng: Kiểm tra kiến thức

Đúng hay sai: Thành kiến lịch sử xảy ra khi một mô hình được huấn luyện dựa trên dữ liệu cũ.

Đúng

Sai

Các kỹ sư đang huấn luyện một mô hình hồi quy để dự đoán hàm lượng calo của bữa ăn dựa trên nhiều dữ liệu tính năng mà họ lấy từ các trang web về công thức nấu ăn trên khắp thế giới, bao gồm cả khẩu phần, nguyên liệu chế biến và kỹ thuật chuẩn bị. Vấn đề nào sau đây về dữ liệu là nguồn có thể gây sai lệch cần được điều tra thêm?

Chọn số lượng đáp án tuỳ ý.

Khoảng 4.000 trong số 40.000 ví dụ huấn luyện bị thiếu giá trị cho tính năng "kích thước phân phát".

Khoảng 5.000 ví dụ huấn luyện có các phép đo bằng đơn vị đo lường Anh (ounce, pound, v.v.), trong khi 35.000 ví dụ khác có các phép đo bằng đơn vị hệ mét (gam, lít, v.v.).

Khoảng 100 trong số 40.000 ví dụ huấn luyện có giá trị thành phần có khả năng cao sẽ không chính xác (ví dụ: 100 thanh bơ).

So với các bữa ăn phổ biến khác, một số bữa ăn phổ biến chưa được thể hiện đầy đủ trong dữ liệu đào tạo so với các món ăn phổ biến khác (ví dụ: có 200 ví dụ huấn luyện cho món dosa, nhưng chỉ có 10 ví dụ cho món pizza).

Một mô hình phát hiện lời nói mỉa mai được huấn luyện dựa trên 80.000 tin nhắn văn bản, 40.000 tin nhắn do người lớn (từ 18 tuổi trở lên) và 40.000 tin nhắn do trẻ vị thành niên gửi (dưới 18 tuổi). Mô hình sau đó được đánh giá trên một bộ thử nghiệm gồm 20.000 tin nhắn: 10.000 tin nhắn từ người lớn và 10.000 tin nhắn từ trẻ vị thành niên. Các ma trận nhầm lẫn sau đây cho thấy kết quả cho từng nhóm (dự đoán khẳng định biểu thị phân loại "châm biếm"; dự đoán phủ định biểu thị phân loại "không châm biếm"):

Người lớn

Kết quả tích cực thực (TP): 512	Kết quả sai lệch (FP): 51
Từ khoá phủ định sai (FN): 36	True negative (TN): 9401
Độ chính xác = TP/(TP + FP) = 0,909
Thu hồi = TP/(TP + FN) = 0,934

Trẻ vị thành niên

Kết quả tích cực (TP): 2147	Số kết quả sai lệch (FP): 96
Từ khoá phủ định sai (FN): 2177	True negative (TN): 5580
Độ chính xác = TP/(TP + FP) = 0,957
Thu hồi = TP/(TP + FN) = 0,497

Câu nào sau đây là đúng về hiệu suất của tập hợp kiểm thử của mô hình?

Chọn số lượng đáp án tuỳ ý.

Mô hình này hoạt động hiệu quả hơn ví dụ về người lớn so với ví dụ về trẻ vị thành niên.

10.000 tin nhắn do người lớn gửi đi là một tập dữ liệu bất cân bằng về tầng lớp.

10.000 tin nhắn do trẻ vị thành niên gửi là một tập dữ liệu bất cân bằng về tầng lớp.

Khoảng 50% tin nhắn do trẻ vị thành niên gửi bị phân loại là tin nhắn "châm biếm" một cách không chính xác.

Mô hình này không phân loại được khoảng 50% thông điệp châm biếm của trẻ vị thành niên là "châm biếm".

Giả thuyết nào sau đây có thể giải thích sự khác biệt về hiệu suất của nhóm con trong bộ thử nghiệm cho mô hình phát hiện lời nói mỉa mai ở trên?

Chọn số lượng đáp án tuỳ ý.

Mô hình này thiên về việc dự đoán "châm biếm". Do đó, sẽ xảy ra nhiều lỗi hơn khi phân loại trẻ vị thành niên tin nhắn văn bản vì có nhiều tin nhắn châm biếm hơn từ trẻ vị thành niên trong nhóm thử nghiệm.

Mô hình này được đánh giá dựa trên các ví dụ tiêu cực (không châm biếm) từ trẻ vị thành niên hơn là từ người lớn. Do đó, trẻ vị thành niên có nhiều lỗi hơn.

Hành vi châm biếm trong tin nhắn văn bản của trẻ vị thành niên thể hiện sự tinh vi hơn, nên ít có khả năng người mẫu này bị người mẫu gắn cờ.

Số lượng thông điệp châm biếm thực sự của người lớn ít hơn nhiều so với trẻ vị thành niên. Nếu mô hình được đánh giá trên một nhóm thư dành cho người lớn cân bằng hơn, thì mức độ ghi nhớ có thể giảm đối với nhóm con đó.

Các kỹ sư đang nỗ lực cải thiện mô hình châm biếm nói trên để giải quyết các vấn đề không nhất quán về độ chính xác của việc phát hiện lời nói mỉa mai trong các nhóm nhân khẩu học về độ tuổi. Tuy nhiên, mô hình này đã được phát hành chính thức. Chiến lược khoảng trống nào sau đây sẽ giúp giảm thiểu lỗi trong thông tin dự đoán của mô hình?

Hạn chế việc sử dụng mô hình đối với tin nhắn văn bản do trẻ vị thành niên gửi.

Điều chỉnh đầu ra của mô hình để nó trả về từ "mạo hiểm" cho tất cả tin nhắn văn bản do trẻ vị thành niên gửi, bất kể mô hình này dự đoán ban đầu điều gì.

Khi mô hình này dự đoán "không châm biếm" cho tin nhắn văn bản do trẻ vị thành niên gửi, hãy điều chỉnh kết quả để mô hình trả về giá trị "không chắc chắn".