Từng là nguồn độ thiên vị đã được xác định trong dữ liệu huấn luyện, chúng ta có thể chủ động thực hiện các bước để giảm thiểu tác động của nó. Có hai chiến lược chính mà công nghệ học máy (ML) các kỹ sư thường dùng để khắc phục tình trạng thiên lệch:
- Bổ sung dữ liệu huấn luyện.
- Điều chỉnh hàm mất mát của mô hình.
Bổ sung dữ liệu huấn luyện
Nếu việc kiểm tra dữ liệu đào tạo đã phát hiện ra vấn đề với việc thiếu thông tin, hoặc dữ liệu bị sai lệch, thì cách đơn giản nhất để giải quyết vấn đề thường là để thu thập thêm dữ liệu.
Tuy nhiên, mặc dù việc tăng cường dữ liệu huấn luyện có thể là giải pháp lý tưởng, nhưng nhược điểm của phương pháp này cũng có thể không khả thi, do thiếu dữ liệu có sẵn hoặc các hạn chế về tài nguyên cản trở việc thu thập dữ liệu. Ví dụ: việc thu thập thêm dữ liệu có thể quá tốn kém hoặc tốn thời gian hay không khả thi do hạn chế về pháp lý/quyền riêng tư.
Điều chỉnh hàm tối ưu hoá của mô hình
Trong trường hợp không thể thu thập thêm dữ liệu huấn luyện, phương pháp giảm thiểu sai lệch là điều chỉnh cách tính tổn thất trong quá trình lập mô hình huấn luyện. Chúng tôi thường sử dụng chức năng tối ưu hoá như ghi nhật ký để phạt mô hình không chính xác dự đoán. Tuy nhiên, việc mất nhật ký không ảnh hưởng đến tư cách thành viên trong nhóm con cân nhắc. Vì vậy, thay vì sử dụng tính năng mất nhật ký, chúng ta có thể chọn tối ưu hoá được thiết kế để phạt lỗi theo cách nhận thức về sự công bằng bù lại sự mất cân bằng mà chúng ta đã xác định trong dữ liệu huấn luyện.
Thư viện Mô hình TensorFlow cung cấp các tiện ích để áp dụng hai các kỹ thuật giảm sai số khác nhau trong quá trình huấn luyện mô hình:
MinDiff: MinDiff hướng đến việc cân bằng lỗi cho hai phần dữ liệu khác nhau (học sinh nam/nữ so với học sinh phi nhị giới) bằng cách thêm hình phạt cho sự khác biệt về cách phân phối dự đoán của hai nhóm.
Ghép nối logic phản thực: Ghép nối logic phản thực (CLP) nhằm đảm bảo rằng việc thay đổi của một ví dụ cụ thể không làm thay đổi dự đoán của mô hình cho điều đó ví dụ: Ví dụ: nếu một tập dữ liệu huấn luyện chứa hai ví dụ có các giá trị của tính năng giống hệt nhau, ngoại trừ một giá trị có giá trị
gender
làmale
và tuỳ chọn còn lại có giá trịgender
lànonbinary
, CLP sẽ thêm hình phạt nếu dự đoán cho hai ví dụ này là khác nhau.
Các kỹ thuật bạn chọn để điều chỉnh chức năng tối ưu hoá bao gồm tuỳ thuộc vào các trường hợp sử dụng mô hình. Trong phần tiếp theo, chúng ta sẽ xem xét kỹ hơn cách tiếp cận nhiệm vụ đánh giá mô hình về tính công bằng bằng cách xem xét các trường hợp sử dụng này.