Hãy xem xét một tập dữ liệu chứa nhãn phân loại có giá trị là Dương hoặc Âm. Trong một tập dữ liệu cân bằng, số lượng nhãn Dương tính và Âm tính gần như bằng nhau. Tuy nhiên, nếu một nhãn phổ biến hơn nhãn còn lại, thì tập dữ liệu đó sẽ bất cân bằng. Nhãn chiếm ưu thế trong một tập dữ liệu mất cân bằng được gọi là lớp đa số; nhãn ít phổ biến hơn được gọi là lớp thiểu số.
Bảng sau đây cung cấp tên và phạm vi được chấp nhận chung cho các mức độ mất cân bằng:
Tỷ lệ phần trăm dữ liệu thuộc lớp thiểu số | Mức độ mất cân bằng |
---|---|
20-40% tập dữ liệu | Nhẹ |
1-20% tập dữ liệu | Trung bình |
<1% tập dữ liệu | Cực cao |
Ví dụ: hãy xem xét một tập dữ liệu phát hiện vi-rút, trong đó lớp thiểu số chiếm 0,5% tập dữ liệu và lớp đa số chiếm 99,5%. Các tập dữ liệu cực kỳ mất cân bằng như tập dữ liệu này thường gặp trong y học vì hầu hết các đối tượng sẽ không nhiễm virus.
Đôi khi, tập dữ liệu mất cân bằng không chứa đủ ví dụ về lớp thiểu số để huấn luyện mô hình đúng cách. Tức là với quá ít nhãn dương, mô hình gần như chỉ huấn luyện trên các nhãn âm và không thể học đủ về nhãn dương. Ví dụ: nếu kích thước lô là 50, thì nhiều lô sẽ không chứa nhãn dương.
Thông thường, đặc biệt là đối với các tập dữ liệu không cân bằng một chút và một số tập dữ liệu không cân bằng vừa phải, sự mất cân bằng không phải là vấn đề. Vì vậy, trước tiên, bạn nên thử đào tạo trên tập dữ liệu gốc. Nếu mô hình hoạt động tốt, bạn đã hoàn tất. Nếu không, ít nhất mô hình không tối ưu cũng cung cấp một điểm chuẩn tốt cho các thử nghiệm trong tương lai. Sau đó, bạn có thể thử các kỹ thuật sau để khắc phục các vấn đề do tập dữ liệu mất cân bằng gây ra.
Lấy mẫu giảm và Tăng trọng số
Một cách để xử lý tập dữ liệu mất cân bằng là giảm mẫu và tăng trọng số cho lớp chiếm đa số. Sau đây là định nghĩa của hai thuật ngữ mới đó:
- Lấy mẫu giảm (trong ngữ cảnh này) có nghĩa là huấn luyện trên một tập hợp con thấp không tương xứng của các ví dụ về lớp đa số.
- Tăng trọng số có nghĩa là thêm một trọng số mẫu vào lớp lấy mẫu giảm bằng hệ số mà bạn lấy mẫu giảm.
Bước 1: Lấy mẫu giảm độ phân giải cho lớp đa số. Hãy xem xét tập dữ liệu về virus trong Hình 5 có tỷ lệ 1 nhãn dương tính trên mỗi 200 nhãn âm tính. Việc giảm tần số lấy mẫu theo hệ số 10 giúp cải thiện tỷ lệ cân bằng thành 1 giá trị dương trên 20 giá trị âm (5%). Mặc dù tập huấn luyện thu được vẫn bất cân bằng ở mức trung bình, nhưng tỷ lệ số ví dụ dương tính trên số ví dụ âm tính tốt hơn nhiều so với tỷ lệ bất cân bằng nghiêm trọng ban đầu (0,5%).
Bước 2: Tăng trọng số cho lớp được lấy mẫu giảm: Thêm trọng số mẫu vào lớp được lấy mẫu giảm. Sau khi giảm mẫu theo hệ số 10, trọng số mẫu sẽ là 10. (Đúng vậy, điều này có vẻ như không hợp lý, nhưng chúng ta sẽ giải thích lý do sau.)
Thuật ngữ trọng số không đề cập đến các tham số mô hình (chẳng hạn như w1 hoặc w2). Ở đây, weight (trọng số) đề cập đến ví dụ về trọng số, giúp tăng tầm quan trọng của một ví dụ riêng lẻ trong quá trình huấn luyện. Trọng số ví dụ là 10 có nghĩa là mô hình coi trọng số liệu này gấp 10 lần (khi tính toán tổn thất) so với số liệu có trọng số là 1.
Trọng số phải bằng hệ số mà bạn dùng để giảm mẫu:
\[\text{ \{example weight\} = \{original example weight\} × \{downsampling factor\} }\]
Có vẻ như việc thêm trọng số mẫu sau khi giảm mẫu là điều kỳ lạ. Xét cho cùng, bạn đang cố gắng cải thiện mô hình cho lớp thiểu số, vậy tại sao lại tăng trọng số cho lớp đa số? Trên thực tế, việc tăng trọng số cho lớp đa số có xu hướng làm giảm tình trạng thiên vị dự đoán. Tức là, việc tăng trọng số sau khi giảm mẫu có xu hướng làm giảm delta giữa giá trị trung bình của kết quả dự đoán của mô hình và giá trị trung bình của nhãn trong tập dữ liệu.
Tỷ lệ cân bằng lại
Bạn nên giảm mẫu và tăng trọng số bao nhiêu để cân bằng lại tập dữ liệu? Để xác định câu trả lời, bạn nên thử nghiệm với tỷ lệ cân bằng lại, giống như cách bạn thử nghiệm với các tham số siêu dữ liệu khác. Tuy nhiên, câu trả lời cuối cùng phụ thuộc vào các yếu tố sau:
- Kích thước lô
- Tỷ lệ mất cân bằng
- Số lượng ví dụ trong tập huấn luyện
Tốt nhất là mỗi lô phải chứa nhiều ví dụ về lớp thiểu số. Các lô không chứa đủ lớp thiểu số sẽ huấn luyện rất kém. Kích thước lô phải lớn hơn tỷ lệ mất cân bằng vài lần. Ví dụ: nếu tỷ lệ mất cân bằng là 100:1, thì kích thước lô phải là tối thiểu 500.
Bài tập: Kiểm tra mức độ hiểu bài
Hãy cân nhắc trường hợp sau:
- Tập dữ liệu huấn luyện chứa hơn một tỷ ví dụ.
- Kích thước lô là 128.
- Tỷ lệ mất cân bằng là 100:1, vì vậy, tập huấn luyện được chia như sau:
- Khoảng 1 tỷ ví dụ về lớp đa số.
- ~10 triệu ví dụ về lớp thiểu số.