Tập dữ liệu: Tập dữ liệu không cân bằng

Hãy xem xét một tập dữ liệu chứa nhãn phân loại có giá trị là Dương hoặc Âm. Trong một tập dữ liệu cân bằng, số lượng nhãn Dương tínhÂm tính gần như bằng nhau. Tuy nhiên, nếu một nhãn phổ biến hơn nhãn còn lại, thì tập dữ liệu đó sẽ bất cân bằng. Nhãn chiếm ưu thế trong một tập dữ liệu mất cân bằng được gọi là lớp đa số; nhãn ít phổ biến hơn được gọi là lớp thiểu số.

Bảng sau đây cung cấp tên và phạm vi được chấp nhận chung cho các mức độ mất cân bằng:

Tỷ lệ phần trăm dữ liệu thuộc lớp thiểu số Mức độ mất cân bằng
20-40% tập dữ liệu Nhẹ
1-20% tập dữ liệu Trung bình
<1% tập dữ liệu Cực cao

Ví dụ: hãy xem xét một tập dữ liệu phát hiện vi-rút, trong đó lớp thiểu số chiếm 0,5% tập dữ liệu và lớp đa số chiếm 99,5%. Các tập dữ liệu cực kỳ mất cân bằng như tập dữ liệu này thường gặp trong y học vì hầu hết các đối tượng sẽ không nhiễm virus.

Hình 5. Biểu đồ thanh có hai thanh. Một thanh hiển thị khoảng 200 lớp âm; thanh còn lại hiển thị 1 lớp dương.
Hình 5. Tập dữ liệu cực kỳ mất cân bằng.

 

Đôi khi, tập dữ liệu mất cân bằng không chứa đủ ví dụ về lớp thiểu số để huấn luyện mô hình đúng cách. Tức là với quá ít nhãn dương, mô hình gần như chỉ huấn luyện trên các nhãn âm và không thể học đủ về nhãn dương. Ví dụ: nếu kích thước lô là 50, thì nhiều lô sẽ không chứa nhãn dương.

Thông thường, đặc biệt là đối với các tập dữ liệu không cân bằng một chút và một số tập dữ liệu không cân bằng vừa phải, sự mất cân bằng không phải là vấn đề. Vì vậy, trước tiên, bạn nên thử đào tạo trên tập dữ liệu gốc. Nếu mô hình hoạt động tốt, bạn đã hoàn tất. Nếu không, ít nhất mô hình không tối ưu cũng cung cấp một điểm chuẩn tốt cho các thử nghiệm trong tương lai. Sau đó, bạn có thể thử các kỹ thuật sau để khắc phục các vấn đề do tập dữ liệu mất cân bằng gây ra.

Lấy mẫu giảm và Tăng trọng số

Một cách để xử lý tập dữ liệu mất cân bằng là giảm mẫu và tăng trọng số cho lớp chiếm đa số. Sau đây là định nghĩa của hai thuật ngữ mới đó:

  • Lấy mẫu giảm (trong ngữ cảnh này) có nghĩa là huấn luyện trên một tập hợp con thấp không tương xứng của các ví dụ về lớp đa số.
  • Tăng trọng số có nghĩa là thêm một trọng số mẫu vào lớp lấy mẫu giảm bằng hệ số mà bạn lấy mẫu giảm.

Bước 1: Lấy mẫu giảm độ phân giải cho lớp đa số. Hãy xem xét tập dữ liệu về virus trong Hình 5 có tỷ lệ 1 nhãn dương tính trên mỗi 200 nhãn âm tính. Việc giảm tần số lấy mẫu theo hệ số 10 giúp cải thiện tỷ lệ cân bằng thành 1 giá trị dương trên 20 giá trị âm (5%). Mặc dù tập huấn luyện thu được vẫn bất cân bằng ở mức trung bình, nhưng tỷ lệ số ví dụ dương tính trên số ví dụ âm tính tốt hơn nhiều so với tỷ lệ bất cân bằng nghiêm trọng ban đầu (0,5%).

Hình 6. Biểu đồ thanh có hai thanh. Một thanh hiển thị 20 lớp âm; thanh còn lại hiển thị 1 lớp dương.
Hình 6. Lấy mẫu xuống.

 

Bước 2: Tăng trọng số cho lớp được lấy mẫu giảm: Thêm trọng số mẫu vào lớp được lấy mẫu giảm. Sau khi giảm mẫu theo hệ số 10, trọng số mẫu sẽ là 10. (Đúng vậy, điều này có vẻ như không hợp lý, nhưng chúng ta sẽ giải thích lý do sau.)

Hình 7. Sơ đồ hai bước về việc giảm mẫu và tăng trọng số.
            Bước 1: Lấy mẫu giảm tỷ lệ trích xuất các ví dụ ngẫu nhiên từ lớp chiếm đa số. Bước 2: Tăng trọng số sẽ thêm trọng số vào các ví dụ được lấy mẫu giảm.
Hình 7. Tăng trọng số.

 

Thuật ngữ trọng số không đề cập đến các tham số mô hình (chẳng hạn như w1 hoặc w2). Ở đây, weight (trọng số) đề cập đến ví dụ về trọng số, giúp tăng tầm quan trọng của một ví dụ riêng lẻ trong quá trình huấn luyện. Trọng số ví dụ là 10 có nghĩa là mô hình coi trọng số liệu này gấp 10 lần (khi tính toán tổn thất) so với số liệu có trọng số là 1.

Trọng số phải bằng hệ số mà bạn dùng để giảm mẫu:

\[\text{ \{example weight\} = \{original example weight\} × \{downsampling factor\} }\]

Có vẻ như việc thêm trọng số mẫu sau khi giảm mẫu là điều kỳ lạ. Xét cho cùng, bạn đang cố gắng cải thiện mô hình cho lớp thiểu số, vậy tại sao lại tăng trọng số cho lớp đa số? Trên thực tế, việc tăng trọng số cho lớp đa số có xu hướng làm giảm tình trạng thiên vị dự đoán. Tức là, việc tăng trọng số sau khi giảm mẫu có xu hướng làm giảm delta giữa giá trị trung bình của kết quả dự đoán của mô hình và giá trị trung bình của nhãn trong tập dữ liệu.

Tỷ lệ cân bằng lại

Bạn nên giảm mẫu và tăng trọng số bao nhiêu để cân bằng lại tập dữ liệu? Để xác định câu trả lời, bạn nên thử nghiệm với tỷ lệ cân bằng lại, giống như cách bạn thử nghiệm với các tham số siêu dữ liệu khác. Tuy nhiên, câu trả lời cuối cùng phụ thuộc vào các yếu tố sau:

  • Kích thước lô
  • Tỷ lệ mất cân bằng
  • Số lượng ví dụ trong tập huấn luyện

Tốt nhất là mỗi lô phải chứa nhiều ví dụ về lớp thiểu số. Các lô không chứa đủ lớp thiểu số sẽ huấn luyện rất kém. Kích thước lô phải lớn hơn tỷ lệ mất cân bằng vài lần. Ví dụ: nếu tỷ lệ mất cân bằng là 100:1, thì kích thước lô phải là tối thiểu 500.

Bài tập: Kiểm tra mức độ hiểu bài

Hãy cân nhắc trường hợp sau:

  • Tập dữ liệu huấn luyện chứa hơn một tỷ ví dụ.
  • Kích thước lô là 128.
  • Tỷ lệ mất cân bằng là 100:1, vì vậy, tập huấn luyện được chia như sau:
    • Khoảng 1 tỷ ví dụ về lớp đa số.
    • ~10 triệu ví dụ về lớp thiểu số.
Câu nào sau đây là đúng?
Việc tăng kích thước lô lên 1.024 sẽ cải thiện mô hình thu được.
Với kích thước lô là 1.024, mỗi lô sẽ có trung bình khoảng 10 ví dụ về lớp thiểu số, điều này sẽ giúp huấn luyện một mô hình tốt hơn nhiều.
Việc giữ nguyên kích thước lô ở mức 128 nhưng giảm tần số lấy mẫu (và tăng trọng số) xuống 20:1 sẽ cải thiện mô hình thu được.
Nhờ giảm tần số lấy mẫu, mỗi lô 128 sẽ có trung bình khoảng 21 ví dụ về lớp thiểu số, đủ để huấn luyện một mô hình hữu ích. Xin lưu ý rằng việc giảm tần số lấy mẫu sẽ làm giảm số lượng ví dụ trong tập huấn luyện từ hơn một tỷ xuống còn khoảng 60 triệu.
Các tham số siêu dữ liệu hiện tại vẫn ổn.
Với kích thước lô là 128, mỗi lô sẽ có trung bình khoảng 1 ví dụ về lớp thiểu số. Điều này có thể không đủ để huấn luyện một mô hình hữu ích.