Tập dữ liệu: Tập dữ liệu không cân bằng

Hãy xem xét một tập dữ liệu chứa nhãn phân loại có giá trị là: Khẳng định hoặc Âm. Trong tập dữ liệu cân bằng, số lượng DươngÂm tính có giá trị bằng nhau. Tuy nhiên, nếu một nhãn phổ biến hơn nhãn còn lại, thì tập dữ liệu đó sẽ bất cân bằng. Nhãn chiếm ưu thế trong một tập dữ liệu mất cân bằng được gọi là lớp đa số; nhãn ít phổ biến hơn được gọi là lớp thiểu số.

Bảng sau đây cung cấp các tên và phạm vi được chấp nhận chung cho các mức độ mất cân bằng:

Tỷ lệ phần trăm dữ liệu thuộc lớp thiểu số Mức độ mất cân bằng
20-40% tập dữ liệu Nhẹ
1-20% của tập dữ liệu Vừa phải
<1% tập dữ liệu Cực cao

Ví dụ: hãy xem xét một tập dữ liệu phát hiện vi-rút, trong đó lớp thiểu số chiếm 0,5% tập dữ liệu và lớp đa số chiếm 99,5%. Các tập dữ liệu cực kỳ mất cân bằng như thế này rất phổ biến trong y học vì hầu hết các đối tượng sẽ không có vi-rút.

Hình 5. Biểu đồ thanh có hai thanh. Một thanh hiển thị khoảng 200
            lớp phủ định; thanh còn lại hiển thị 1 lớp dương.
Hình 5. Tập dữ liệu cực kỳ mất cân bằng.

 

Đôi khi, tập dữ liệu mất cân bằng không chứa đủ ví dụ về lớp thiểu số để huấn luyện mô hình đúng cách. Tức là với rất ít nhãn tích cực, nên mô hình này hầu như chỉ huấn luyện trên nhãn âm và không thể tìm hiểu đầy đủ về các nhãn khẳng định. Ví dụ: nếu kích thước lô là 50, nhiều lô sẽ không chứa nhãn dương.

Thông thường, đặc biệt là đối với các tập dữ liệu không cân bằng một chút và một số tập dữ liệu không cân bằng vừa phải, sự mất cân bằng không phải là vấn đề. Vì vậy, trước tiên, bạn nên thử huấn luyện trên tập dữ liệu gốc. Nếu mô hình hoạt động tốt, bạn đã hoàn tất. Nếu không, ít nhất mô hình không tối ưu cũng cung cấp một điểm chuẩn tốt cho các thử nghiệm trong tương lai. Sau đó, bạn có thể thử các kỹ thuật sau để khắc phục vấn đề do tập dữ liệu không cân bằng.

Lấy mẫu giảm và Tăng trọng số

Một cách để xử lý tập dữ liệu mất cân bằng là giảm mẫu và tăng trọng số cho lớp chiếm đa số. Dưới đây là định nghĩa của hai thuật ngữ mới đó:

  • Lấy mẫu giảm (trong ngữ cảnh này) có nghĩa là huấn luyện trên một tập hợp con thấp không tương xứng của các ví dụ về lớp đa số.
  • Tăng trọng số có nghĩa là thêm một trọng số mẫu vào lớp lấy mẫu giảm bằng hệ số mà bạn lấy mẫu giảm.

Bước 1: Lấy mẫu giảm độ phân giải cho lớp đa số. Hãy xem xét tập dữ liệu về vi-rút hiển thị trong Hình 5 có tỷ lệ 1 nhãn dương cho mỗi 200 nhãn âm. Việc giảm tần số lấy mẫu bằng hệ số 10 cải thiện sự cân bằng từ 1 dương đến 20 âm (5%). Mặc dù tập hợp huấn luyện thu được vẫn tương đối không cân bằng thì tỷ lệ dương tính so với âm sẽ cao hơn nhiều tỷ lệ cực kỳ không cân bằng ban đầu (0,5%).

Hình 6. Biểu đồ thanh có hai thanh. Một thanh hiển thị 20 lớp âm; thanh còn lại hiển thị 1 lớp dương.
Hình 6. Lấy mẫu giảm.

 

Bước 2: Tăng trọng số của lớp được lấy mẫu giảm: Thêm ví dụ trọng số vào lớp được lấy mẫu giảm dần. Sau khi giảm tần số lấy mẫu theo hệ số 10, trọng số của ví dụ phải là 10. (Đúng vậy, điều này có vẻ như không hợp lý, nhưng chúng ta sẽ giải thích lý do sau.)

Hình 7. Sơ đồ hai bước về việc giảm tần số lấy mẫu và tăng trọng số.
            Bước 1: Giảm tần số lấy mẫu trích xuất các ví dụ ngẫu nhiên trong phần lớn
            . Bước 2: Tăng trọng số sẽ thêm trọng số vào các ví dụ được lấy mẫu giảm.
Hình 7. Tăng tỷ lệ.

 

Thuật ngữ trọng số không đề cập đến các thông số của mô hình (như w1 hoặc t2). Ở đây, weight (trọng số) đề cập đến ví dụ về trọng số, giúp tăng tầm quan trọng của một ví dụ riêng lẻ trong quá trình huấn luyện. Trọng số ví dụ là 10 có nghĩa là mô hình coi ví dụ này là quan trọng gấp 10 lần (khi mất tính toán) so với ví dụ trọng số 1.

Trọng số phải bằng hệ số bạn đã dùng để giảm tần suất lấy mẫu:

\[\text{ \{example weight\} = \{original example weight\} × \{downsampling factor\} }\]

Việc thêm các ví dụ về trọng lượng sau khi giảm tần số lấy mẫu có vẻ kỳ lạ. Xét cho cùng, bạn đang cố gắng cải thiện mô hình cho lớp thiểu số, vậy tại sao lại tăng trọng số cho lớp đa số? Trên thực tế, việc tăng trọng số tầng lớp đa số có xu hướng làm giảm thiên vị dự đoán. Tức là, việc tăng trọng số sau khi giảm mẫu có xu hướng làm giảm delta giữa giá trị trung bình của kết quả dự đoán của mô hình và giá trị trung bình của nhãn trong tập dữ liệu.

Tỷ lệ cân bằng lại

Bạn nên giảm bớt mẫu và tăng trọng số bao nhiêu để cân bằng lại tập dữ liệu? Để xác định câu trả lời, bạn nên thử nghiệm với tỷ lệ tái cân bằng, giống như cách bạn thử nghiệm với siêu tham số. Tuy nhiên, câu trả lời cuối cùng phụ thuộc vào các yếu tố sau:

  • Kích thước lô
  • Tỷ lệ mất cân bằng
  • Số lượng ví dụ trong tập huấn luyện

Tốt nhất là mỗi lô phải chứa nhiều ví dụ về lớp thiểu số. Các lô không chứa đủ lớp thiểu số sẽ huấn luyện rất kém. Kích thước lô phải lớn hơn tỷ lệ mất cân bằng vài lần. Ví dụ: nếu tỷ lệ không cân bằng là 100:1, thì kích thước lô ít nhất là 500.

Bài tập: Kiểm tra kiến thức

Hãy cân nhắc trường hợp sau:

  • Tập dữ liệu huấn luyện chứa hơn một tỷ ví dụ.
  • Kích thước lô là 128.
  • Tỷ lệ mất cân bằng là 100:1, do đó tập huấn luyện được chia như sau:
    • ~1 tỷ ví dụ về lớp đa số.
    • ~10 triệu ví dụ về lớp thiểu số.
Câu nào sau đây là đúng?
Việc tăng kích thước lô lên 1.024 sẽ cải thiện kết quả mô hình.
Với kích thước lô là 1.024, mỗi lô sẽ có trung bình khoảng 10 ví dụ về lớp thiểu số, điều này sẽ giúp huấn luyện một mô hình tốt hơn nhiều.
Giữ kích thước lô ở 128 nhưng giảm tần số lấy mẫu (và tăng trọng số) thành 20:1 sẽ giúp cải thiện mô hình thu được.
Nhờ giảm tần số lấy mẫu, mỗi lô 128 sẽ có trung bình khoảng 21 các ví dụ về lớp thiểu số, đủ để đào tạo một mô hình hữu ích. Xin lưu ý rằng việc giảm tần số lấy mẫu sẽ làm giảm số lượng ví dụ trong tập huấn luyện từ hơn một tỷ xuống còn khoảng 60 triệu.
Các siêu tham số hiện tại đều ổn.
Với kích thước lô là 128, trung bình mỗi lô sẽ có khoảng 1 thiểu số ví dụ về lớp, mà có thể không đủ để huấn luyện một lớp mô hình.