Tập dữ liệu: Tập dữ liệu không cân bằng

Hãy xem xét một tập dữ liệu chứa nhãn phân loại có giá trị là: Khẳng định hoặc Âm. Trong tập dữ liệu cân bằng, số lượng DươngÂm tính có giá trị bằng nhau. Tuy nhiên, nếu một nhãn là phổ biến hơn so với nhãn khác, thì tập dữ liệu sẽ được bất cân bằng. Nhãn chiếm ưu thế trong tập dữ liệu không cân bằng được gọi là lớp đại đa số; nhãn ít phổ biến hơn được gọi là lớp thiểu số.

Bảng sau đây cung cấp tên và dải ô được chấp nhận chung cho các mức độ mất cân bằng khác nhau:

Tỷ lệ phần trăm dữ liệu thuộc về lớp thiểu số Mức độ mất cân bằng
20-40% tập dữ liệu Nhẹ
1-20% của tập dữ liệu Vừa phải
<1% tập dữ liệu Cực cao

Ví dụ: hãy xem xét một tập dữ liệu phát hiện vi-rút trong đó tầng lớp thiểu số đại diện cho 0,5% tập dữ liệu và lớp đa số chiếm 99,5%. Các tập dữ liệu cực kỳ mất cân bằng như thế này rất phổ biến trong y học vì hầu hết các đối tượng sẽ không có vi-rút.

Hình 5. Biểu đồ thanh có hai thanh. Một thanh hiển thị khoảng 200
            lớp phủ định; thanh còn lại hiển thị 1 lớp dương.
Hình 5. Tập dữ liệu cực kỳ mất cân bằng.

 

Tập dữ liệu không cân bằng đôi khi không chứa đủ lớp thiểu số ví dụ để huấn luyện một mô hình đúng cách. Tức là với rất ít nhãn tích cực, nên mô hình này hầu như chỉ huấn luyện trên nhãn âm và không thể tìm hiểu đầy đủ về các nhãn khẳng định. Ví dụ: nếu quy mô lô là 50, nhiều lô sẽ không chứa nhãn dương.

Thường xảy ra với tình trạng mất cân bằng nhẹ và một số người bị mất cân bằng vừa phải thì mất cân bằng không phải là vấn đề. Vì vậy, trước tiên hãy thử được huấn luyện trên tập dữ liệu gốc. Nếu mô hình hoạt động tốt, bạn đã hoàn tất. Nếu không thì ít nhất mô hình dưới mức tối ưu cũng mang lại đường cơ sở cho các thử nghiệm trong tương lai. Sau đó, bạn có thể thử các kỹ thuật sau để khắc phục vấn đề do tập dữ liệu không cân bằng.

Giảm tần số lấy mẫu và Tăng trọng số

Một cách để xử lý tập dữ liệu không cân bằng là giảm bớt mẫu và tăng trọng số là tầng lớp đông đảo. Dưới đây là định nghĩa của hai thuật ngữ mới đó:

  • Giảm tần số lấy mẫu (trong ngữ cảnh này) nghĩa là huấn luyện một tập hợp con có tỷ lệ không cân đối nhỏ của tầng lớp đa số ví dụ.
  • Tăng tỷ lệ có nghĩa là thêm trọng số của lớp được lấy mẫu giảm dần bằng hệ số mà bạn giảm mẫu.

Bước 1: Lấy mẫu ít hơn lớp đa số. Cân nhắc điều này tập dữ liệu về vi-rút có tỷ lệ 1 nhãn dương tính cho mỗi 200 mẫu âm tính . Giảm tần số lấy mẫu bằng hệ số 20 cải thiện sự cân bằng thành 1 dương đến 10 âm (10%). Mặc dù kết quả là nhóm huấn luyện vẫn thiếu cân bằng, nên tỷ lệ giá trị dương so với giá trị âm tốt hơn nhiều so với cực kỳ mất cân bằng ban đầu tỷ lệ (0,5%).

Hình 6. Biểu đồ thanh có hai thanh. Một thanh hiển thị 20 kết quả âm
            lớp học; thanh còn lại hiển thị 1 lớp dương.
Hình 6. Giảm tần số lấy mẫu.

 

Bước 2: Tăng trọng số của lớp được lấy mẫu giảm: Thêm ví dụ trọng số vào lớp được lấy mẫu giảm dần. Sau khi giảm tần số lấy mẫu theo hệ số 20, trọng số của mẫu phải là 20. (Có, điều này có vẻ khác thường, nhưng chúng tôi sẽ hãy giải thích lý do sau đó.)

Hình 7. Sơ đồ hai bước về việc giảm tần số lấy mẫu và tăng trọng số.
            Bước 1: Giảm tần số lấy mẫu trích xuất các ví dụ ngẫu nhiên trong phần lớn
            . Bước 2: Tăng trọng số sẽ thêm trọng số vào phần tử được lấy mẫu giảm
            ví dụ.
Hình 7. Tăng trọng.

 

Thuật ngữ trọng số không đề cập đến các thông số của mô hình (như w1 hoặc t2). Ở đây, weight (trọng số) đề cập đến trọng số mẫu, giúp tăng mức độ quan trọng của một ví dụ riêng lẻ trong quá trình huấn luyện. Trọng số ví dụ là 10 có nghĩa là mô hình coi ví dụ này là quan trọng gấp 10 lần (khi mất tính toán) so với ví dụ trọng số 1.

Trọng số phải bằng hệ số bạn đã dùng để giảm tần suất lấy mẫu:

\[\text{ \{example weight\} = \{original example weight\} × \{downsampling factor\} }\]

Việc thêm các ví dụ về trọng lượng sau khi giảm tần số lấy mẫu có vẻ kỳ lạ. Suy cho cùng, bạn khi cố gắng làm cho mô hình này cải thiện lớp dân tộc thiểu số, vậy tại sao lại tăng trọng số của tầng lớp đa số? Trên thực tế, việc tăng trọng số tầng lớp đa số có xu hướng làm giảm thiên vị dự đoán. Tức là Tăng tần số sau khi giảm tần số lấy mẫu có xu hướng giảm cân bằng giữa giá trị trung bình số dự đoán của mô hình và giá trị trung bình của các nhãn của tập dữ liệu.

Tỷ lệ tái cân bằng

Bạn nên giảm bớt mẫu và tăng trọng số bao nhiêu để cân bằng lại tập dữ liệu? Để xác định câu trả lời, bạn nên thử nghiệm với tỷ lệ tái cân bằng, giống như cách bạn thử nghiệm với siêu tham số. Dù vậy, câu trả lời rốt cuộc vẫn phụ thuộc vào các yếu tố sau:

  • Kích thước lô
  • Tỷ lệ mất cân bằng
  • Số lượng ví dụ trong tập huấn luyện

Tốt nhất là mỗi lô nên chứa nhiều ví dụ về lớp thiểu số. Các lô không chứa đủ lớp thiểu số sẽ huấn luyện rất kém. Kích thước lô phải lớn hơn tỷ lệ mất cân bằng vài lần. Ví dụ: nếu tỷ lệ không cân bằng là 100:1, thì kích thước lô ít nhất là 500.

Bài tập: Kiểm tra kiến thức

Hãy cân nhắc trường hợp sau:

  • Kích thước lô là 128.
  • Tỷ lệ bất cân bằng là 100:1.
  • Tập hợp huấn luyện chứa một tỷ ví dụ.
Câu nào sau đây là đúng?
Việc tăng kích thước lô lên 1.024 sẽ cải thiện kết quả mô hình.
Với kích thước lô là 1.024, mỗi lô sẽ trung bình khoảng 10 các ví dụ về lớp thiểu số, đủ để huấn luyện. Khi không giảm tần số lấy mẫu, tập huấn luyện vẫn tiếp tục chứa một hàng tỷ ví dụ.
Giảm tần số lấy mẫu (và tăng tỷ lệ) xuống 20:1 trong khi vẫn giữ kích thước lô tại 128 sẽ cải thiện mô hình thu được.
Mỗi lô sẽ có trung bình khoảng 9 ví dụ về lớp thiểu số, do đó thì đủ cho việc đào tạo. Việc giảm tần số lấy mẫu giúp giảm hiệu quả số lượng ví dụ trong tập huấn luyện từ một tỷ đến 40 triệu.
Tình hình hiện tại bình thường.
Hầu hết các lô sẽ không chứa đủ các lớp thiểu số để đào tạo một trang web mô hình.