Zbiory danych: niezrównoważone zbiory danych

Załóżmy, że mamy zbiór danych zawierający etykietę kategorialną, której wartość to Dodatnia lub ujemna. W zrównoważonym zbiorze danych liczba etykiet Pozytywne i Negatywne jest mniej więcej równa. Jeśli jednak jedna etykieta jest bardziej powszechna niż druga etykieta, zbiór danych zostanie niezrównoważony. Etykieta dominująca w niezrównoważonym zbiorze danych to tzw. klasa większości; mniej popularna etykieta to klasa mniejszości.

W poniższej tabeli podano ogólnie akceptowane nazwy i zakresy dla różne stopnie nierównowagi:

Odsetek danych należących do klasy mniejszości Stopień nierówności
20–40% zbioru danych Łagodne
1–20% zbioru danych Średnia
<1% zbioru danych Najwyższa wydajność

Załóżmy na przykład, że zbiór danych do wykrywania wirusów zawiera klasę mniejszościową, która stanowi 0,5% zbioru danych, a klasa większościowa – 99,5%. Skrajnie niezrównoważone zbiory danych, takie jak ten, są powszechne w medycynie, u większości osób nie ma wirusa.

Rysunek 5.  Wykres słupkowy z 2 słupkami. Jeden takt wyświetla około 200
            klasy negatywne; drugi słupek pokazuje 1 klasę pozytywną.
Rysunek 5. Skrajnie niezrównoważony zbiór danych.

 

Zbiory danych z niezrównoważoną reprezentacją nie zawsze zawierają wystarczającą liczbę przykładów klasy mniejszości, aby można było prawidłowo wytrenować model. Oznacza to, że przy tak małej liczbie etykiet pozytywnych model trenuje niemal wyłącznie na etykiety negatywne i nie możemy dowiedzieć się więcej o etykietach pozytywnych. Przykład: jeśli rozmiar wsadu wynosi 50, wiele wsadów nie będzie zawierać żadnych etykiet dodatnich.

Często, zwłaszcza w przypadku osób z nierównomierną i umiarkowaną nierównością w zbiorach danych, brak zrównoważenia nie jest problemem. Dlatego najpierw spróbuj przeprowadzić szkolenie na podstawie pierwotnego zbioru danych. Jeśli model działa dobrze, nie musisz nic robić. W przeciwnym razie model suboptymalny stanowi dobrą wartość odniesienia na potrzeby przyszłych eksperymentów. Następnie możesz wypróbować podane niżej techniki, aby rozwiązać problemy spowodowane niewyważonymi zbiorami danych.

Próbkowanie w dół i przypisywanie większej wagi

Jednym ze sposobów radzenia sobie z niezrównoważonym zbiorem danych jest zmniejszenie próbki i zwiększenie wagi klasy większości. Oto definicje tych 2 nowych terminów:

  • Przetwarzanie próbek (w tym kontekście) oznacza trenowanie na nieproporcjonalnie małej podzbiorze przykładów z klasy większości.
  • Przeciążenie oznacza dodanie wagi przykładowej do najniższej klasy, równej czynnikowi, według którego ale nie jest spróbkowany.

Krok 1. Spróbuj zmniejszyć próbkowanie większości klasy. Rozważ zbiór danych o wirusach pokazany na rysunku 5, który ma stosunek 1 etykiety pozytywnej na 200 etykiet negatywnych. Próbkowanie w wysokości 10 zwiększa bilans z 1 do 20. minus (5%). Mimo że powstały w ten sposób zbiór treningowy jest w dalszym ciągu nierównomierny, stosunek wartości dodatnich do wyników ujemnych jest znacznie lepszy niż pierwotny skrajnie niezrównoważony odsetek (0,5%).

Rysunek 6. Wykres słupkowy z 2 słupkami. 1 słupek pokazuje 20 ujemnych wartości
            classes; drugi słupek pokazuje 1 klasę pozytywną.
Rysunek 6. próbkowania w dół.

 

Krok 2. Zwiększ wagę klasy z obniżonym próbkowaniem: dodaj wagi przykładów do klasy z obniżonym próbkowaniem. Po zmniejszeniu próbkowania 10-krotnie waga przykładu powinna wynosić 10. (może się to wydawać sprzeczne z intuicją, ale wyjaśnimy, dlaczego tak jest).

Rysunek 7. Dwuetapowy schemat zmniejszający próbkowanie i zwiększanie wagi.
            Krok 1. Zmniejszenie próbkowania polega na wyodrębnianiu losowych przykładów z klasy większości. Krok 2. Zwiększenie wagi zwiększa wagę przykładów z obniżonym próbkowaniem.
Rysunek 7. Przeciążanie.

 

Termin waga nie odnosi się do parametrów modelu (takich jak w1 lub w2). Tutaj waga odnosi się do przykładowe wagi, które zwiększają znaczenie poszczególnych przykładów. podczas trenowania. Przykładowa waga 10 oznacza, że model traktuje przykład jako 10 razy ważniejsze (w przypadku strat obliczeniowych) niż w przykładzie waga 1.

Waga powinna być równa współczynnikowi użytego do próbkowania:

\[\text{ \{example weight\} = \{original example weight\} × \{downsampling factor\} }\]

Dodawanie przykładowych wag po zmniejszaniu próbkowania może wydawać się dziwne. W końcu jesteś stara się poprawić ten model w klasie mniejszości, więc po co zwiększać wagę klasa większości? Wzrost wagi klasy większości powoduje zmniejszenie błędów w prognozach. Oznacza to, że po zastosowaniu próbkowania w dół zwiększanie wagi po zastosowaniu próbkowania w górę ma tendencję do zmniejszania różnicy między średnią prognoz modelu a średnią etykiet w danych.

Współczynniki równowagi

Jak bardzo zmniejszyć próbkowanie i zwiększyć wagę, aby zrównoważyć zbiór danych? Aby znaleźć odpowiedź, eksperymentuj z proporcją ponownego wyważenia, tak jak w przypadku innych hiperparametrów. Odpowiedź zależy jednak od tych czynników:

  • Rozmiar wsadu.
  • Współczynnik nierównoważenia
  • Liczba przykładów w zbiorze treningowym

Najlepiej, gdy każda wsadu zawiera wiele przykładów klas mniejszości. Wsady, które nie zawierają wystarczającej liczby klas mniejszości, będą trenowane bardzo słabo. Wielkość wsadu powinna być kilkakrotnie większa niż współczynnik braku równowagi. Jeśli na przykład stosunek nierównowagi wynosi 100:1, rozmiar partii powinien wynosić co najmniej 500.

Ćwiczenie: sprawdź swoją wiedzę

Rozważ tę sytuację:

  • Zbiór treningowy zawiera nieco ponad miliard przykładów.
  • Wielkość wsadu to 128.
  • Stosunek nierównowagi wynosi 100:1, więc zbiór treningowy jest podzielony w ten sposób:
    • około 1 mld przykładów większościowych klas;
    • około 10 mln przykładów z klasy mniejszościowej;
Które z poniższych stwierdzeń jest prawdziwe?
Zwiększenie rozmiaru wsadu do 1024 poprawi wynik model atrybucji.
Przy rozmiarze partii wynoszącym 1024 przypadki każda partia będzie zawierać średnio około 10 przykładów z klasy mniejszości, co powinno pomóc w trenowaniu znacznie lepszego modelu.
Utrzymanie rozmiaru partii na poziomie 128, ale zmniejszenie próbkowania (i zwiększenie wagi) do 20:1 poprawi uzyskany model.
Dzięki zmniejszaniu próbkowania każda porcja składająca się z 128 plików będzie miała średnio około 21 przykłady klas mniejszości, które powinny wystarczyć do trenowania przydatny model. Pamiętaj, że próbkowanie w dół zmniejsza liczbę przykładów w zbiorze treningowym z nieco ponad miliarda do około 60 milionów.
Bieżące hiperparametry są prawidłowe.
Jeśli rozmiar wsadu wynosi 128, każda wsad będzie miała średnio około 1 mniejszości. który może być niewystarczający do wytrenowania pożytecznego model atrybucji.