Zbiory danych: niezrównoważone zbiory danych

Załóżmy, że mamy zbiór danych zawierający etykietę kategorialną, której wartość to Dodatnia lub ujemna. W zrównoważonym zbiorze danych liczba wartości dodatni i ujemne są mniej więcej równe. Jeśli jednak jedna etykieta jest bardziej powszechna niż druga etykieta, zbiór danych zostanie niezrównoważony. Etykieta dominująca w niezrównoważonym zbiorze danych to tzw. klasa większości; mniej popularna etykieta to klasa mniejszości.

W poniższej tabeli podano ogólnie akceptowane nazwy i zakresy dla różne stopnie nierównowagi:

Odsetek danych należących do klasy mniejszości Stopień nierówności
20–40% zbioru danych Łagodne
1–20% zbioru danych Średnia
<1% zbioru danych Najwyższa wydajność

Weźmy na przykład zbiór danych wykrywania wirusów, w którym klasa mniejszościowa to 0,5% zbioru danych, a klasa większości to 99,5%. Skrajnie niezrównoważone zbiory danych, takie jak ten, są powszechne w medycynie, u większości osób nie ma wirusa.

Rysunek 5.  Wykres słupkowy z 2 słupkami. Jeden takt wyświetla około 200
            klasy negatywne; drugi słupek pokazuje 1 klasę pozytywną.
Rysunek 5. Skrajnie niezrównoważony zbiór danych.

 

Niezrównoważone zbiory danych czasami nie zawierają wystarczającej klasy mniejszości do prawidłowego wytrenowania modelu. Oznacza to, że przy tak małej liczbie etykiet pozytywnych model trenuje niemal wyłącznie na etykiety negatywne i nie możemy dowiedzieć się więcej o etykietach pozytywnych. Przykład: jeśli rozmiar wsadu wynosi 50, wiele wsadów nie będzie zawierać żadnych etykiet dodatnich.

Często, zwłaszcza w przypadku osób z nierównomierną i umiarkowaną nierównością w zbiorach danych – brak zrównoważenia nie jest problemem. Dlatego najpierw spróbuj w pierwotnym zbiorze danych. Jeśli model działa dobrze, nie musisz nic robić. Jeśli nie, przynajmniej ten nieoptymalny model zapewnia dobry punkt odniesienia w przyszłych eksperymentach. Potem możesz wypróbować poniższe metody, aby rozwiązać problemy ze względu na niezrównoważone zbiory danych.

Downsampling i Upweighting

Jednym ze sposobów obsługi niezrównoważonego zbioru danych jest zmniejszanie próbkowania i zwiększanie wagi klasy większości. Oto definicje tych dwóch nowych terminów:

  • Downsampling (w tym kontekście) oznacza trenowanie na nieproporcjonalnie niskiej podzbiorze większości klasy. przykłady.
  • Przeciążenie oznacza dodanie wagi przykładowej do najniższej klasy, równej czynnikowi, według którego ale nie jest spróbkowany.

Krok 1. Spróbuj zmniejszyć próbkowanie większości klasy. Pamiętaj, że zbiór danych wirusów, w którym stosunek 1 etykiety dodatniej na każde 200 ujemnych wartości etykiety. Zmniejszanie próbkowania przez współczynnik 20 poprawia saldo w zakresie od 1 do 10 negatywnych (10%). Mimo że powstały w ten sposób zbiór treningowy jest w dalszym ciągu częściowo nierówny, minusy na minus są znacznie lepsze niż w przypadku oryginalnych wyjątkowo niezrównoważonych. (0,5%).

Rysunek 6. Wykres słupkowy z 2 słupkami. 1 słupek pokazuje 20 ujemnych wartości
            zajęcia; drugi słupek pokazuje 1 klasę pozytywną.
Rysunek 6. Downsampling.

 

Krok 2. Zmniejsz rozmiar spróbkowanej klasy – dodaj przykład wagi do zmniejszonej wartości spróbkowanej. Po 20-krotnym zmniejszeniu próbkowania przykładowa waga powinna wynosić 20. (Tak, może się to wydawać sprzeczne z intuicją, wyjaśnij później dlaczego).

Rysunek 7. Dwuetapowy schemat zmniejszający próbkowanie i zwiększanie wagi.
            Krok 1. Opcja Downsampling wyodrębnia losowe przykłady z większości
            zajęcia. Krok 2. Przeciążenie wyższego poziomu zwiększa wagę zmniejszonej próbki
            przykłady.
Rysunek 7. Przeciążanie.

 

Termin waga nie odnosi się do parametrów modelu (takich jak w1 lub w2). Tutaj waga odnosi się do przykładowe wagi, które zwiększają znaczenie poszczególnych przykładów. podczas trenowania. Przykładowa waga 10 oznacza, że model traktuje przykład jako 10 razy ważniejsze (w przypadku strat obliczeniowych) niż w przykładzie waga 1.

Waga powinna być równa współczynnikowi użytego do próbkowania:

\[\text{ \{example weight\} = \{original example weight\} × \{downsampling factor\} }\]

Dodawanie przykładowych wag po zmniejszaniu próbkowania może wydawać się dziwne. W końcu jesteś stara się poprawić ten model w klasie mniejszości, więc po co zwiększać wagę klasa większości? Przeciążenie klasy większości powoduje zmniejszenie odchylenia prognozy. To znaczy, podnoszenie ciężarów po zmniejszeniu próbkowania powoduje zwykle zmniejszenie różnicy między średnią prognoz modelu i średniej etykiet zbioru danych.

Współczynniki równowagi

Jak bardzo zmniejszyć próbkowanie i zwiększyć wagę, aby zrównoważyć zbiór danych? Aby znaleźć odpowiedź, musisz poeksperymentować ze współczynnikiem wyrównania, tak jak z innymi hiperparametrów. Ostatecznie odpowiedź zależy jednak od tych czynników:

  • Rozmiar wsadu.
  • Współczynnik nierównoważenia
  • Liczba przykładów w zbiorze treningowym

Najlepiej, gdy każda wsadu zawiera wiele przykładów klas mniejszości. Wsady, które nie zawierają wystarczającej liczby klas mniejszości, będą trenowane bardzo słabo. Wielkość wsadu powinna być kilkakrotnie większa od współczynnika nierównoważenia. Na przykład, jeśli współczynnik braku równowagi wynosi 100:1, rozmiar wsadu powinien musi wynosić co najmniej 500.

Ćwiczenie: sprawdź swoją wiedzę

Przyjrzyjmy się takiej sytuacji:

  • Wielkość wsadu to 128.
  • Współczynnik nierównowagi wynosi 100:1.
  • Zbiór treningowy zawiera miliard przykładów.
Które z poniższych stwierdzeń jest prawdziwe?
Zwiększenie rozmiaru wsadu do 1024 poprawi wynik model atrybucji.
Przy rozmiarze wsadu wynoszącym 1024 znaki to średnio około 10 klas mniejszości, które powinny wystarczyć do trenowania. Bez próbkowania w dół zbiór treningowy nadal zawiera 1 miliard przykładów.
Zmniejszanie próbkowania (i zwiększanie wagi) do 20:1 przy zachowaniu wielkości wsadu przy 128 poprawi wynik.
Każda wsad będzie miała średnio około 9 przykładów klas mniejszości, które powinny które wystarczyłyby do trenowania. Próbkowanie w dół skutecznie zmniejsza liczbę przykładów w zbiorze treningowym z 1 miliarda do 40 milionów.
Obecna sytuacja jest dobra.
Większość wsadów nie będzie zawierać wystarczającej liczby klas mniejszości, aby wytrenować użyteczne model atrybucji.