Załóżmy, że mamy zbiór danych zawierający etykietę kategorialną, której wartość to Dodatnia lub ujemna. W zrównoważonym zbiorze danych liczba wartości dodatni i ujemne są mniej więcej równe. Jeśli jednak jedna etykieta jest bardziej powszechna niż druga etykieta, zbiór danych zostanie niezrównoważony. Etykieta dominująca w niezrównoważonym zbiorze danych to tzw. klasa większości; mniej popularna etykieta to klasa mniejszości.
W poniższej tabeli podano ogólnie akceptowane nazwy i zakresy dla różne stopnie nierównowagi:
Odsetek danych należących do klasy mniejszości | Stopień nierówności |
---|---|
20–40% zbioru danych | Łagodne |
1–20% zbioru danych | Średnia |
<1% zbioru danych | Najwyższa wydajność |
Weźmy na przykład zbiór danych wykrywania wirusów, w którym klasa mniejszościowa to 0,5% zbioru danych, a klasa większości to 99,5%. Skrajnie niezrównoważone zbiory danych, takie jak ten, są powszechne w medycynie, u większości osób nie ma wirusa.
Niezrównoważone zbiory danych czasami nie zawierają wystarczającej klasy mniejszości do prawidłowego wytrenowania modelu. Oznacza to, że przy tak małej liczbie etykiet pozytywnych model trenuje niemal wyłącznie na etykiety negatywne i nie możemy dowiedzieć się więcej o etykietach pozytywnych. Przykład: jeśli rozmiar wsadu wynosi 50, wiele wsadów nie będzie zawierać żadnych etykiet dodatnich.
Często, zwłaszcza w przypadku osób z nierównomierną i umiarkowaną nierównością w zbiorach danych – brak zrównoważenia nie jest problemem. Dlatego najpierw spróbuj w pierwotnym zbiorze danych. Jeśli model działa dobrze, nie musisz nic robić. Jeśli nie, przynajmniej ten nieoptymalny model zapewnia dobry punkt odniesienia w przyszłych eksperymentach. Potem możesz wypróbować poniższe metody, aby rozwiązać problemy ze względu na niezrównoważone zbiory danych.
Downsampling i Upweighting
Jednym ze sposobów obsługi niezrównoważonego zbioru danych jest zmniejszanie próbkowania i zwiększanie wagi klasy większości. Oto definicje tych dwóch nowych terminów:
- Downsampling (w tym kontekście) oznacza trenowanie na nieproporcjonalnie niskiej podzbiorze większości klasy. przykłady.
- Przeciążenie oznacza dodanie wagi przykładowej do najniższej klasy, równej czynnikowi, według którego ale nie jest spróbkowany.
Krok 1. Spróbuj zmniejszyć próbkowanie większości klasy. Pamiętaj, że zbiór danych wirusów, w którym stosunek 1 etykiety dodatniej na każde 200 ujemnych wartości etykiety. Zmniejszanie próbkowania przez współczynnik 20 poprawia saldo w zakresie od 1 do 10 negatywnych (10%). Mimo że powstały w ten sposób zbiór treningowy jest w dalszym ciągu częściowo nierówny, minusy na minus są znacznie lepsze niż w przypadku oryginalnych wyjątkowo niezrównoważonych. (0,5%).
Krok 2. Zmniejsz rozmiar spróbkowanej klasy – dodaj przykład wagi do zmniejszonej wartości spróbkowanej. Po 20-krotnym zmniejszeniu próbkowania przykładowa waga powinna wynosić 20. (Tak, może się to wydawać sprzeczne z intuicją, wyjaśnij później dlaczego).
Termin waga nie odnosi się do parametrów modelu (takich jak w1 lub w2). Tutaj waga odnosi się do przykładowe wagi, które zwiększają znaczenie poszczególnych przykładów. podczas trenowania. Przykładowa waga 10 oznacza, że model traktuje przykład jako 10 razy ważniejsze (w przypadku strat obliczeniowych) niż w przykładzie waga 1.
Waga powinna być równa współczynnikowi użytego do próbkowania:
\[\text{ \{example weight\} = \{original example weight\} × \{downsampling factor\} }\]
Dodawanie przykładowych wag po zmniejszaniu próbkowania może wydawać się dziwne. W końcu jesteś stara się poprawić ten model w klasie mniejszości, więc po co zwiększać wagę klasa większości? Przeciążenie klasy większości powoduje zmniejszenie odchylenia prognozy. To znaczy, podnoszenie ciężarów po zmniejszeniu próbkowania powoduje zwykle zmniejszenie różnicy między średnią prognoz modelu i średniej etykiet zbioru danych.
Współczynniki równowagi
Jak bardzo zmniejszyć próbkowanie i zwiększyć wagę, aby zrównoważyć zbiór danych? Aby znaleźć odpowiedź, musisz poeksperymentować ze współczynnikiem wyrównania, tak jak z innymi hiperparametrów. Ostatecznie odpowiedź zależy jednak od tych czynników:
- Rozmiar wsadu.
- Współczynnik nierównoważenia
- Liczba przykładów w zbiorze treningowym
Najlepiej, gdy każda wsadu zawiera wiele przykładów klas mniejszości. Wsady, które nie zawierają wystarczającej liczby klas mniejszości, będą trenowane bardzo słabo. Wielkość wsadu powinna być kilkakrotnie większa od współczynnika nierównoważenia. Na przykład, jeśli współczynnik braku równowagi wynosi 100:1, rozmiar wsadu powinien musi wynosić co najmniej 500.
Ćwiczenie: sprawdź swoją wiedzę
Przyjrzyjmy się takiej sytuacji:
- Wielkość wsadu to 128.
- Współczynnik nierównowagi wynosi 100:1.
- Zbiór treningowy zawiera miliard przykładów.