Załóżmy, że mamy zbiór danych zawierający etykietę kategorialną, której wartość to Dodatnia lub ujemna. W zrównoważonym zbiorze danych liczba etykiet Pozytywne i Negatywne jest mniej więcej równa. Jeśli jednak jedna etykieta jest bardziej powszechna niż druga etykieta, zbiór danych zostanie niezrównoważony. Etykieta dominująca w niezrównoważonym zbiorze danych to tzw. klasa większości; mniej popularna etykieta to klasa mniejszości.
W poniższej tabeli podano ogólnie akceptowane nazwy i zakresy dla różne stopnie nierównowagi:
Odsetek danych należących do klasy mniejszości | Stopień nierówności |
---|---|
20–40% zbioru danych | Łagodne |
1–20% zbioru danych | Średnia |
<1% zbioru danych | Najwyższa wydajność |
Załóżmy na przykład, że zbiór danych do wykrywania wirusów zawiera klasę mniejszościową, która stanowi 0,5% zbioru danych, a klasa większościowa – 99,5%. Skrajnie niezrównoważone zbiory danych, takie jak ten, są powszechne w medycynie, u większości osób nie ma wirusa.
Zbiory danych z niezrównoważoną reprezentacją nie zawsze zawierają wystarczającą liczbę przykładów klasy mniejszości, aby można było prawidłowo wytrenować model. Oznacza to, że przy tak małej liczbie etykiet pozytywnych model trenuje niemal wyłącznie na etykiety negatywne i nie możemy dowiedzieć się więcej o etykietach pozytywnych. Przykład: jeśli rozmiar wsadu wynosi 50, wiele wsadów nie będzie zawierać żadnych etykiet dodatnich.
Często, zwłaszcza w przypadku osób z nierównomierną i umiarkowaną nierównością w zbiorach danych, brak zrównoważenia nie jest problemem. Dlatego najpierw spróbuj przeprowadzić szkolenie na podstawie pierwotnego zbioru danych. Jeśli model działa dobrze, nie musisz nic robić. W przeciwnym razie model suboptymalny stanowi dobrą wartość odniesienia na potrzeby przyszłych eksperymentów. Następnie możesz wypróbować podane niżej techniki, aby rozwiązać problemy spowodowane niewyważonymi zbiorami danych.
Próbkowanie w dół i przypisywanie większej wagi
Jednym ze sposobów radzenia sobie z niezrównoważonym zbiorem danych jest zmniejszenie próbki i zwiększenie wagi klasy większości. Oto definicje tych 2 nowych terminów:
- Przetwarzanie próbek (w tym kontekście) oznacza trenowanie na nieproporcjonalnie małej podzbiorze przykładów z klasy większości.
- Przeciążenie oznacza dodanie wagi przykładowej do najniższej klasy, równej czynnikowi, według którego ale nie jest spróbkowany.
Krok 1. Spróbuj zmniejszyć próbkowanie większości klasy. Rozważ zbiór danych o wirusach pokazany na rysunku 5, który ma stosunek 1 etykiety pozytywnej na 200 etykiet negatywnych. Próbkowanie w wysokości 10 zwiększa bilans z 1 do 20. minus (5%). Mimo że powstały w ten sposób zbiór treningowy jest w dalszym ciągu nierównomierny, stosunek wartości dodatnich do wyników ujemnych jest znacznie lepszy niż pierwotny skrajnie niezrównoważony odsetek (0,5%).
Krok 2. Zwiększ wagę klasy z obniżonym próbkowaniem: dodaj wagi przykładów do klasy z obniżonym próbkowaniem. Po zmniejszeniu próbkowania 10-krotnie waga przykładu powinna wynosić 10. (może się to wydawać sprzeczne z intuicją, ale wyjaśnimy, dlaczego tak jest).
Termin waga nie odnosi się do parametrów modelu (takich jak w1 lub w2). Tutaj waga odnosi się do przykładowe wagi, które zwiększają znaczenie poszczególnych przykładów. podczas trenowania. Przykładowa waga 10 oznacza, że model traktuje przykład jako 10 razy ważniejsze (w przypadku strat obliczeniowych) niż w przykładzie waga 1.
Waga powinna być równa współczynnikowi użytego do próbkowania:
\[\text{ \{example weight\} = \{original example weight\} × \{downsampling factor\} }\]
Dodawanie przykładowych wag po zmniejszaniu próbkowania może wydawać się dziwne. W końcu jesteś stara się poprawić ten model w klasie mniejszości, więc po co zwiększać wagę klasa większości? Wzrost wagi klasy większości powoduje zmniejszenie błędów w prognozach. Oznacza to, że po zastosowaniu próbkowania w dół zwiększanie wagi po zastosowaniu próbkowania w górę ma tendencję do zmniejszania różnicy między średnią prognoz modelu a średnią etykiet w danych.
Współczynniki równowagi
Jak bardzo zmniejszyć próbkowanie i zwiększyć wagę, aby zrównoważyć zbiór danych? Aby znaleźć odpowiedź, eksperymentuj z proporcją ponownego wyważenia, tak jak w przypadku innych hiperparametrów. Odpowiedź zależy jednak od tych czynników:
- Rozmiar wsadu.
- Współczynnik nierównoważenia
- Liczba przykładów w zbiorze treningowym
Najlepiej, gdy każda wsadu zawiera wiele przykładów klas mniejszości. Wsady, które nie zawierają wystarczającej liczby klas mniejszości, będą trenowane bardzo słabo. Wielkość wsadu powinna być kilkakrotnie większa niż współczynnik braku równowagi. Jeśli na przykład stosunek nierównowagi wynosi 100:1, rozmiar partii powinien wynosić co najmniej 500.
Ćwiczenie: sprawdź swoją wiedzę
Rozważ tę sytuację:
- Zbiór treningowy zawiera nieco ponad miliard przykładów.
- Wielkość wsadu to 128.
- Stosunek nierównowagi wynosi 100:1, więc zbiór treningowy jest podzielony w ten sposób:
- około 1 mld przykładów większościowych klas;
- około 10 mln przykładów z klasy mniejszościowej;