W poprzednim module wprowadzono partycjonowanie zbioru danych na zbiór treningowy i testowy. Partycjonowanie umożliwiało trenowanie na jednym zestawie przykładów, a następnie przetestowanie modelu na innym zbiorze przykładów. W przypadku 2 partycji przepływ pracy może wyglądać tak:
Rysunek 1. Jak wygląda przepływ pracy?
Na ilustracji „dopracowanie modelu” oznacza modyfikowanie wszystkiego, co Ci się podoba – od zmiany tempa uczenia się przez dodawanie i usuwanie funkcji po zaprojektowanie zupełnie nowego modelu od podstaw. Po zakończeniu tego przepływu pracy wybierasz model, który najlepiej sprawdza się w zbiorze testowym.
Podział zbioru danych na dwa zbiory to dobry pomysł, ale nie jest to panaceum. Możesz znacznie ograniczyć szanse na nadmierne dopasowanie, partycjonując zbiór danych na 3 podzbiory przedstawione na tej ilustracji:
Rysunek 2. Podzielenie pojedynczego zbioru danych na 3 podzbiory.
Za pomocą zestawu do weryfikacji możesz oceniać wyniki ze zbioru treningowego. Następnie użyj zbioru testowego, aby dokładnie sprawdzić ocenę po pomyślnym zakończeniu zestawu weryfikacji przez model. Poniższy rysunek przedstawia nowy przepływ pracy:
Rysunek 3. Lepszy przepływ pracy.
W tym ulepszonym przepływie pracy:
- Wybierz model, który najlepiej sprawdza się w zbiorze walidacji.
- Dokładnie sprawdź ten model w zbiorze testowym.
Jest to lepsze rozwiązanie, ponieważ tworzy mniej ekspozycji na zbiór testowy.