Nadmierne dopasowanie

Nadmiarowe dopasowanie oznacza utworzenie modelu. pasującym do (zapamiętuje) training set (zestaw treningowy), więc uważa, że model nie generuje poprawnych prognoz na podstawie nowych danych. Przetrenowany model przypomina wynalazek, który dobrze sprawdza się w laboratorium, ale jest bezwartościowa w świecie rzeczywistym.

Na rys. 11 wyobraźmy sobie, że każdy kształt geometryczny reprezentuje położenie drzewa. w kwadratowym lesie. Niebieskie romby wskazują lokalizacje zdrowych drzew, a pomarańczowe okręgi wskazują lokalizacje chorych drzew.

Rysunek 11. Zawiera około 60 kropek, z których połowa jest
            zdrowych drzew
i drugiej połowy chorych.
            Zdrowe drzewa przeważnie znajdują się w północno-wschodniej ćwiartce,
            do północno-zachodnich ćwiartków zakradają się zdrowe drzewa. Chore drzewa
            przeważnie w południowo-wschodniej ćwiartce, ale jest kilka chorych drzew,
            przechodzą do innych ćwiartków.
Rysunek 11. Zestaw treningowy: lokalizacje zdrowych i chorych drzew w kwadratowym lesie.

 

Rysuj ręcznie wszelkie kształty – linie, krzywe, owale...by rozdzielić i wyhodować zdrowe drzewa. Następnie rozwiń następny wiersz, aby przeanalizować jednego możliwego rozdzielenia.

Złożone kształty pokazane na Rys. 12 zostały poprawnie podzielone na kategorie i drzewa. Jeśli myślimy o kształtach jako modelach, to fantastyczne, model atrybucji.

A może jednak? Naprawdę doskonały model poprawnie kategoryzuje nowe przykłady. Rysunek 13 pokazuje, co się dzieje, gdy ten sam model generuje prognozy w nowym modelu przykłady ze zbioru testowego:

Rysunek 13. Nowa grupa zdrowych i chorych drzew nałożonych
            model widoczny na rys. 12. Model błędnie kategoryzuje
            drzew.
Rys. 13. Zestaw testowy: złożony model odróżniania chorych od zdrowych drzew.

 

Model złożony, pokazany na rys. 12, świetnie się sprawdził w zbiorze treningowym, ale całkiem kiepsko na zbiorze testowym. To klasyczny przypadek modelu nadmierne dopasowanie do danych zbioru treningowego.

Dopasowywanie, nadmierne dopasowanie i dopasowanie

Model musi formułować dobre prognozy na nowych danych. Chodzi o to, aby stworzyć model, który „pasuje” nowych danych.

Jak widać, model niedopasowany zapewnia doskonałe prognozy podczas trenowania ale słabe prognozy nowych danych. An model underfit nie ma nawet prognoz w przypadku danych treningowych. Jeśli model z nadmiarowym dopasowaniem jest jak produkt, który sprawdza się dobrze w laboratorium, ale słabo w świecie rzeczywistym, Gdy modelka schludna jest jak produkt, który nie radzi sobie dobrze w laboratorium.

Rysunek 14. Wykres kartezjański. Oś X jest oznaczona etykietą „jakość prognoz”
            w zbiorze treningowym”. Oś Y jest oznaczona etykietą „Jakość prognoz
            w świecie rzeczywistym”. Krzywa rozpoczyna się u początku i wznosi się stopniowo,
            a potem równie szybko spada. Lewa dolna część krzywej
            (niska jakość prognoz na rzeczywistych danych i niska jakość
            prognozy w zbiorze treningowym) są oznaczone etykietą „modele niedopasowane”. 
            prawą dolną część krzywej (niska jakość prognoz na
            rzeczywiste dane, ale wysoka jakość prognoz na zbiorze treningowym)
            jest oznaczony etykietą „modele nadfite”. Szczyt krzywej (wysoka jakość
            w przypadku prognoz na danych ze świata rzeczywistego i średniej jakości prognoz
            w zbiorze treningowym) jest oznaczona etykietą „Modele dopasowane”.
Rysunek 14. Niedopasowane, dopasowane i bardzo luźne modelki.

 

Uogólnianie to przeciwieństwo nadmiernego dopasowania. Oznacza to, że model, który dobrze uogólnia, zapewnia i generowanie prognoz na nowych danych. Twoim celem jest stworzenie modelu, który uogólni do nowych danych.

Wykrywam nadmierne dopasowanie

Te krzywe pomagają wykryć nadmierne dopasowanie:

  • krzywe straty
  • krzywe uogólniania

Krzywa straty przedstawia stan utraty modelu. z liczbą iteracji treningowych. Wykres pokazujący co najmniej dwie krzywe straty, jest nazywany uogólnieniem. . Poniżej krzywa uogólniania pokazuje dwie krzywe straty:

Rysunek 15. Funkcja utraty dla zbioru treningowego stopniowo
            odrzuca. Funkcja utraty dla zestawu walidacji również odrzuca,
            ale po pewnym czasie zaczyna rosnąć.
Rysunek 15. Krzywa uogólnienia, która silnie sugeruje nadmierne dopasowanie.

 

Zwróć uwagę, że 2 krzywe straty na początku zachowują się podobnie, a potem się rozchodzą. Oznacza to, że po określonej liczbie iteracji spada utraconych lub utrzymuje się na stałym poziomie (przebiega) w zbiorze treningowym, ale rośnie; dla zestawu do walidacji. To sugeruje nadmierne dopasowanie.

Z kolei krzywa uogólniania dobrze dopasowanego modelu przedstawia 2 krzywe utraty. które mają podobne kształty.

Co powoduje nadmierne dopasowanie?

Ogólnie mówiąc, nadmierne dopasowanie jest spowodowane co najmniej jednym z tych czynników: problemy:

  • Zbiór treningowy nie odzwierciedla odpowiednio rzeczywistych danych (lub zestaw do walidacji lub testowy).
  • Model jest zbyt złożony.

Warunki uogólnienia

Model trenuje na zbiorze treningowym, ale prawdziwy test wartości modelu pokazuje, tworzy prognozy na nowych przykładach, szczególnie w przypadku danych ze świata rzeczywistego. Podczas tworzenia modelu Twój zbiór testowy służy jako pośrednik dla danych ze świata rzeczywistego. Trenowanie modelu, który dobrze uogólnia, zakłada następujące warunki zbioru danych:

  • Na przykład: niezależnie i identycznie, czyli powiedzenie, że Twoja nie mogą na siebie wpływać.
  • Zbiór danych to stacjonarne, czyli w zbiorze danych nie zmieniają się znacząco w czasie.
  • Partycje zbioru danych mają taki sam rozkład. Oznacza to, że przykłady w zbiorze treningowym są statystycznie podobne do w zbiorze do walidacji, w zbiorze testowym i w rzeczywistych danych.

Przeanalizuj poprzednie warunki, wykonując poniższe ćwiczenia.

Ćwiczenia: sprawdź swoją wiedzę

Rozważ poniższe partycje zbioru danych.
Poziomy pasek podzielony na 3 części: 70% słupka
                     to zbiór treningowy, 15% zbioru do walidacji i 15%
                     zbiór testowy
Co musisz zrobić, aby mieć pewność, że przykłady w zbiorze treningowym mają podobny rozkład statystyczny do przykładów w zestaw do walidacji i testowy?
Intensywnie przetasuj przykłady w zbiorze danych przed ich partycjonowanie.
Tak. Dobre przetasowanie przykładów sprawia, że partycje znacznie częściej są potencjalnie podobne pod względem statystycznym.
Posortuj przykłady od najstarszego do najnowszego.
Jeśli przykłady w zbiorze danych nie są statyczne, sortowanie sprawia, że partycje są mniejsze. podobne.
Nic nie rób. Biorąc pod uwagę wystarczającą liczbę przykładów, prawo średnich wartości w naturalny sposób gwarantuje, że rozkłady będą jest podobny statystycznie.
Niestety tak nie jest. Przykłady i w innych sekcjach zbioru danych mogą się różnić sekcji.
Serwis streamingowy opracowuje model przewidujący popularność potencjalnych nowych programów telewizyjnych w ciągu najbliższych 3 lat. abonamenty usług strumieniowego przesyłania danych umożliwiające trenowanie modelu w zbiorze danych składających się z setek milionów przykładów 10 lat. Czy w przypadku tego modelu wystąpi problem?
Może. Widzowie gustów zmienia się w sposób, którego nie można i prognozy.
Tak. Preferencje widzów nie są stałe. Stale się zmieniają.
Zdecydowanie nie. Zbiór danych jest wystarczająco duży, aby zapewnić i generowanie prognoz.
Niestety, z powodu braku gustów nie można stabilnie ustanawiać.
Raczej nie. Widzowie smaki zmieniają się w sposób przewidywalny cykliczny. Dane z 10 lat pozwolą modelowi generować dobre prognozy na temat przyszłych trendów.
Niektóre aspekty rozrywki mają charakter cykliczny, model wytrenowany na podstawie historii rozrywki z przeszłości mają problemy z prognozowaniem na najbliższe kilka lat.
Model ma przewidzieć czas potrzebny użytkownikom na pokonanie kilometra na podstawie danych pogodowych (temperatury, punktu rosy opady) zebrane w ciągu roku w mieście, w którym pogoda jest zmienna znacznie w zależności od sezonu. Czy możesz utworzyć i przetestować model na podstawie tego mimo że odczyty pogody zmieniają się niesamowicie sezon?
Tak
Tak, można utworzyć i przetestować model na podstawie tego zbioru danych. Trzeba tylko zadbać o równe partycjonowanie danych, że dane ze wszystkich czterech pór roku są równomiernie rozłożone na różnych partycjach.
Nie
Zakładając, że zbiór danych zawiera wystarczającą liczbę przykładów temperatury, i opadu, możesz zbudować i przetestować model na podstawie tego zbioru danych. Musisz tylko zadbać o to, aby dane były partycjonowane. aby równomiernie rozłożyć dane ze wszystkich czterech pór roku na różne partycje.

Wyzwanie

Tworzysz model, który przewiduje idealny dzień, w którym pasażerowie będą mogli kupić bilet kolejowy na określoną trasę. Model może na przykład zalecić że użytkownicy kupują bilety na 8 lipca za pociąg odjeżdżający 23 lipca. Przewoźnik aktualizuje ceny co godzinę, kierując się aktualnymi informacjami ale głównie od obecnej liczby wolnych miejsc. Czyli:

  • Jeśli jest wiele wolnych miejsc, ceny biletów są zwykle niskie.
  • Jeśli jest bardzo mało wolnych miejsc, ceny biletów są zwykle wysokie.
Twój model ma niską wartość w zbiorze do walidacji i zbiorze testowym, ale czasami na podstawie rzeczywistych danych. Dlaczego?
Kliknij tutaj, aby zobaczyć odpowiedź