Zbiory danych, uogólnienie i nadmierne dopasowanie

Wprowadzenie

Ten moduł rozpoczyna się od pytania na początku. Wybierz jedną z tych odpowiedzi:

Gdyby trzeba było potraktować priorytetowo ulepszenie jednego z poniższych obszarów w Twoim projekcie systemów uczących się, który pozwoliłby wpływ na media?
Poprawianie jakości zbioru danych
Dane mają priorytet nad wszystkim. Jakość i rozmiar zbioru danych mają większe znaczenie do tworzenia modeli.
Zastosowanie bardziej inteligentnej funkcji straty do trenowania modelu
Prawda, lepsza funkcja straty może przyśpieszyć trenowanie modelu, ale do innego elementu na tej liście jest ciągle odległa sekunda.

A oto kolejne pytanie wstępne:

Zgadnij: ile czasu w Twoim projekcie związanym z systemami uczącymi się Czy organizacja poświęca zwykle czas na przygotowywanie i przekształcanie danych?
Ponad połowa czasu trwania projektu
Tak, specjaliści ds. systemów uczących się spędzają większość czasu jak tworzyć zbiory danych i pracować nad funkcjami.
Mniej niż połowa czasu trwania projektu
Planuj dalej! Systemy uczące się są wykorzystywane zazwyczaj w 80% czasu na tworzenie zbiorów danych i przekształcanie danych.

W tym module poznasz cechy systemów uczących się i o tym, jak przygotować dane, aby zapewnić wysoką jakość trenowania i oceniania modelu.