Dzielenie danych

Przykład z serwisu informacyjnego pokazuje, że czysty podział nie zawsze jest właściwym podejściem.

częstą metodą w przypadku systemów online jest dzielenie danych według czasu, co pozwala na:

  • Zbierz dane z 30 dni.
  • Trenuj dane z dni 1–29.
  • Oceń dane z 30. dnia.

W przypadku systemów online dane treningowe są starsze niż dane wyświetlania, więc ta metoda zapewnia, że zestaw weryfikacji odzwierciedla upływ czasu między trenowaniem a udostępnianiem. Podziały czasowe najlepiej sprawdzają się jednak w przypadku bardzo dużych zbiorów danych, np. zawierających dziesiątki milionów przykładów. W projektach z mniejszą ilością danych rozkłady są bardzo różne między trenowaniem, weryfikacją i testowaniem.

Czuć też błąd podziału danych z projektu literatury systemów uczących się opisanego w systemie uczenia się systemów uczących się. Dane literatury zostały stworzone przez jednego z trzech autorów, więc zostały podzielone na 3 główne grupy. Zespół zastosował losowy podział, więc dane z każdej grupy były uwzględniane w zestawach przeznaczonych do trenowania, oceny i testowania, więc model nauczył się z informacji, których nie musiałby mieć w czasie prognozowania. Ten problem może wystąpić, gdy Twoje dane są zgrupowane – jako dane ciągu czasowego lub pogrupowane według innych kryteriów. Informacje o domenie mogą pomóc w podziale danych.

Dodatkowe moduły znajdziesz w kursie dotyczącym systemów uczących się: