Łączenie dzienników danych

Podczas tworzenia zestawu treningowego trzeba czasami połączyć wiele źródeł danych.

Typy dzienników

Możesz pracować z tymi typami danych wejściowych:

  • dzienniki transakcji
  • dane atrybutu
  • statystyki zbiorcze

Dzienniki transakcji rejestrują określone zdarzenie. Na przykład dziennik transakcji może zarejestrować adres IP tworzący zapytanie oraz datę i godzinę wykonania zapytania. Zdarzenia transakcyjne odpowiadają konkretnym zdarzeniom.

Dane atrybutów zawierają zrzuty informacji. Przykład:

  • dane demograficzne użytkownika
  • historia wyszukiwania w momencie zapytania

Dane atrybutów nie dotyczą konkretnego momentu ani momentu, ale mogą się przydać do prognozowania. W przypadku zadań prognozowania, które nie są powiązane z konkretnym zdarzeniem (na przykład przewidywanie rezygnacji użytkowników, co obejmuje zakres czasowy, a nie pojedynczy moment), dane atrybutu mogą być jedynym typem danych.

Dane atrybutów i dzienniki transakcji są powiązane. Możesz na przykład utworzyć typ danych atrybutów, agregując kilka logów transakcji i tworząc statystyki zbiorcze. W tym przypadku możesz przejrzeć wiele logów transakcji, aby utworzyć pojedynczy atrybut dla użytkownika.

Statystyki zbiorcze tworzą atrybut z wielu dzienników transakcji. Przykład:

  • częstotliwość zapytań użytkowników
  • średni współczynnik klikalności danej reklamy

Dołączanie źródeł logów

Każdy rodzaj logu zwykle znajduje się w innej lokalizacji. Podczas zbierania danych dla modelu systemów uczących się musisz połączyć różne źródła, aby utworzyć zbiór danych. Oto kilka przykładów:

  • Wykorzystaj identyfikator użytkownika i sygnaturę czasową w dziennikach transakcji, aby wyszukać atrybuty użytkownika w momencie wystąpienia zdarzenia.
  • Podaj sygnaturę czasową transakcji w momencie zapytania.

Źródła danych prognozowania – online a offline

Weź udział w kursie dotyczącym systemów uczących się, który omówiliśmy zarówno online, jak i offline. Ten wybór wpływa na sposób, w jaki system zbiera dane:

  • online – opóźnienie jest istotne, dlatego system musi szybko generować dane wejściowe.
  • offline – prawdopodobnie nie masz żadnych ograniczeń mocy obliczeniowej, możesz więc wykonywać podobne zadania jak generowanie danych do trenowania.

Na przykład dane atrybutów często należy sprawdzać w innym systemie, co może powodować opóźnienia. Analogicznie zbiorcze dane zbiorcze w systemie obliczeń w locie mogą być kosztowne. Jeśli czas oczekiwania jest blokadą, Jednym z możliwych jest obliczenie tych statystyk.