Podczas tworzenia zestawu treningowego trzeba czasami połączyć wiele źródeł danych.
Typy dzienników
Możesz pracować z tymi typami danych wejściowych:
- dzienniki transakcji
- dane atrybutu
- statystyki zbiorcze
Dzienniki transakcji rejestrują określone zdarzenie. Na przykład dziennik transakcji może zarejestrować adres IP tworzący zapytanie oraz datę i godzinę wykonania zapytania. Zdarzenia transakcyjne odpowiadają konkretnym zdarzeniom.
Dane atrybutów zawierają zrzuty informacji. Przykład:
- dane demograficzne użytkownika
- historia wyszukiwania w momencie zapytania
Dane atrybutów nie dotyczą konkretnego momentu ani momentu, ale mogą się przydać do prognozowania. W przypadku zadań prognozowania, które nie są powiązane z konkretnym zdarzeniem (na przykład przewidywanie rezygnacji użytkowników, co obejmuje zakres czasowy, a nie pojedynczy moment), dane atrybutu mogą być jedynym typem danych.
Dane atrybutów i dzienniki transakcji są powiązane. Możesz na przykład utworzyć typ danych atrybutów, agregując kilka logów transakcji i tworząc statystyki zbiorcze. W tym przypadku możesz przejrzeć wiele logów transakcji, aby utworzyć pojedynczy atrybut dla użytkownika.
Statystyki zbiorcze tworzą atrybut z wielu dzienników transakcji. Przykład:
- częstotliwość zapytań użytkowników
- średni współczynnik klikalności danej reklamy
Dołączanie źródeł logów
Każdy rodzaj logu zwykle znajduje się w innej lokalizacji. Podczas zbierania danych dla modelu systemów uczących się musisz połączyć różne źródła, aby utworzyć zbiór danych. Oto kilka przykładów:
- Wykorzystaj identyfikator użytkownika i sygnaturę czasową w dziennikach transakcji, aby wyszukać atrybuty użytkownika w momencie wystąpienia zdarzenia.
- Podaj sygnaturę czasową transakcji w momencie zapytania.
Źródła danych prognozowania – online a offline
Weź udział w kursie dotyczącym systemów uczących się, który omówiliśmy zarówno online, jak i offline. Ten wybór wpływa na sposób, w jaki system zbiera dane:
- online – opóźnienie jest istotne, dlatego system musi szybko generować dane wejściowe.
- offline – prawdopodobnie nie masz żadnych ograniczeń mocy obliczeniowej, możesz więc wykonywać podobne zadania jak generowanie danych do trenowania.
Na przykład dane atrybutów często należy sprawdzać w innym systemie, co może powodować opóźnienia. Analogicznie zbiorcze dane zbiorcze w systemie obliczeń w locie mogą być kosztowne. Jeśli czas oczekiwania jest blokadą, Jednym z możliwych jest obliczenie tych statystyk.