При сборке обучающей выборки иногда приходится объединять несколько источников данных.
Типы журналов
Вы можете работать с любым из следующих типов входных данных:
- журналы транзакций
- атрибутивные данные
- совокупная статистика
Журналы транзакций записывают определенное событие. Например, журнал транзакций может записывать IP-адрес, по которому был сделан запрос, а также дату и время, когда был сделан запрос. Транзакционные события соответствуют определенному событию.
Данные атрибутов содержат моментальные снимки информации. Например:
- демографические данные пользователей
- история поиска на момент запроса
Данные атрибутов не привязаны к событию или моменту времени, но могут быть полезны для прогнозирования. Для задач прогнозирования, не привязанных к конкретному событию (например, прогнозирование оттока пользователей, которое включает в себя диапазон времени, а не отдельный момент), атрибутивные данные могут быть единственным типом данных.
Данные атрибутов и журналы транзакций связаны между собой. Например, вы можете создать тип данных атрибута, объединив несколько журналов транзакций, создав сводную статистику. В этом случае вы можете просмотреть множество журналов транзакций, чтобы создать один атрибут для пользователя.
Агрегированная статистика создает атрибут из нескольких журналов транзакций. Например:
- частота запросов пользователей
- средний рейтинг кликов по определенному объявлению
Присоединение к источникам журналов
Каждый тип журнала, как правило, находится в другом месте. При сборе данных для вашей модели машинного обучения вы должны объединить разные источники, чтобы создать свой набор данных. Некоторые примеры:
- Используйте идентификатор пользователя и метку времени в журналах транзакций для поиска атрибутов пользователя во время события .
- Используйте отметку времени транзакции, чтобы выбрать историю поиска на момент запроса .
Источники прогнозных данных — онлайн или офлайн
В ускоренном курсе по машинному обучению вы узнали об онлайн- и офлайн-обслуживании. Выбор влияет на то, как ваша система собирает данные, следующим образом:
- онлайн — задержка вызывает беспокойство, поэтому ваша система должна быстро генерировать ввод.
- автономный режим — скорее всего, у вас нет ограничений на вычислительные ресурсы, поэтому вы можете выполнять такие же сложные операции, как и генерация обучающих данных.
Например, данные атрибутов часто необходимо искать в какой-либо другой системе, что может привести к проблемам с задержкой. Точно так же агрегированные статистические данные могут быть дорогими для вычисления на лету. Если задержка является препятствием, одна из возможностей состоит в том, чтобы предварительно вычислить эту статистику.