Идентификация меток и источников

Прямые и производные ярлыки

Машинное обучение упрощается, когда ваши метки четко определены. Лучшая метка — это прямая метка того, что вы хотите предсказать. Например, если вы хотите предсказать, является ли пользователь поклонником Тейлор Свифт, прямым ярлыком будет «Пользователь является поклонником Тейлор Свифт».

Более простой тест на фанатизм может заключаться в том, смотрел ли пользователь видео Тейлор Свифт на YouTube. Метка «пользователь просмотрел видео Тейлор Свифт на YouTube» является производной меткой, поскольку она не измеряет напрямую то, что вы хотите предсказать. Является ли этот производный ярлык надежным индикатором того, что пользователю нравится Тейлор Свифт? Ваша модель будет настолько хороша, насколько хороша связь между полученной меткой и желаемым прогнозом.

Источники ярлыков

Результатом вашей модели может быть либо событие, либо атрибут. Это приводит к следующим двум типам меток:

  • Прямая метка для событий , например «Нажал ли пользователь на верхний результат поиска?»
  • Прямая метка для атрибутов , например «Потратит ли рекламодатель больше X долларов на следующей неделе?»

Прямые лейблы для мероприятий

Для событий прямые метки обычно просты, потому что вы можете регистрировать поведение пользователя во время события для использования в качестве метки. При обозначении событий задайте себе следующие вопросы:

  • Как устроены ваши журналы?
  • Что считается «событием» в ваших журналах?

Например, регистрирует ли система, когда пользователь нажимает на результат поиска или когда пользователь выполняет поиск? Если у вас есть журналы кликов, знайте, что вы никогда не увидите показ без клика. Вам понадобятся журналы, в которых события являются показами, чтобы вы охватили все случаи, когда пользователь видит верхний результат поиска.

Прямые метки для атрибутов

Допустим, ваш ярлык звучит так: «Рекламодатель потратит более X долларов на следующей неделе». Обычно вы используете данные за предыдущие дни, чтобы предсказать, что произойдет в последующие дни. Например, на следующем рисунке показаны данные обучения за десять дней, которые предсказывают следующие семь дней:

Календарь с выделением 10-дневного блока, за которым сразу следует 7-дневный блок. Модель использует данные из 10-дневного блока для прогнозирования 7-дневного блока.

Не забывайте учитывать сезонность или циклические эффекты; например, рекламодатели могут тратить больше по выходным. По этой причине вы можете вместо этого использовать 14-дневное окно или использовать дату в качестве признака, чтобы модель могла изучить годовые эффекты.

Прямым лейблам нужны журналы прошлого поведения

Обратите внимание, что в предыдущих случаях нам нужны были данные об истинном результате. Будь то то, сколько рекламодатели потратили или какие пользователи смотрели видео Тейлор Свифт, нам нужны были исторические данные для использования машинного обучения с учителем. Машинное обучение делает прогнозы на основе того, что произошло в прошлом, поэтому, если у вас нет журналов за прошлое, вам необходимо их получить.

Что делать, если у вас нет данных для регистрации?

Возможно, вашего продукта еще не существует, поэтому у вас нет данных для регистрации. В этом случае вы можете предпринять одно или несколько из следующих действий:

  • Используйте эвристику для первого запуска, а затем обучите систему на основе зарегистрированных данных.
  • Используйте журналы аналогичной проблемы для начальной загрузки вашей системы.
  • Используйте людей-оценщиков для генерации данных, выполняя задачи.

Зачем использовать данные, помеченные человеком?

Существуют преимущества и недостатки использования данных, помеченных человеком.

Плюсы

  • Оценщики-люди могут выполнять широкий круг задач.
  • Данные заставляют вас иметь четкое определение проблемы.

Минусы

  • Данные дороги для определенных доменов.
  • Хорошие данные обычно требуют нескольких итераций.

Улучшение качества

Всегда проверяйте работу ваших оценщиков-людей . Например, отметьте 1000 примеров самостоятельно и посмотрите, насколько ваши результаты совпадают с результатами оценщиков. (Самостоятельная маркировка данных также является отличным упражнением для знакомства с данными.) Если обнаруживаются несоответствия, не предполагайте, что ваши оценки правильные, особенно если речь идет о оценочном суждении. Если оценщики-люди допустили ошибки, рассмотрите возможность добавления инструкций, которые помогут им, и повторите попытку.

Просмотр ваших данных вручную — хорошее упражнение, независимо от того, как вы их получили. Андрей Карпати сделал это на ImageNet и написал о своем опыте .