Наборы данных: метки

В этом разделе основное внимание уделяется ярлыкам .

Прямые и прокси-метки

Рассмотрим два разных типа этикеток:

  • Прямые метки — метки, идентичные прогнозу, который пытается сделать ваша модель. То есть прогноз, который пытается сделать ваша модель, точно присутствует в виде столбца в вашем наборе данных. Например, столбец с названием « bicycle owner будет прямой меткой для модели бинарной классификации, которая предсказывает, есть ли у человека велосипед.
  • Прокси-метки — это метки, похожие (но не идентичные) на прогноз, который пытается сделать ваша модель. Например, человек, подписывающийся на журнал Bicycle Bizarre, вероятно (но не обязательно) владеет велосипедом.

Прямые ярлыки обычно лучше, чем прокси-лейблы. Если ваш набор данных предоставляет возможную прямую метку, вам, вероятно, следует ее использовать. Однако зачастую прямые метки недоступны.

Прокси-метки — это всегда компромисс, несовершенное приближение к прямой метке. Однако некоторые прокси-метки являются достаточно близкими приближениями, чтобы быть полезными. Модели, использующие прокси-метки, полезны ровно настолько, насколько полезна связь между прокси-меткой и прогнозом.

Напомним, что каждая метка должна быть представлена ​​как число с плавающей запятой в векторе признаков (поскольку машинное обучение по сути представляет собой просто огромную смесь математических операций). Иногда прямая метка существует, но ее нелегко представить в виде числа с плавающей запятой в векторе признаков. В этом случае используйте метку прокси.

Упражнение: Проверьте свое понимание.

Ваша компания хочет сделать следующее:

Отправьте купоны по почте («Обменяйте свой старый велосипед на новый со скидкой 15%)» владельцам велосипедов.

Итак, ваша модель должна делать следующее:

Предскажите, у кого из людей есть велосипед.

К сожалению, набор данных не содержит столбца с именем « bike owner . Однако набор данных содержит столбец с названием « recently bought a bicycle .

Будет ли recently bought a bicycle хорошим или плохим прокси-маркером для этой модели?
Хороший прокси-лейбл
Колонка recently bought a bicycle — относительно хороший прокси-лейбл. В конце концов, большинство людей, покупающих велосипеды, теперь имеют велосипеды. Тем не менее, как и все прокси-лейблы, даже очень хорошие, recently bought a bicycle несовершенен. В конце концов, человек, покупающий предмет, не всегда является человеком, использующим (или владеющим) этим предметом. Например, люди иногда покупают в подарок велосипеды.
Плохая метка прокси
Как и все прокси-лейблы, recently bought a bicycle несовершенен (некоторые велосипеды покупаются в подарок и дарятся другим). Однако recently bought a bicycle по-прежнему является относительно хорошим показателем того, что у кого-то есть велосипед.

Данные, созданные человеком

Некоторые данные созданы человеком ; то есть один или несколько человек изучают некоторую информацию и предоставляют значение, обычно для метки. Например, один или несколько метеорологов могли бы изучить фотографии неба и определить типы облаков.

Альтернативно, некоторые данные генерируются автоматически . То есть программное обеспечение (возможно, другая модель машинного обучения) определяет стоимость. Например, модель машинного обучения может изучать изображения неба и автоматически определять типы облаков.

В этом разделе рассматриваются преимущества и недостатки данных, созданных человеком.

Преимущества

  • Оценщики-люди могут выполнять широкий спектр задач, которые могут оказаться трудными даже для сложных моделей машинного обучения.
  • Этот процесс заставляет владельца набора данных разработать четкие и последовательные критерии.

Недостатки

  • Обычно вы платите оценщикам, поэтому данные, созданные человеком, могут быть дорогими.
  • Человеку свойственно ошибаться. Следовательно, нескольким оценщикам, возможно, придется оценивать одни и те же данные.

Подумайте над этими вопросами, чтобы определить свои потребности:

  • Насколько квалифицированными должны быть ваши оценщики? (Например, должны ли оценщики знать определенный язык? Нужны ли вам лингвисты для диалога или приложений НЛП?)
  • Сколько размеченных примеров вам нужно? Как скоро они вам понадобятся?
  • Какой у вас бюджет?

Всегда дважды проверяйте своих оценщиков . Например, самостоятельно отметьте 1000 примеров и посмотрите, насколько ваши результаты совпадают с результатами других оценщиков. Если всплывают расхождения, не думайте, что ваши оценки верны, особенно если речь идет о оценочном суждении. Если оценщики допустили ошибки, рассмотрите возможность добавления инструкций, которые помогут им, и повторите попытку.