Эта страница переведена с помощью Cloud Translation API.

Наборы данных: метки

В этом разделе основное внимание уделено этикеткам .

Прямые и прокси-метки

Рассмотрим два различных типа этикеток:

Прямые метки , которые идентичны прогнозу, который пытается сделать ваша модель. То есть прогноз, который пытается сделать ваша модель, в точности присутствует в виде столбца в вашем наборе данных. Например, столбец с названием bicycle owner будет прямой меткой для модели бинарной классификации, которая предсказывает, владеет ли человек велосипедом.
Метки-прокси — это метки, похожие, но не идентичные прогнозу, который пытается сделать ваша модель. Например, человек, подписавшийся на журнал Bicycle Bizarre, вероятно, но не обязательно, владеет велосипедом.

Прямые метки, как правило, лучше, чем прокси-метки. Если ваш набор данных позволяет использовать прямую метку, вероятно, стоит её использовать. Однако зачастую прямые метки недоступны.

Прокси-метки всегда являются компромиссом — несовершенным приближением к прямой метке. Однако некоторые прокси-метки достаточно близки к ней, чтобы быть полезными. Полезность моделей, использующих прокси-метки, определяется связью между прокси-меткой и прогнозом.

Напомним, что каждая метка должна быть представлена числом с плавающей точкой, аналогично вектору признаков (поскольку машинное обучение, по сути, представляет собой набор математических операций). Иногда существует прямая метка, но её сложно представить в виде числа с плавающей точкой. В этом случае используйте прокси-метку.

Упражнение: проверьте свое понимание

Ваша компания хочет сделать следующее:

Отправьте владельцам велосипедов купоны по почте («Получите скидку 15% на новый велосипедный шлем»).

Итак, ваша модель должна выполнять следующие действия:

Предскажите, у каких людей есть велосипед.

К сожалению, в наборе данных нет столбца « bike owner . Однако в наборе данных есть столбец « recently bought a bicycle .

Будет ли recently bought a bicycle хорошей или плохой маркировкой для этой модели?

Хорошая метка прокси

Столбец recently bought a bicycle — относительно хороший вспомогательный ярлык. В конце концов, большинство покупателей велосипедов уже владеют ими. Тем не менее, как и все вспомогательные ярлыки, даже очень хорошие, recently bought a bicycle » несовершенен. Ведь тот, кто покупает товар, не всегда является тем, кто им пользуется (или владеет). Например, велосипеды иногда покупают в подарок.

Плохая метка прокси

Как и все опосредованные метки, recently bought a bicycle несовершенна (некоторые велосипеды покупаются в подарок и дарятся другим). Тем не менее, recently bought a bicycle всё ещё является относительно надёжным признаком того, что у кого-то есть велосипед.

Данные, созданные человеком

Некоторые данные генерируются человеком , то есть один или несколько человек анализируют информацию и присваивают ей значение, обычно для метки. Например, один или несколько метеорологов могут изучать фотографии неба и определять типы облаков.

В качестве альтернативы, некоторые данные генерируются автоматически . То есть, значение определяется программным обеспечением (возможно, другой моделью машинного обучения). Например, модель машинного обучения может анализировать изображения неба и автоматически определять типы облаков.

В этом разделе рассматриваются преимущества и недостатки данных, созданных человеком.

Преимущества

Оценщики-люди могут выполнять широкий спектр задач, которые могут оказаться сложными даже для сложных моделей машинного обучения.
Этот процесс заставляет владельца набора данных разработать четкие и последовательные критерии.

Недостатки

Обычно вы платите оценщикам-людям, поэтому данные, полученные от людей, могут быть дорогими.
Человеку свойственно ошибаться. Поэтому, возможно, несколько экспертов-экспертов будут оценивать одни и те же данные.

Подумайте над этими вопросами, чтобы определить свои потребности:

Насколько квалифицированными должны быть ваши оценщики? (Например, должны ли оценщики знать конкретный язык? Нужны ли вам лингвисты для диалогов или приложений НЛП?)
Сколько маркированных образцов вам нужно? Как скоро они вам понадобятся?
Какой у вас бюджет?

Всегда перепроверяйте оценки, сделанные людьми . Например, самостоятельно промаркируйте 1000 примеров и сравните свои результаты с результатами других оценщиков. Если обнаружатся расхождения, не считайте свои оценки верными, особенно если речь идёт о оценочном суждении. Если люди допустили ошибки, попробуйте добавить инструкции, которые помогут им, и повторите попытку.

Нажмите на значок «плюс», чтобы узнать больше о данных, созданных человеком.

Анализ данных вручную — это полезное упражнение, независимо от того, как вы их получили. Андрей Карпати сделал это на ImageNet и написал об этом опыте .

Модели могут обучаться как на основе автоматизированных, так и созданных человеком меток. Однако для большинства моделей дополнительный набор созданных человеком меток (которые могут устареть) обычно не оправдывает дополнительных затрат на усложнение и поддержку. Тем не менее, иногда созданные человеком метки могут предоставлять дополнительную информацию, отсутствующую в автоматических метках.

Характеристики данных (10 мин)

Несбалансированные наборы данных (10 минут)