Категориальные данные: Общие проблемы

Числовые данные часто записываются с помощью научных инструментов или автоматических измерений. С другой стороны, категориальные данные часто классифицируются людьми или моделями машинного обучения (ML). Кто принимает решения относительно категорий и ярлыков, а также то, как они принимают эти решения, влияет на надежность и полезность этих данных.

Человеческие оценщики

Данные, помеченные людьми вручную, часто называются золотыми метками и считаются более желательными, чем данные, помеченные машиной, для обучающих моделей из-за относительно лучшего качества данных.

Это не обязательно означает, что любой набор данных, размеченных человеком, имеет высокое качество. Человеческие ошибки, предвзятость и злой умысел могут возникнуть в момент сбора данных или во время очистки и обработки данных. Проверьте их перед тренировкой.

Любые два человека могут по-разному обозначить один и тот же пример. Разница между решениями оценщиков называется соглашением между оценщиками . Вы можете получить представление о различиях во мнениях оценщиков, используя несколько оценщиков для каждого примера и измеряя согласие между оценщиками.

Оценщики машин

Данные с машинной маркировкой, в которых категории автоматически определяются с помощью одной или нескольких моделей классификации, часто называются серебряными метками . Данные с машинной маркировкой могут сильно различаться по качеству. Проверьте его не только на точность и предвзятость, но и на нарушения здравого смысла, реальности и намерений. Например, если модель компьютерного зрения ошибочно пометит фотографию чихуахуа как булочку или фотографию булочки как чихуахуа, модели, обученные на этих помеченных данных, будут более низкого качества.

Аналогичным образом, анализатор настроений, который оценивает нейтральные слова как -0,25, когда 0,0 является нейтральным значением, может оценивать все слова с дополнительным отрицательным смещением, которого на самом деле нет в данных. Сверхчувствительный детектор токсичности может ошибочно пометить многие нейтральные утверждения как токсичные. Постарайтесь получить представление о качестве и предвзятости машинных меток и аннотаций в ваших данных, прежде чем тренироваться на них.

Высокая размерность

Категориальные данные имеют тенденцию создавать многомерные векторы признаков; то есть векторы признаков, имеющие большое количество элементов. Высокая размерность увеличивает затраты на обучение и усложняет обучение. По этим причинам эксперты по МО часто ищут способы сократить количество измерений перед обучением.

Для данных на естественном языке основным методом уменьшения размерности является преобразование векторов признаков во внедренные векторы. Это обсуждается в модуле «Внедрения» далее в этом курсе.