Категориальные данные: перекрестия признаков

Перекрещивания объектов создаются путем скрещивания (с использованием декартова произведения) двух или более категориальных или группированных признаков набора данных. Подобно полиномиальным преобразованиям , перекрестные признаки позволяют линейным моделям обрабатывать нелинейности. Перекрещивания объектов также кодируют взаимодействие между объектами.

Например, рассмотрим листовой набор данных с категориальными признаками:

  • edges , содержащие значения smooth , toothed и lobed
  • arrangement , содержащее opposite и alternate значения

Предположим, что указанный выше порядок — это порядок столбцов объектов в «горячем» представлении, так что лист с smooth краями и opposite расположением представлен как {(1, 0, 0), (1, 0)} .

Крест функций или декартово произведение этих двух функций будет следующим:

{Smooth_Opposite, Smooth_Alternate, Toothed_Opposite, Toothed_Alternate, Lobed_Opposite, Lobed_Alternate}

где значение каждого термина является произведением значений базовых признаков, так что:

  • Smooth_Opposite = edges[0] * arrangement[0]
  • Toothed_Opposite = edges[1] * arrangement[0]
  • Lobed_Alternate = edges[2] * arrangement[1]

Для любого примера в наборе данных перекрестие объектов будет равно 1 только в том случае, если исходные горячие векторы обоих базовых объектов были равны 1 для скрещенных категорий. То есть дубовый лист с лопастным краем и альтернативным расположением будет иметь значение 1 только для Lobed_Alternate , а крест объекта выше будет:

{0, 0, 0, 0, 0, 1}

Этот набор данных можно использовать для классификации листьев по видам деревьев, поскольку эти характеристики не различаются внутри вида.

Когда использовать перекрестия объектов

Знание предметной области может подсказать полезную комбинацию функций для пересечения. Без этих знаний предметной области может быть сложно вручную определить эффективные пересечения признаков или полиномиальные преобразования. Часто возможно, хотя и требует больших вычислительных затрат, использовать нейронные сети для автоматического поиска и применения полезных комбинаций функций во время обучения.

Будьте осторожны: скрещивание двух разреженных объектов дает еще более редкий новый объект, чем два исходных объекта. Например, если объект A представляет собой разреженный объект из 100 элементов, а объект B представляет собой разреженный объект из 200 элементов, перекрестный объект A и B дает разреженный объект из 20 000 элементов.