Dados categóricos: cruzamentos de atributos

Os cruzamentos de atributos são criados pela cruzamento (com o produto cartesiano de) dois ou mais categóricos ou agrupados atributos do conjunto de dados. Como polinômios transformações, os cruzamentos de atributos permitem que modelos lineares lidam com não linearidades. Cruzamentos de atributos também codificam interações entre atributos.

Por exemplo, considere um conjunto de dados de folhas com os atributos categóricos:

  • edges, contendo os valores smooth, toothed e lobed
  • arrangement, contendo os valores opposite e alternate

Suponha que a ordem acima seja a ordem das colunas de atributos em um one-hot representação, de modo que uma folha com smooth bordas e arranjo de opposite é representado como {(1, 0, 0), (1, 0)}.

O cruzamento de atributos, ou produto cartesiano, desses dois atributos seria:

{Smooth_Opposite, Smooth_Alternate, Toothed_Opposite, Toothed_Alternate, Lobed_Opposite, Lobed_Alternate}

em que o valor de cada termo é o produto dos valores dos atributos base, como que:

  • Smooth_Opposite = edges[0] * arrangement[0]
  • Toothed_Opposite = edges[1] * arrangement[0]
  • Lobed_Alternate = edges[2] * arrangement[1]

Para qualquer exemplo no conjunto de dados, o cruzamento de atributos será igual a 1 somente se os dois atributos básicos vetores one-hot originais foram 1 para as categorias cruzadas. Ou seja, uma folha de carvalho com borda lobada e arranjo alternativo teria uma de 1 apenas para Lobed_Alternate, e o cruzamento de atributos acima seria:

{0, 0, 0, 0, 0, 1}

Este conjunto de dados poderia ser usado para classificar folhas por espécie de árvore, uma vez que estas as características não variam dentro de uma espécie.

Quando usar cruzamentos de atributos

O conhecimento do domínio pode sugerir uma combinação útil de recursos para cruzar. Sem esse conhecimento de domínio, pode ser difícil determinar cruzamentos de atributos eficazes ou transformações polinomiais manualmente. Muitas vezes é possível, se for caro em termos computacionais, redes neurais para encontrar e aplicar automaticamente combinações de atributos úteis durante o treinamento.

Tenha cuidado: o cruzamento de dois atributos esparsos gera um novo do que os dois recursos originais. Por exemplo, se o recurso A for Os recursos esparsos de 100 elementos e o recurso B são esparsos com 200 elementos, um cruzamento de atributos de A e B produz um atributo esparso de 20.000 elementos.