Las combinaciones de atributos son creadas por cruzando (tomar el producto cartesiano de) dos o más categorías o buckets atributos del conjunto de datos. Como polinomio de Terraform, la combinación de atributos permite que los modelos lineales manejen no linealidades. Combinaciones de atributos para codificar las interacciones entre atributos.
Por ejemplo, considera un conjunto de datos de hoja con los atributos categóricos:
edges
, que contiene los valoressmooth
,toothed
ylobed
arrangement
, que contiene los valoresopposite
yalternate
Supón que el orden anterior es el orden de las columnas de atributos en la operación one-hot
para que una hoja con bordes smooth
y una disposición opposite
se representa como {(1, 0, 0), (1, 0)}
.
La combinación de atributos, o producto cartesiano, de estos dos atributos sería la siguiente:
{Smooth_Opposite, Smooth_Alternate, Toothed_Opposite, Toothed_Alternate,
Lobed_Opposite, Lobed_Alternate}
donde el valor de cada término es el producto de los valores de atributos básicos, como que:
Smooth_Opposite = edges[0] * arrangement[0]
Toothed_Opposite = edges[1] * arrangement[0]
Lobed_Alternate = edges[2] * arrangement[1]
Para cualquier ejemplo determinado del conjunto de datos, la combinación de atributos será igual a 1 solo si
ambos atributos base los vectores one-hot originales fueron 1 para las categorías combinadas.
Es decir, una hoja de roble con borde loblado y disposición alternativa tendría una
valor de 1 solo para Lobed_Alternate
, y la combinación de atributos anterior sería la siguiente:
{0, 0, 0, 0, 0, 1}
Este conjunto de datos podría usarse para clasificar hojas por especies de árboles, ya que estas características no varían dentro de una especie.
Cuándo usar las combinaciones de atributos
El conocimiento del dominio puede sugerir una combinación útil de características. para cruzar. Sin ese conocimiento del dominio, puede ser difícil determinar combinaciones de atributos eficaces o transformaciones polinómicas a mano. A menudo, es posible si es costoso en términos de procesamiento, usar redes neuronales para buscar y aplicar combinaciones de atributos útiles durante el entrenamiento de forma automática
Ten cuidado: la combinación de dos atributos dispersos produce un nuevo valor que los dos originales. Por ejemplo, si el atributo A es un El atributo disperso de 100 elementos y el atributo B es de 200 elementos, una combinación de atributos A y B arroja un atributo disperso de 20,000 elementos.