Données catégorielles: croisements de caractéristiques

Les croisements de caractéristiques sont créés en croisant (en prenant le produit cartésien) deux ou plusieurs caractéristiques catégorielles ou groupées de l'ensemble de données. Comme les transformations polynomiales, les croisements de caractéristiques permettent aux modèles linéaires de gérer les non-linéarités. Les croisements de caractéristiques encodent également les interactions entre les caractéristiques.

Prenons l'exemple d'un ensemble de données sur les feuilles avec les caractéristiques catégorielles suivantes:

  • edges, contenant les valeurs smooth, toothed et lobed
  • arrangement, contenant les valeurs opposite et alternate

Supposons que l'ordre ci-dessus soit l'ordre des colonnes d'éléments dans une représentation one-hot, de sorte qu'une feuille avec des bords smooth et une disposition opposite soit représentée par {(1, 0, 0), (1, 0)}.

Le croisement de ces deux éléments, ou produit cartésien, est le suivant:

{Smooth_Opposite, Smooth_Alternate, Toothed_Opposite, Toothed_Alternate, Lobed_Opposite, Lobed_Alternate}

où la valeur de chaque terme est le produit des valeurs de base des éléments géographiques, de sorte que:

  • Smooth_Opposite = edges[0] * arrangement[0]
  • Smooth_Alternate = edges[0] * arrangement[1]
  • Toothed_Opposite = edges[1] * arrangement[0]
  • Toothed_Alternate = edges[1] * arrangement[1]
  • Lobed_Opposite = edges[2] * arrangement[0]
  • Lobed_Alternate = edges[2] * arrangement[1]

Par exemple, si une feuille comporte un bord lobed et une disposition alternate, le vecteur de croisement des éléments aura une valeur de 1 pour Lobed_Alternate et une valeur de 0 pour tous les autres termes:

{0, 0, 0, 0, 0, 1}

Ce jeu de données peut être utilisé pour classer les feuilles par espèce d'arbre, car ces caractéristiques ne varient pas au sein d'une espèce.

Quand utiliser des croisements de fonctionnalités ?

Les connaissances du domaine peuvent suggérer une combinaison utile de caractéristiques à croiser. Sans ces connaissances, il peut être difficile de déterminer manuellement les croisements de fonctionnalités efficaces ou les transformations polynomiales. Il est souvent possible, mais coûteux en termes de calcul, d'utiliser des réseaux de neurones pour trouver et appliquer automatiquement des combinaisons de fonctionnalités utiles pendant l'entraînement.

Attention : croiser deux éléments clairsemés produit un nouvel élément encore plus clairsemé que les deux éléments d'origine. Par exemple, si l'élément géographique A est un élément géographique clairsemé de 100 éléments et que l'élément géographique B est un élément géographique clairsemé de 200 éléments, un croisement de caractéristiques A et B génère un élément géographique clairsemé de 20 000 éléments.