Kategorische Daten: Funktionsverknüpfungen

Funktionsverknüpfungen werden erstellt von das kartesische Produkt von zwei oder mehr kategorialen oder gruppierten Merkmale des Datasets. Wie bei polynomen Transformationen, Mit Featureverknüpfungen können lineare Modelle Nichtlinearitäten verarbeiten. Funktionsverknüpfungen und codieren Interaktionen zwischen Elementen.

Betrachten Sie beispielsweise ein Blatt-Dataset mit den kategorialen Features:

  • edges mit den Werten smooth, toothed und lobed
  • arrangement mit den Werten opposite und alternate

Angenommen, die obige Reihenfolge ist die Reihenfolge der Featurespalten in einem One-Hot-Vorgang. Darstellung, sodass ein Blatt mit smooth Kanten und opposite-Anordnung wird als {(1, 0, 0), (1, 0)} dargestellt.

Das Merkmalsverknüpfung oder kartesische Produkt dieser beiden Merkmale wäre:

{Smooth_Opposite, Smooth_Alternate, Toothed_Opposite, Toothed_Alternate, Lobed_Opposite, Lobed_Alternate}

wobei der Wert jedes Begriffs das Produkt der Basismerkmalswerte ist, z. B. dass:

  • Smooth_Opposite = edges[0] * arrangement[0]
  • Toothed_Opposite = edges[1] * arrangement[0]
  • Lobed_Alternate = edges[2] * arrangement[1]

Für ein bestimmtes Beispiel im Dataset ist der Feature-Kreuz nur dann 1, wenn „beide Basisfunktionen“ Die ursprünglichen One-Hot-Vektoren waren 1 für die Cross-Kategorien. Das heißt, ein Eichenblatt mit gelappter Kante und einer alternativen Anordnung hätte Wert 1 nur für Lobed_Alternate. Die obige Funktionsverknüpfung wäre:

{0, 0, 0, 0, 0, 1}

Dieses Dataset könnte verwendet werden, um Blätter nach Baumarten zu klassifizieren, innerhalb einer Spezies nicht variieren.

Wann werden Funktionsverknüpfungen verwendet?

Domänenwissen kann eine nützliche Kombination von Funktionen vorschlagen. zu überwinden. Ohne dieses Domänenwissen ist es schwierig, effektive Merkmalskreuzungen oder polynomiale Transformationen manuell. Häufig ist es möglich, wenn sie rechenintensiv sind, neuronalen Netzwerke nutzen, während des Trainings automatisch nützliche Funktionskombinationen finden und anwenden können.

Seien Sie vorsichtig. Das Verknüpfen von zwei dünnbesetzten Features führt zu einem noch spärlicheren neuen als die beiden ursprünglichen Merkmale. Wenn z. B. Feature A eine ein dünnbesetztes Feature mit 100 Elementen und Merkmal B eine dünnbesetzte Funktion mit 200 Elementen, ergibt eine Merkmalsverknüpfung von A und B ein dünnbesetztes Merkmal mit 20.000 Elementen.