Dane kategorialne: przekrój cech

Pomnożenia cech są tworzone przez pomnożenie (czyli mnożenie kartezjańskie) co najmniej 2 cech zbiorczych lub kategorialnych zbioru danych. Podobnie jak transformacje wielomianowe, skrzyżowania cech umożliwiają modelom liniowym radzenie sobie z nieliniowością. Przejścia między funkcjami kodują też interakcje między funkcjami.

Rozważ na przykład zbiór danych typu liść z cechami kategorialnymi:

edges, który zawiera wartości smooth, toothed i lobed
arrangement, zawierający wartości opposite i alternate

Załóżmy, że powyższa kolejność to kolejność kolumn cech w reprezentacji jednobitowej, więc wierzchołek z smooth krawędziami i układem opposite jest reprezentowany jako {(1, 0, 0), (1, 0)}.

Przecięcie funkcji lub iloczyn kartezjański tych dwóch funkcji to:

{Smooth_Opposite, Smooth_Alternate, Toothed_Opposite, Toothed_Alternate, Lobed_Opposite, Lobed_Alternate}

gdzie wartość każdego składnika jest iloczynem wartości atrybutów podstawowych, takich jak:

Smooth_Opposite = edges[0] * arrangement[0]
Smooth_Alternate = edges[0] * arrangement[1]
Toothed_Opposite = edges[1] * arrangement[0]
Toothed_Alternate = edges[1] * arrangement[1]
Lobed_Opposite = edges[2] * arrangement[0]
Lobed_Alternate = edges[2] * arrangement[1]

Jeśli np. liść ma krawędź lobed i układ alternate, wektor krzyżowy cech będzie miał wartość 1 dla Lobed_Alternate i wartość 0 dla wszystkich pozostałych elementów:

{0, 0, 0, 0, 0, 1}

Ten zbiór danych można wykorzystać do klasyfikowania liści według gatunków drzew, ponieważ te cechy nie różnią się w obrębie danego gatunku.

Kliknij tutaj, aby porównać transformacje wielomianowe z krzyżowaniem cech

Przecięcia cech są w pewnym stopniu analogiczne do transformacji wielomianowych. Oba te podejścia łączą wiele cech w jedną cechę syntetyczną, na podstawie której model może się uczyć nieliniowości. Transformacje wielomianowe zwykle łączą dane liczbowe, a złączenia cech łączą dane kategorialne.

Kiedy używać funkcji krzyżowania

Wiedza o dziedzinie może sugerować przydatne kombinacje funkcji. Bez tej wiedzy trudno jest ręcznie określić skuteczne krzyżowanie cech lub przekształcenia wielomianowe. Często, jeśli wymaga to dużych zasobów obliczeniowych, można użyć sieci neuronowych, aby automatycznie znajdować i stosować przydatne kombinacje cech podczas treningu.

Uważaj – skrzyżowanie 2 rzadkich cech spowoduje powstanie jeszcze rzadszej cechy niż 2 początkowe cechy. Jeśli na przykład cecha A jest rzadką cechą o 100 elementach, a cecha B jest rzadką cechą o 200 elementach, ich iloczyn daje rzadką cechę o 20 000 elementach.

Wstecz

Typowe problemy z danymi kategorialnymi (5 min)

Dalej

Ćwiczenia na krzyż (15 min)

Dane kategorialne: przekrój cech Zadbaj o dobrą organizację dzięki kolekcji Zapisuj i kategoryzuj treści zgodnie ze swoimi preferencjami.

Kiedy używać funkcji krzyżowania

Dane kategorialne: przekrój cech