범주형 데이터: 특성 교차

특성 교차는 데이터 세트의 두 개 이상의 범주형 또는 버케팅된 특성을 교차 (카티전 프로덕트 계산)하여 만듭니다. 다항식 변환과 마찬가지로 특성 교차를 사용하면 선형 모델이 비선형성을 처리할 수 있습니다. 특성 교차는 특성 간의 상호작용도 인코딩합니다.

예를 들어 다음과 같은 범주형 특성이 있는 리프 데이터 세트를 생각해 보겠습니다.

edges: smooth, toothed, lobed 값을 포함합니다.
arrangement: opposite 및 alternate 값 포함

위 순서가 원핫 표현식의 특성 열 순서라고 가정하면 smooth 가장자리와 opposite 배열이 있는 리프는 {(1, 0, 0), (1, 0)}로 표현됩니다.

이 두 특성의 특성 교차 또는 카티언곱은 다음과 같습니다.

{Smooth_Opposite, Smooth_Alternate, Toothed_Opposite, Toothed_Alternate, Lobed_Opposite, Lobed_Alternate}

여기서 각 항의 값은 기본 지형지물 값의 곱입니다. 예를 들면 다음과 같습니다.

Smooth_Opposite = edges[0] * arrangement[0]
Smooth_Alternate = edges[0] * arrangement[1]
Toothed_Opposite = edges[1] * arrangement[0]
Toothed_Alternate = edges[1] * arrangement[1]
Lobed_Opposite = edges[2] * arrangement[0]
Lobed_Alternate = edges[2] * arrangement[1]

예를 들어 리프에 lobed 가장자리와 alternate 배열이 있는 경우 기능 교차 벡터는 Lobed_Alternate에 대해 1의 값을 갖고 다른 모든 항목에 대해 0의 값을 갖습니다.

{0, 0, 0, 0, 0, 1}

이러한 특성은 종 내에서 변하지 않으므로 이 데이터 세트를 나무 종별로 잎을 분류하는 데 사용할 수 있습니다.

다항식 변환을 특성 교차와 비교하려면 여기를 클릭하세요.

특성 교차는 다항식 변환과 다소 유사합니다. 두 방법 모두 여러 특성을 결합하여 모델이 학습하여 비선형성을 학습할 수 있는 새로운 합성 특성을 만듭니다. 다항식 변환은 일반적으로 수치 데이터를 결합하는 반면, 특성 교차는 범주형 데이터를 결합합니다.

지형지물 교차를 사용하는 경우

도메인 지식을 통해 교차할 유용한 특성 조합을 제안할 수 있습니다. 이러한 도메인 지식이 없으면 효과적인 기능 교차 또는 다항식 변환을 수동으로 결정하기 어려울 수 있습니다. 계산 비용이 많이 드는 경우 신경망을 사용하여 학습 중에 유용한 기능 조합을 자동으로 찾아 적용하는 것이 가능합니다.

주의하세요. 두 개의 희소한 지형지물을 교차하면 두 개의 원래 지형지물보다 더 희소한 새로운 지형지물이 생성됩니다. 예를 들어 특성 A가 100개 요소의 희소 특성이고 특성 B가 200개 요소의 희소 특성이면 A와 B의 특성 교차는 20,000개 요소의 희소 특성을 생성합니다.

카테고리 데이터와 관련된 일반적인 문제 (5분)

특성 교차 연습 (15분)

범주형 데이터: 특성 교차 컬렉션을 사용해 정리하기 내 환경설정을 기준으로 콘텐츠를 저장하고 분류하세요.

지형지물 교차를 사용하는 경우

범주형 데이터: 특성 교차