범주형 데이터: 특성 교차

특성 교차는 다음에 의해 생성됩니다. 두 개 이상의 범주형이거나 버케팅된 교차 데이터 세트의 특성입니다. 예: 다항식 변환, 특성 교차를 사용하면 선형 모델이 비선형성을 처리할 수 있습니다 특성 교차 특성 간의 상호작용을 인코딩합니다.

예를 들어 범주형 특성이 있는 리프 데이터 세트를 가정해 보겠습니다.

  • smooth, toothed, lobed 값을 포함하는 edges
  • arrangement, oppositealternate 값 포함

위의 순서가 원-핫 특성 열의 순서라고 가정합니다. 가장자리가 smooth이고 opposite로 정렬된 리프가 {(1, 0, 0), (1, 0)}로 표시됩니다.

이 두 특성의 특성 교차 또는 데카르트 곱은 다음과 같습니다.

{Smooth_Opposite, Smooth_Alternate, Toothed_Opposite, Toothed_Alternate, Lobed_Opposite, Lobed_Alternate}

여기서 각 항의 값은 기본 특성값의 곱입니다. 다음과 같습니다.

  • Smooth_Opposite = edges[0] * arrangement[0]
  • Toothed_Opposite = edges[1] * arrangement[0]
  • Lobed_Alternate = edges[2] * arrangement[1]

데이터 세트의 모든 예에 대해 다음 조건을 충족하는 경우에만 특성 교차가 1이 됩니다. 기본 특성과 교차된 카테고리에 대해 1개였습니다. 즉, 들쑥날쑥한 가장자리와 대체 배열이 있는 참나무 잎은 값 1은 Lobed_Alternate에만 해당하며 위의 특성 교차는 다음과 같습니다.

{0, 0, 0, 0, 0, 1}

이 데이터 세트는 수목 종별로 나뭇잎을 분류하는 데 사용할 수 있는데, 특성은 종 내에서 다르지 않습니다.

특성 교차를 사용하는 경우

전문 분야 지식이 있으면 특성의 유용한 조합을 제안할 수 있습니다. 교차할 수 있습니다. 해당 분야에 대한 지식이 없으면 문제를 파악하기가 어려울 수 있습니다 다항식 변환을 직접 수행할 수 있습니다. 종종 가능하지만 컴퓨팅 리소스를 많이 사용하는 경우 신경망을 학습 중에 유용한 특성 조합을 자동으로 찾아 적용합니다.

주의: 두 개의 희소 특성을 교차하면 훨씬 더 희소한 새 특성이 생성됩니다. 더 큰 차이를 보였습니다. 예를 들어 특성 A가 요소가 100개인 희소 특성, 특성 B는 요소가 200개인 희소 특성입니다. A와 B의 특성 교차는 20,000개의 요소가 포함된 희소 특성을 생성합니다.