특성 교차: 비선형성 인코딩

그림 1과 그림 2에서 다음을 상상해 보세요.

  • 파란색 점은 병든 나무를 나타냅니다.
  • 주황색 점은 건강한 나무를 나타냅니다.

파란색 점은 북동쪽 사분면을 차지하고 주황색 점은 남서쪽 사분면을 차지합니다.

그림 1. 선형 문제인가요?

병든 나무를 건강한 나무와 깔끔하게 분리하는 선을 그릴 수 있나요? 물론입니다. 이 문제는 선형 문제입니다. 완벽하지는 않습니다. 아픈 나무 한두 개는 '건강한' 측면에 있을 수 있지만, 이 선이 좋은 예측자입니다.

이제 다음 그림을 보세요.

파란색 점은 북동쪽과 남서쪽 사분면을 차지하고 주황색 점은 북서쪽과 남동쪽 사분면을 차지합니다.

그림 2. 선형 문제인가요?

병든 나무를 건강한 나무와 깔끔하게 분리하는 직선을 하나 그릴 수 있나요? 아니요, 불가능합니다. 이는 비선형 문제입니다. 선을 그리면 나무의 상태를 잘 예측할 수 없습니다.

수평선이 평면을 끊는 점을 제외하고 그림 2와 같은 그림 파란색과 주황색 점은 선 위에 있습니다. 파란색과 주황색 점은 선 아래에 있습니다.

그림 3. 한 줄로 두 클래스를 구분할 수는 없습니다.

 

그림 2에 표시된 비선형 문제를 해결하려면 특성 교차를 만듭니다. 특성 교차는 두 개 이상의 입력 특성을 곱하여 특성 공간에서 비선형성을 인코딩하는 합성 특성입니다. 교차라는 용어는 교차 곱에서 유래되었습니다. 다음과 같이 \(x_3\) 교차하여 \(x_1\)라는 특성 교차를 생성합니다. \(x_2\)

$$x_3 = x_1x_2$$

새로 발급된 \(x_3\) 특성 교차는 다른 특성과 마찬가지로 처리합니다. 선형 수식은 다음과 같습니다.

$$y = b + w_1x_1 + w_2x_2 + w_3x_3$$

선형 알고리즘은 \(w_3\)\(w_1\) 및 \(w_2\)에서처럼 가중치를 학습할 수 있습니다. 즉, \(w_3\) 비선형 정보를 인코딩하지만 \(w_3\)의 값을 결정하기 위해 선형 모델이 학습되는 방법을 변경할 필요는 없습니다.

특성 교차의 종류

다양한 종류의 특성 교차를 만들 수 있습니다. 예를 들면 다음과 같습니다.

  • [A X B]: 두 특성의 값을 곱하여 구성되는 특성 교차
  • [A x B x C x D x E]: 특성 5개의 값을 곱하여 구성되는 특성 교차
  • [A x A]: 단일 특성을 제곱하여 구성되는 특성 교차

확률적 경사하강법 덕분에 선형 모델을 효율적으로 학습시킬 수 있습니다. 결과적으로 확장된 선형 모델을 특성 교차로 보완하는 것은 대규모 데이터 세트를 학습시키는 데 효율적인 방법이었습니다.