특성 교차: 비선형성 인코딩

그림 1과 그림 2에서 다음을 상상해 보세요.

파란색 점은 병든 나무를 나타냅니다.
주황색 점은 건강한 나무를 나타냅니다.

파란색 점은 북동쪽 사분면을 차지하고 주황색 점은 남서쪽 사분면을 차지합니다.

그림 1. 선형 문제인가요?

병든 나무를 건강한 나무와 깔끔하게 분리하는 선을 그릴 수 있나요? 물론입니다. 이 문제는 선형 문제입니다. 완벽하지는 않습니다. 아픈 나무 한두 개는 '건강한' 측면에 있을 수 있지만, 이 선이 좋은 예측자입니다.

이제 다음 그림을 보세요.

파란색 점은 북동쪽과 남서쪽 사분면을 차지하고 주황색 점은 북서쪽과 남동쪽 사분면을 차지합니다.

그림 2. 선형 문제인가요?

병든 나무를 건강한 나무와 깔끔하게 분리하는 직선을 하나 그릴 수 있나요? 아니요, 불가능합니다. 이는 비선형 문제입니다. 선을 그리면 나무의 상태를 잘 예측할 수 없습니다.

수평선이 평면을 끊는 점을 제외하고 그림 2와 같은 그림 파란색과 주황색 점은 선 위에 있습니다. 파란색과 주황색 점은 선 아래에 있습니다.

그림 3. 한 줄로 두 클래스를 구분할 수는 없습니다.

그림 2에 표시된 비선형 문제를 해결하려면 특성 교차를 만듭니다. 특성 교차는 두 개 이상의 입력 특성을 곱하여 특성 공간에서 비선형성을 인코딩하는 합성 특성입니다. 교차라는 용어는 교차 곱에서 유래되었습니다. 다음과 같이 $x_3$ 교차하여 $x_1$라는 특성 교차를 생성합니다. $x_2$

$$x_3 = x_1x_2$$

새로 발급된 $x_3$ 특성 교차는 다른 특성과 마찬가지로 처리합니다. 선형 수식은 다음과 같습니다.

$$y = b + w_1x_1 + w_2x_2 + w_3x_3$$

선형 알고리즘은 $w_3$$w_1$ 및 $w_2$에서처럼 가중치를 학습할 수 있습니다. 즉, $w_3$ 비선형 정보를 인코딩하지만 $w_3$의 값을 결정하기 위해 선형 모델이 학습되는 방법을 변경할 필요는 없습니다.

특성 교차의 종류

다양한 종류의 특성 교차를 만들 수 있습니다. 예를 들면 다음과 같습니다.

[A X B]: 두 특성의 값을 곱하여 구성되는 특성 교차
[A x B x C x D x E]: 특성 5개의 값을 곱하여 구성되는 특성 교차
[A x A]: 단일 특성을 제곱하여 구성되는 특성 교차

확률적 경사하강법 덕분에 선형 모델을 효율적으로 학습시킬 수 있습니다. 결과적으로 확장된 선형 모델을 특성 교차로 보완하는 것은 대규모 데이터 세트를 학습시키는 데 효율적인 방법이었습니다.

동영상 강의

원-핫 벡터 교차