그림 1과 그림 2에서 다음을 상상해 보세요.
- 파란색 점은 병든 나무를 나타냅니다.
- 주황색 점은 건강한 나무를 나타냅니다.
그림 1. 선형 문제인가요?
병든 나무를 건강한 나무와 깔끔하게 분리하는 선을 그릴 수 있나요? 물론입니다. 이 문제는 선형 문제입니다. 완벽하지는 않습니다. 아픈 나무 한두 개는 '건강한' 측면에 있을 수 있지만, 이 선이 좋은 예측자입니다.
이제 다음 그림을 보세요.
그림 2. 선형 문제인가요?
병든 나무를 건강한 나무와 깔끔하게 분리하는 직선을 하나 그릴 수 있나요? 아니요, 불가능합니다. 이는 비선형 문제입니다. 선을 그리면 나무의 상태를 잘 예측할 수 없습니다.
그림 3. 한 줄로 두 클래스를 구분할 수는 없습니다.
그림 2에 표시된 비선형 문제를 해결하려면 특성 교차를 만듭니다. 특성 교차는 두 개 이상의 입력 특성을 곱하여 특성 공간에서 비선형성을 인코딩하는 합성 특성입니다. 교차라는 용어는 교차 곱에서 유래되었습니다. 다음과 같이 \(x_3\) 교차하여 \(x_1\)라는 특성 교차를 생성합니다. \(x_2\)
새로 발급된 \(x_3\) 특성 교차는 다른 특성과 마찬가지로 처리합니다. 선형 수식은 다음과 같습니다.
선형 알고리즘은 \(w_3\)\(w_1\) 및 \(w_2\)에서처럼 가중치를 학습할 수 있습니다. 즉, \(w_3\) 비선형 정보를 인코딩하지만 \(w_3\)의 값을 결정하기 위해 선형 모델이 학습되는 방법을 변경할 필요는 없습니다.
특성 교차의 종류
다양한 종류의 특성 교차를 만들 수 있습니다. 예를 들면 다음과 같습니다.
[A X B]
: 두 특성의 값을 곱하여 구성되는 특성 교차[A x B x C x D x E]
: 특성 5개의 값을 곱하여 구성되는 특성 교차[A x A]
: 단일 특성을 제곱하여 구성되는 특성 교차
확률적 경사하강법 덕분에 선형 모델을 효율적으로 학습시킬 수 있습니다. 결과적으로 확장된 선형 모델을 특성 교차로 보완하는 것은 대규모 데이터 세트를 학습시키는 데 효율적인 방법이었습니다.