숫자 데이터: 다항 변환

때로는 ML 실무자가 문제 해결을 위한 전문 분야 지식을 갖추고 한 변수가 다른 변수의 제곱, 정육면체 또는 기타 거듭제곱과 관련되어 있다는 것을 알 수 있습니다. 변수가 있는 경우 합성 특성기능

다음과 같은 데이터 포인트 확산을 고려하세요. 분홍색 원은 다음을 나타냅니다. 하나의 클래스 또는 카테고리 (예: 나무의 종)와 녹색 삼각형 다른 클래스 (또는 나무의 종)

그림 17. 아래에 삼각형이 있는 데이터 포인트의 y=x^2 확산
            원이 있습니다.
그림 17. 선으로 구분할 수 없는 두 개의 클래스

이 둘을 명확히 구분하는 직선을 그릴 수 없다. 클래스를 하지만 그렇게 하는 곡선을 그릴 수 있습니다.

그림 18. 그림 17과 동일한 이미지. 이번에는 y=x^2
            삼각형과 도형 사이의 경계가 명확한
            있습니다.
그림 18. y = x2로 클래스 분리

앞서 말씀드린 것처럼 선형 회귀 모듈, 하나의 특성인 $x_1$를 가진 선형 모델은 다음과 같이 선형 방정식에 의해 설명됩니다.

$$y = b + w_1x_1$$

추가 기능은 \(w_2x_2\), \(w_3x_3\)등

경사하강법weight $w_1$ (또는 가중치) \(w_1\), \(w_2\), \(w_3\)(추가 기능의 경우)를 최소화합니다. 모델의 손실을 줄입니다. 하지만 표시되는 데이터 포인트는 선으로 구분할 수 없습니다. 어떻게 해야 하나요?

선형 방정식을 유지하고 비선형성을 허용할 수 있습니다. 이를 제곱하여 \(x_1\) 새 항을 \(x_2\)정의합니다.

$$x_2 = x_1^2$$

다항식 변환이라고 하는 이 합성 특성은 확인할 수 있습니다 이전의 선형 수식은 다음과 같습니다.

$$y = b + w_1x_1 + w_2x_2$$

이것은 여전히 선형 회귀 일반적이지만 일반적이지는 않지만 경사하강법을 통해 숨겨진 제곱항인 다항식 변환을 포함합니다. 변경하지 않음 다항식 변환을 추가하면 인코더-디코더 모델을 사용하여 데이터 포인트를 $y = b + w_1x + w_2x^2$가 됩니다.

일반적으로 관심 있는 숫자 특성은 자체로 곱해집니다. 거듭제곱합니다. 때때로 ML 실무자는 충분한 정보를 바탕으로 추측할 수 있음 알 수 있습니다. 예를 들어, 물리적 계층의 많은 관계는 제곱 항과 관련이 있으며 중력으로 인한 가속도, 거리에 따른 빛이나 소리의 감쇠, 탄성 위치 에너지 등이 있습니다.

이와 관련된 개념은 범주형 데이터특성 교차를 지원합니다. 두 개의 다른 특성을 자주 종합합니다