Datos numéricos: Transformaciones polinómicas

A veces, cuando el profesional de AA tiene conocimientos del dominio que sugieren que una variable está relacionada con el cuadrado, el cubo o alguna otra potencia de otra variable, es útil crear un atributo sintético a partir de uno de los atributos numéricos existentes.

Considera la siguiente distribución de datos, en la que los círculos rosas representan una clase o categoría (por ejemplo, una especie de árbol) y los triángulos verdes, otra clase (o especie de árbol):

Figura 17. Y=x^2 de propagación de datos, con triángulos debajo de la curva y círculos sobre la curva.
Figura 17: Dos clases que no se pueden separar con una línea.

No es posible dibujar una línea recta que separe claramente las dos clases, pero es posible dibujar una curva que lo haga:

Figura 18. Es la misma imagen que la Figura 17, solo que esta vez con y=x^2 superpuesta para crear un límite claro entre los triángulos y los círculos.
Figura 18: Separa las clases con y = x2.

Como se explica en el módulo de regresión lineal, un modelo lineal con un atributo, $x_1$, se describe con la ecuación lineal:

$$y = b + w_1x_1$$

Las funciones adicionales se controlan mediante la adición de términos \(w_2x_2\),\(w_3x_3\), etcétera.

El descenso de gradientes encuentra el peso $w_1$ (o los pesos\(w_1\), \(w_2\), \(w_3\), en el caso de las características adicionales) que minimiza la pérdida del modelo. Sin embargo, los datos que se muestran no se pueden separar con una línea. ¿Qué puedo hacer?

Es posible mantener la ecuación lineal y permitir la no linealidad definiendo un término nuevo, \(x_2\), que es simplemente \(x_1\) al cuadrado:

$$x_2 = x_1^2$$

Este atributo sintético, llamado transformación polinómica, se trata como cualquier otro atributo. La fórmula lineal anterior se convierte en lo siguiente:

$$y = b + w_1x_1 + w_2x_2$$

Esto se puede tratar como un problema de regresión lineal, y los pesos se determinan a través del descenso de gradiente, como de costumbre, a pesar de que contiene un término cuadrado oculto, la transformación polinómica. Sin cambiar la forma en que se entrena el modelo lineal, la adición de una transformación polinómica permite que el modelo separe los datos con una curva del tipo $y = b + w_1x + w_2x^2$.

Por lo general, la característica numérica de interés se multiplica por sí misma, es decir, se eleva a alguna potencia. A veces, un profesional del AA puede hacer una suposición fundamentada sobre el exponente adecuado. Por ejemplo, muchas relaciones en el mundo físico se relacionan con términos cuadrados, como la aceleración debido a la gravedad, la atenuación de la luz o el sonido a lo largo de la distancia y la energía potencial elástica.

Si transformas una función de manera que cambie su escala, deberías considerar experimentar con su normalización. Normalizar después de la transformación podría mejorar el rendimiento del modelo. Para obtener más información, consulta Datos numéricos: Normalización.

Un concepto relacionado en los datos categóricos es la combinación de atributos, que con mayor frecuencia sintetiza dos atributos diferentes.