Regresión lineal

En este módulo, se presentan los conceptos de la regresión lineal.

La regresión lineal es una técnica estadística que se usa para encontrar la relación entre las variables. En un contexto de ML, la regresión lineal encuentra la relación entre atributos y una etiqueta.

Por ejemplo, supongamos que queremos predecir la eficiencia de combustible de un automóvil en millas por galón según su peso y tenemos el siguiente conjunto de datos:

Libras en miles (función) Millas por galón (etiqueta)
3.5 18
3.69 15
3.44 18
3.43 16
4.34 15
4.42 14
2.37 24

Si trazáramos estos puntos, obtendríamos el siguiente gráfico:

Figura 1: Datos que muestran una tendencia descendente de izquierda a derecha.

Figura 1. Peso del automóvil (en libras) en comparación con la clasificación de millas por galón A medida que un automóvil se hace más pesado, su clasificación de millas por galón suele disminuir.

Podríamos crear nuestro propio modelo dibujando una línea de mejor ajuste a través de los puntos:

Figura 2: Puntos de datos con una línea de mejor ajuste que los atraviesa y representa el modelo.

Figura 2. Una línea de mejor ajuste trazada a través de los datos de la figura anterior.

Ecuación de regresión lineal

En términos algebraicos, el modelo se definiría como $ y = mx + b $, donde

  • $ y $ son millas por galón, el valor que queremos predecir.
  • $ m $ es la pendiente de la línea.
  • $ x $ son libras, nuestro valor de entrada.
  • $ b $ es la intersección en y.

En el AA, escribimos la ecuación de un modelo de regresión lineal de la siguiente manera:

$$ y' = b + w_1x_1 $$

Donde:

  • $ y' $ es la etiqueta predicha, el resultado.
  • $ b $ es el sesgo del modelo. El sesgo es el mismo concepto que el eje Y en la ecuación algebraica de una línea. En el AA, a veces se hace referencia al sesgo como $ w_0 $. El sesgo es un parámetro del modelo y se calcula durante el entrenamiento.
  • $ w_1 $ es el peso de la función. El peso es el mismo concepto que la pendiente $ m $ en la ecuación algebraica de una línea. El peso es un parámetro del modelo y se calcula durante el entrenamiento.
  • $ x_1 $ es un atributo: la entrada.

Durante el entrenamiento, el modelo calcula el peso y el sesgo que producen el mejor modelo.

Figura 3: La ecuación y' = b + w1x1, con cada componente anotado con su propósito.

Figura 3. Representación matemática de un modelo lineal.

En nuestro ejemplo, calcularíamos el peso y el sesgo de la línea que dibujamos. La sesgo es 30 (donde la línea se cruza con el eje Y) y el peso es -3.6 (la pendiente de la línea). El modelo se definiría como $ y' = 30 + (-3.6)(x_1) $ y podríamos usarlo para hacer predicciones. Por ejemplo, con este modelo, un automóvil de 1,814 kg tendría una eficiencia de combustible prevista de 25.1 km por galón.

Figura 4: Es el mismo gráfico que la Figura 2, con el punto (4, 15.6) destacado.

Figura 4. Con el modelo, un automóvil de 1,814 kg tiene una eficiencia de combustible prevista de 25.1 km por galón.

Modelos con varias funciones

Aunque el ejemplo de esta sección solo usa un atributo (el peso del automóvil), un modelo más sofisticado podría usar varios atributos, cada uno con un peso distinto ($ w_1 $, $ w_2 $, etc.). Por ejemplo, un modelo que se basa en cinco atributos se escribiría de la siguiente manera:

$ y' = b + w_1x_1 + w_2x_2 + w_3x_3 + w_4x_4 + w_5x_5 $

Por ejemplo, un modelo que predice el consumo de combustible podría usar, además, atributos como los siguientes:

  • Cilindrada
  • de la investigación
  • Cantidad de cilindros
  • Caballos de fuerza

Este modelo se escribiría de la siguiente manera:

Figura 5: Ecuación de regresión lineal con cinco atributos.

Figura 5. Un modelo con cinco atributos para predecir la clasificación de millas por galón de un automóvil.

Si graficamos algunas de estas funciones adicionales, podemos ver que también tienen una relación lineal con la etiqueta, millas por galón:

Figura 6: Desplazamiento en centímetros cúbicos representado en un gráfico en relación con las millas por galón, lo que muestra una relación lineal negativa.

Figura 6. El desplazamiento de un automóvil en centímetros cúbicos y su clasificación de millas por galón. A medida que el motor de un automóvil aumenta de tamaño, su clasificación de millas por galón suele disminuir.

Figura 7: La aceleración de cero a sesenta en segundos se grafica en relación con las millas por galón, lo que muestra una relación lineal positiva.

Figura 7. La aceleración de un automóvil y su clasificación de millas por galón A medida que la aceleración de un automóvil tarda más, la clasificación de millas por galón suele aumentar.

Figura 8: Caballos de fuerza representados en un gráfico frente a millas por galón que muestran una relación lineal negativa.

Figura 8. La potencia de un automóvil y su clasificación de millas por galón. A medida que aumenta la potencia de un automóvil, la clasificación de millas por galón suele disminuir.

Ejercicio: Comprueba tu comprensión

¿Qué partes de la ecuación de regresión lineal se actualizan durante el entrenamiento?
El sesgo y los pesos
Durante el entrenamiento, el modelo actualiza el sesgo y los pesos.
La predicción
Las predicciones no se actualizan durante el entrenamiento.
Los valores de los atributos
Los valores de los atributos forman parte del conjunto de datos, por lo que no se actualizan durante el entrenamiento.