Regresión lineal

En este módulo, se presentan los conceptos de regresión lineal.

La regresión lineal es un técnica estadística que se usa para encontrar la relación entre las variables. En un entorno de AA contexto, la regresión lineal encuentra la relación entre funciones y una etiqueta.

Por ejemplo, supongamos que queremos predecir el ahorro de combustible de un automóvil en millas por galón según el peso del automóvil, y tenemos el siguiente conjunto de datos:

Libras en milésimas de segundo (función) Millas por galón (etiqueta)
3.5 18
3,69 15
3,44 18
3,43 16
4,34 15
4,42 14
2.37 24

Si trazamos estos puntos, obtendríamos el siguiente gráfico:

Figura 1: Datos que muestran una tendencia con una inclinación descendente de izquierda a derecha.

Figura 1. Peso de un automóvil (en libras) en comparación con la calificación de millas por galón. Como auto se vuelve más pesado, la calificación de millas por galón suele disminuir.

Podríamos crear nuestro propio modelo dibujando una línea de mejor ajuste a través de los puntos:

Figura 2: Son datos que representan el modelo con una línea de mejor ajuste.

Figura 2. Línea de mejor ajuste dibujada a través de los datos de la figura anterior.

Ecuación de regresión lineal

En términos algebraicos, el modelo se definiría como $ y = mx + b $, donde

  • $ y $ son millas por galón, el valor que queremos predecir.
  • $ m $ es la pendiente de la línea.
  • $ x $ son libras, nuestro valor de entrada.
  • $ b $ es la intersección en y.

En el AA, escribimos la ecuación para un modelo de regresión lineal de la siguiente manera:

$$ y' = b + w_1x_1 $$

Donde:

  • USD y' $ es la etiqueta predicha, el resultado.
  • $ b $ es el sesgo. del modelo. El sesgo es el mismo concepto de la intersección en Y en el área algebraica ecuación de una línea. En el AA, el sesgo suele denominarse $ w_0 $. Sesgo es un parámetro del modelo y se calcula durante el entrenamiento.
  • $ w_1 $ es el peso de la . El peso es el mismo concepto de la pendiente $ m $ en el campo algebraico. ecuación de una línea. El peso es un parámetro del modelo y es calcular durante el entrenamiento.
  • $ x_1 $ es un atributo, el entrada.

Durante el entrenamiento, el modelo calcula el peso y el sesgo que producen un modelo de responsabilidad compartida.

Figura 3: La ecuación y' = b + w1x1, con cada componente anotado con su propósito.

Figura 3. Representación matemática de un modelo lineal.

En nuestro ejemplo, calcularíamos el peso y el sesgo a partir de la línea que dibujamos. El el sesgo es 30 (donde la línea se cruza con el eje Y) y el peso es -3.6 (el pendiente de la línea). El modelo se definiría como $ y' = 30 + (-3.6)(x_1) $ y podríamos usarlo para hacer predicciones. Por ejemplo, con este modelo, un Un automóvil de 1,200 kilogramos tendría un ahorro de combustible previsto de 24.1 kilómetros por galón.

Figura 4: El mismo gráfico que la Figura 2, con el punto (4, 15.6) destacado.

Figura 4. Con el modelo, un automóvil de 1,600 kilos tiene una predicción de ahorro de combustible de 25.9 kilómetros por galón.

Modelos con varias funciones

Aunque en el ejemplo de esta sección se usa solo un atributo: el peso del automóvil, un modelo más sofisticado puede contar con múltiples características, cada una con un peso separado ($ w_1 $, $ w_2 $, etc.). Por ejemplo, un modelo que se basa en cinco atributos se escribiría de la siguiente manera:

USD y' = b + w_1x_1 + w_2x_2 + w_3x_3 + w_4x_4 + w_5x_5 $

Por ejemplo, un modelo que predice el consumo de combustible podría usar atributos adicionales como los siguientes:

  • Desplazamiento del motor
  • Aceleración
  • Cantidad de cilindros
  • Potencia

Este modelo se escribiría de la siguiente manera:

Figura 5: Ecuación de regresión lineal con cinco atributos.

Figura 5. Un modelo con cinco atributos para predecir las millas por galón de un automóvil calificación.

Al graficar algunos de estos atributos adicionales, podemos ver que también tienen un relación lineal con la etiqueta, millas por galón:

Figura 6: Desplazamiento en centímetros cúbicos representado en millas por galón y que muestra una relación lineal negativa.

Figura 6. El desplazamiento de un automóvil en centímetros cúbicos y sus millas por galón. calificación. A medida que aumenta el tamaño del motor de un automóvil, su calificación de millas por galón suele disminuye.

Figura 7: Se representa la aceleración de cero a sesenta en segundos frente a las millas por galón que muestra una relación lineal positiva.

Figura 7. Indica la aceleración de un automóvil y sus millas por galón. Como el la aceleración tarda más, la calificación de millas por galón generalmente aumenta.

Figura 8: La potencia se representa en función de las millas por galón y se muestra una relación lineal negativa.

Figura 8. La potencia de un automóvil y sus millas por galón. Como el aumenta la potencia, la calificación de millas por galón generalmente disminuye.

Ejercicio: Comprueba tus conocimientos

¿Qué partes de la ecuación de regresión lineal se actualizan durante el entrenamiento?
El sesgo y las ponderaciones
Durante el entrenamiento, el modelo actualiza el sesgo los pesos en función de la pérdida.
La predicción
Las predicciones no se actualizan durante el entrenamiento.
Los valores de los atributos
Los valores de los atributos son parte del conjunto de datos, por lo que no se actualizan durante el entrenamiento.