En este módulo, se presentan los conceptos de la regresión lineal.
La regresión lineal es una técnica estadística que se usa para encontrar la relación entre las variables. En un contexto de ML, la regresión lineal encuentra la relación entre atributos y una etiqueta.
Por ejemplo, supongamos que queremos predecir la eficiencia de combustible de un automóvil en millas por galón según su peso y tenemos el siguiente conjunto de datos:
Libras en miles (función) | Millas por galón (etiqueta) |
---|---|
3.5 | 18 |
3.69 | 15 |
3.44 | 18 |
3.43 | 16 |
4.34 | 15 |
4.42 | 14 |
2.37 | 24 |
Si trazáramos estos puntos, obtendríamos el siguiente gráfico:
Figura 1. Peso del automóvil (en libras) en comparación con la clasificación de millas por galón A medida que un automóvil se hace más pesado, su clasificación de millas por galón suele disminuir.
Podríamos crear nuestro propio modelo dibujando una línea de mejor ajuste a través de los puntos:
Figura 2. Una línea de mejor ajuste trazada a través de los datos de la figura anterior.
Ecuación de regresión lineal
En términos algebraicos, el modelo se definiría como $ y = mx + b $, donde
- $ y $ son millas por galón, el valor que queremos predecir.
- $ m $ es la pendiente de la línea.
- $ x $ son libras, nuestro valor de entrada.
- $ b $ es la intersección en y.
En el AA, escribimos la ecuación de un modelo de regresión lineal de la siguiente manera:
Donde:
- $ y' $ es la etiqueta predicha, el resultado.
- $ b $ es el sesgo del modelo. El sesgo es el mismo concepto que el eje Y en la ecuación algebraica de una línea. En el AA, a veces se hace referencia al sesgo como $ w_0 $. El sesgo es un parámetro del modelo y se calcula durante el entrenamiento.
- $ w_1 $ es el peso de la función. El peso es el mismo concepto que la pendiente $ m $ en la ecuación algebraica de una línea. El peso es un parámetro del modelo y se calcula durante el entrenamiento.
- $ x_1 $ es un atributo: la entrada.
Durante el entrenamiento, el modelo calcula el peso y el sesgo que producen el mejor modelo.
Figura 3. Representación matemática de un modelo lineal.
En nuestro ejemplo, calcularíamos el peso y el sesgo de la línea que dibujamos. La sesgo es 30 (donde la línea se cruza con el eje Y) y el peso es -3.6 (la pendiente de la línea). El modelo se definiría como $ y' = 30 + (-3.6)(x_1) $ y podríamos usarlo para hacer predicciones. Por ejemplo, con este modelo, un automóvil de 1,814 kg tendría una eficiencia de combustible prevista de 25.1 km por galón.
Figura 4. Con el modelo, un automóvil de 1,814 kg tiene una eficiencia de combustible prevista de 25.1 km por galón.
Modelos con varias funciones
Aunque el ejemplo de esta sección solo usa un atributo (el peso del automóvil), un modelo más sofisticado podría usar varios atributos, cada uno con un peso distinto ($ w_1 $, $ w_2 $, etc.). Por ejemplo, un modelo que se basa en cinco atributos se escribiría de la siguiente manera:
$ y' = b + w_1x_1 + w_2x_2 + w_3x_3 + w_4x_4 + w_5x_5 $
Por ejemplo, un modelo que predice el consumo de combustible podría usar, además, atributos como los siguientes:
- Cilindrada
- de la investigación
- Cantidad de cilindros
- Caballos de fuerza
Este modelo se escribiría de la siguiente manera:
Figura 5. Un modelo con cinco atributos para predecir la clasificación de millas por galón de un automóvil.
Si graficamos algunas de estas funciones adicionales, podemos ver que también tienen una relación lineal con la etiqueta, millas por galón:
Figura 6. El desplazamiento de un automóvil en centímetros cúbicos y su clasificación de millas por galón. A medida que el motor de un automóvil aumenta de tamaño, su clasificación de millas por galón suele disminuir.
Figura 7. La aceleración de un automóvil y su clasificación de millas por galón A medida que la aceleración de un automóvil tarda más, la clasificación de millas por galón suele aumentar.
Figura 8. La potencia de un automóvil y su clasificación de millas por galón. A medida que aumenta la potencia de un automóvil, la clasificación de millas por galón suele disminuir.