Se usó la API de Cloud Translation para traducir esta página.

Regresión lineal: Pérdida

La pérdida es una métrica numérica que describe qué tan incorrectas son las predicciones de un modelo. La pérdida mide la distancia entre las predicciones del modelo y las etiquetas reales. El objetivo de entrenar un modelo es minimizar la pérdida y reducirla a su valor más bajo posible.

En la siguiente imagen, puedes visualizar la pérdida como flechas dibujadas desde los puntos de datos hacia el modelo. Las flechas muestran qué tan lejos están las predicciones del modelo de los valores reales.

Figura 8. Las líneas de pérdida conectan los puntos de datos con el modelo.

Figura 8. La pérdida se mide desde el valor real hasta el valor predicho.

Distancia de pérdida

En estadística y aprendizaje automático, la pérdida mide la diferencia entre los valores predichos y los reales. La pérdida se enfoca en la distancia entre los valores, no en la dirección. Por ejemplo, si un modelo predice 2, pero el valor real es 5, no nos importa que la pérdida sea negativa ($ 2-5=-3 $). En cambio, nos importa que la distancia entre los valores sea $ 3 $. Por lo tanto, todos los métodos para calcular la pérdida quitan el signo.

Estos son los dos métodos más comunes para quitar el signo:

Toma el valor absoluto de la diferencia entre el valor real y la predicción.
Eleva al cuadrado la diferencia entre el valor real y la predicción.

Tipos de pérdidas

En la regresión lineal, hay cinco tipos principales de pérdida, que se describen en la siguiente tabla.

Tipo de pérdida	Definición	Ecuación
Pérdida de _L1	Es la suma de los valores absolutos de la diferencia entre los valores predichos y los valores reales.	$ ∑ \| valor\ real - valor\ predicho \| $
Error absoluto medio (MAE)	Es el promedio de las pérdidas de L₁ en un conjunto de N ejemplos.	$ \frac{1}{N} ∑ \| valor\ real - valor\ predicho \| $
Pérdida de L₂	Es la suma de la diferencia al cuadrado entre los valores predichos y los valores reales.	$ ∑(valor\ real - valor\ predicho)^2 $
Error cuadrático medio (ECM)	Es el promedio de las pérdidas de L₂ en un conjunto de N ejemplos.	$ \frac{1}{N} ∑ (valor\ real - valor\ predicho)^2 $
Raíz cuadrada del error cuadrático medio (RMSE)	Es la raíz cuadrada del error cuadrático medio (ECM).	$ \sqrt{\frac{1}{N} ∑ (valor\ real - valor\ predicho)^2} $

La diferencia funcional entre la pérdida L₁ y la pérdida L₂ (o entre el MAE/RMSE y el MSE) es la elevación al cuadrado. Cuando la diferencia entre la predicción y la etiqueta es grande, elevar al cuadrado hace que la pérdida sea aún mayor. Cuando la diferencia es pequeña (menor que 1), elevar al cuadrado hace que la pérdida sea aún menor.

Las métricas de pérdida, como el MAE y el RMSE, pueden ser preferibles a la pérdida L₂ o el ECM en algunos casos de uso porque tienden a ser más fáciles de interpretar para los humanos, ya que miden el error con la misma escala que el valor predicho del modelo.

Cuando proceses varios ejemplos a la vez, te recomendamos que calcules el promedio de las pérdidas en todos los ejemplos, ya sea que uses MAE, MSE o RMSE.

Ejemplo de cálculo de pérdida

Con la línea de mejor ajuste anterior, calcularemos la pérdida L₂ para un solo ejemplo. A partir de la línea de mejor ajuste, obtuvimos los siguientes valores para el peso y el sesgo:

$ \small{Peso: -4.6} $
$ \small{Bias: 34} $

Si el modelo predice que un automóvil de 1,075 kg rinde 10.4 km por litro, pero en realidad rinde 11.7 km por litro, calcularíamos la pérdida de L₂ de la siguiente manera:

Valor	Ecuación	Resultado
Predicción	$\small{bias + (peso * valor\ del\ atributo)}$ $\small{34 + (-4.6*2.37)}$	$\small{23.1}$
Valor real	$ \small{ label } $	$ \small{ 26 } $
Pérdida L₂	$ \small{ (valor\ real - valor\ predicho)^2 } $ $\small{ (26 - 23.1)^2 }$	$\small{8.41}$

Valor

Ecuación

Resultado

Predicción

$\small{bias + (peso * valor\ del\ atributo)}$

$\small{34 + (-4.6*2.37)}$

$\small{23.1}$

Valor real

$ \small{ label } $

$ \small{ 26 } $

Pérdida L₂

$ \small{ (valor\ real - valor\ predicho)^2 } $

$\small{ (26 - 23.1)^2 }$

$\small{8.41}$

En este ejemplo, la pérdida de L₂ para ese único dato es de 8.41.

Cómo elegir una función de pérdida

Decidir si usar el MAE o el MSE puede depender del conjunto de datos y de la forma en que deseas controlar ciertas predicciones. La mayoría de los valores de atributos de un conjunto de datos suelen encontrarse dentro de un rango distinto. Por ejemplo, los automóviles suelen pesar entre 900 y 2,200 kg, y rinden entre 3 y 20 km por litro. Un automóvil de 3,600 kg o uno que recorre 160 km con 3.8 l de combustible se encuentran fuera del rango típico y se considerarían valores atípicos.

Un valor atípico también puede referirse a qué tan alejadas están las predicciones de un modelo de los valores reales. Por ejemplo, 1,360 kg se encuentra dentro del rango de peso típico de un automóvil, y 64 km por litro se encuentra dentro del rango de eficiencia de combustible típico. Sin embargo, un automóvil de 1,360 kg que rinde 64 km por galón sería un valor atípico en términos de la predicción del modelo, ya que este predeciría que un automóvil de 1,360 kg rendiría alrededor de 32 km por galón.

Cuando elijas la mejor función de pérdida, ten en cuenta cómo quieres que el modelo trate los valores atípicos. Por ejemplo, el MSE desplaza el modelo más hacia los valores atípicos, mientras que el MAE no lo hace. La pérdida L₂ genera una penalización mucho mayor para un valor atípico que la pérdida L₁. Por ejemplo, las siguientes imágenes muestran un modelo entrenado con MAE y un modelo entrenado con MSE. La línea roja representa un modelo completamente entrenado que se usará para hacer predicciones. Los valores atípicos están más cerca del modelo entrenado con MSE que del modelo entrenado con MAE.

Figura 9: El modelo se inclina más hacia los valores atípicos.

Figura 9. La pérdida del ECM acerca el modelo a los valores atípicos.

Figura 10: El modelo se aleja aún más de los valores atípicos.

Figura 10: La pérdida del MAE mantiene el modelo más alejado de los valores atípicos.

Ten en cuenta la relación entre el modelo y los datos:

MSE. El modelo está más cerca de los valores atípicos, pero más lejos de la mayoría de los otros puntos de datos.
MAE. El modelo está más lejos de los valores atípicos, pero más cerca de la mayoría de los otros puntos de datos.

Haz clic en el ícono para obtener más orientación sobre cómo elegir una métrica de pérdida.

Elige MSE:

Si deseas penalizar en gran medida los errores grandes
Si crees que los valores atípicos son importantes y representan una verdadera varianza de los datos que el modelo debería tener en cuenta

Elige MAE:

Si tu conjunto de datos tiene valores atípicos significativos que no quieres que influyan demasiado en el modelo El MAE es más robusto.
Si prefieres una función de pérdida que se interprete de forma más directa como la magnitud del error promedio

En la práctica, la elección de la métrica también puede depender del problema comercial específico y del tipo de errores que resulten más costosos.

Comprueba tu comprensión

Considera los siguientes dos diagramas de un ajuste de modelo lineal a un conjunto de datos:

Una representación de 10 puntos.
Una línea atraviesa 6 de los puntos. 2 puntos están 1 unidad por encima de la línea, y otros 2 puntos están 1 unidad por debajo de la línea.

Una representación de 10 puntos. Una línea atraviesa 8 de los puntos. 1 punto está 2 unidades por encima de la línea, y otro punto está 2 unidades por debajo de la línea.

¿Cuál de los dos modelos lineales que se muestran en los gráficos anteriores tiene el error cuadrático medio (ECM) más alto cuando se evalúa en los datos representados?

El modelo de la izquierda.

Los seis ejemplos de la línea generan una pérdida total de 0. Los cuatro ejemplos que no están en la línea no están muy alejados de esta, de manera que al elevar su compensación al cuadrado, igualmente se obtiene un valor bajo: $ECM = \frac{0^2 + 1^2 + 0^2 + 1^2 + 0^2 + 1^2 + 0^2 + 1^2 + 0^2 + 0^2} {10} = 0.4$

El modelo de la derecha.

Los ocho ejemplos de la línea generan una pérdida total de 0. Sin embargo, aunque solo dos puntos están fuera de la línea, ambos están dos veces más alejados de la línea que los puntos de valores atípicos de la figura de la izquierda. La pérdida al cuadrado amplifica esas diferencias, por lo que una compensación de dos incurre en una pérdida cuatro veces mayor que una compensación de uno: $ECM = \frac{0^2 + 0^2 + 0^2 + 2^2 + 0^2 + 0^2 + 0^2 + 2^2 + 0^2 + 0^2} {10} = 0.8$

Regresión lineal (10 min)

Ejercicio interactivo: Parámetros (5 min)