Regresión lineal: pérdida

Pérdida es una métrica numérica que describe cuán incorrectas son las predicciones de un modelo. La pérdida mide la distancia entre las predicciones del modelo y las etiquetas reales. El objetivo de entrenar un modelo es minimizar la pérdida y reducirla al valor más bajo posible.

En la siguiente imagen, puedes visualizar la pérdida como flechas dibujadas desde los datos que apuntan al modelo. Las flechas muestran qué tan lejos están las predicciones del modelo de los valores reales.

Figura 9: Las líneas de pérdida conectan los datos al

modelo.

Figura 9. La pérdida se mide desde el valor real hasta el valor predicho.

Distancia de pérdida

En estadística y aprendizaje automático, la pérdida mide la diferencia entre los valores predichos y reales. La pérdida se enfoca en la distancia entre los valores, no en la dirección. Por ejemplo, si un modelo predice 2, pero el valor real es 5, no nos importa que la pérdida sea negativa ($ -3 $ ($ 2-5=-3 $). En cambio, nos importa que la distancia entre los valores sea de $ 3 $. Por lo tanto, todos los métodos para calcular la pérdida quitan el signo.

Los dos métodos más comunes para quitar el letrero son los siguientes:

  • Toma el valor absoluto de la diferencia entre el valor real y la predicción.
  • Cuadra la diferencia entre el valor real y la predicción.

Tipos de pérdidas

En la regresión lineal, hay cuatro tipos principales de pérdida, que se describen en la siguiente tabla.

Tipo de pérdida Definición Ecuación
Pérdida L1 Es la suma de los valores absolutos de la diferencia entre los valores predichos y los reales. $ ∑ | actual\ value - predicted\ value | $
Error absoluto medio (MAE) Es el promedio de las pérdidas de L1 en un conjunto de ejemplos. $ \frac{1}{N} ∑ | valor\ real - valor\ previsto | $
Pérdida de L2 Es la suma de la diferencia al cuadrado de los valores predichos y los reales. $ ∑(valor\ real - valor\ previsto)^2 $
Error cuadrático medio (ECM) Es el promedio de las pérdidas de L2 en un conjunto de ejemplos. $ \frac{1}{N} ∑ (valor\ real - valor\ previsto)^2 $

La diferencia funcional entre la pérdida de L1 y la pérdida de L2 (o entre MAE y MSE) es el cuadrado. Cuando la diferencia entre la predicción y la etiqueta es grande, el cuadrado hace que la pérdida sea aún mayor. Cuando la diferencia es pequeña (menos de 1), el cuadrado hace que la pérdida sea aún menor.

Cuando se procesan varios ejemplos a la vez, recomendamos promediar las pérdidas de todos los ejemplos, ya sea mediante MAE o ECM.

Ejemplo de cálculo de pérdidas

Usando la línea de mejor ajuste anterior, calcularemos la pérdida L2 para un solo ejemplo. De la línea de ajuste óptimo, obtuvimos los siguientes valores para el peso y el sesgo:

  • $ \small{Peso: -3.6} $
  • $ \small{Sesgo: 30} $

Si el modelo predice que un automóvil de 1,070 kilogramos (2,370 libras) recorre 34.6 kilómetros (21.5 millas) por galón, pero en realidad recorre 38.6 kilómetros (24 millas) por galón, calcularíamos la pérdida de L2 de la siguiente manera:

Valor Ecuación Resultado
Predicción

$\small{bias + (weight * feature\ value)}$

$\small{30 + (-3.6*2.37)}$

$\small{21.5}$
Valor real $ \small{ label } $ $ \small{ 24 } $
Pérdida L2

$ \small{ (predicción - valor\ real)^2} $

$\small{ (21.5 - 24)^2 }$

$\small{6.25}$

En este ejemplo, la pérdida de L2 para ese único dato es 6.25.

Elegir una pérdida

Decidir si usar MAE o MSE puede depender del conjunto de datos y de la forma en que desees controlar ciertas predicciones. La mayoría de los valores de los atributos de un conjunto de datos caen en un rango distinto. Por ejemplo, los automóviles normalmente pesan entre 2,000 y 5,000 libras y recorren entre 13 y 80 kilómetros por galón. Un automóvil de 3,628 kg o uno que rinde 160 km por galón está fuera del rango típico y se consideraría un valor atípico.

Un valor atípico también puede referirse a qué tan alejados están las predicciones de un modelo de los valores reales. Por ejemplo, un automóvil de 1,360 kg o uno que rinde 64 km por litro están dentro de los rangos típicos. Sin embargo, un automóvil de 3,000 libras que recorre 40 millas por galón sería un valor atípico en términos de la predicción del modelo, ya que este predeciría que un automóvil de 3,000 libras recorrería entre 18 y 20 millas por galón.

Cuando elijas la mejor función de pérdida, ten en cuenta cómo deseas que el modelo trate los valores atípicos. Por ejemplo, la MSE mueve el modelo más hacia los valores atípicos, mientras que la MAE no lo hace. La pérdida de L2 genera una penalización mucho más alta para un valor atípico que la pérdida de L1. Por ejemplo, en las siguientes imágenes, se muestra un modelo entrenado con MAE y un modelo entrenado con MSE. La roja representa un modelo completamente entrenado que se usará para hacer predicciones. Los valores atípicos están más cerca del modelo entrenado con ECM que al modelo entrenado con MAE.

Figura 10: El modelo se inclina más hacia los valores atípicos.

Figura 10: Un modelo entrenado con MSE lo acerca a los valores atípicos.

Figura 11: El modelo se inclina más lejos de los valores atípicos.

Figura 11: Un modelo entrenado con MAE está más alejado de los valores atípicos.

Observa la relación entre el modelo y los datos:

  • MSE. El modelo está más cerca de los valores atípicos, pero más lejos de la mayoría de los otros datos.

  • MAE. El modelo está más alejado de los valores atípicos, pero más cerca de la mayoría de los otros puntos de datos.

Comprueba tu comprensión

Considera los dos diagramas siguientes:

Una representación de 10 puntos.
      Una línea atraviesa 6 de los puntos. 2 puntos están a 1 unidad
      por encima de la línea; otros 2 puntos están a 1 unidad por debajo de la línea. Una representación de 10 puntos. Una línea pasa por 8 de los puntos. 1 punto está 2 unidades
      por encima de la línea y otro punto está 2 unidades por debajo de ella.
¿Cuál de los dos conjuntos de datos que se muestran en las representaciones anteriores tiene el error cuadrático medio (ECM) más alto?
El conjunto de datos de la izquierda.
Los seis ejemplos de la línea incurren en una pérdida total de 0. Los cuatro ejemplos que no están en la línea no están muy alejados de esta, de manera que al elevar su compensación al cuadrado, igualmente se obtiene un valor bajo: $MSE = \frac{0^2 + 1^2 + 0^2 + 1^2 + 0^2 + 1^2 + 0^2 + 1^2 + 0^2 + 0^2} {10} = 0.4$
El conjunto de datos a la derecha.
Los ocho ejemplos de la línea incurren en una pérdida total de 0. Sin embargo, aunque solo dos puntos están fuera de la línea, ambos están dos veces más alejados de la línea que los puntos de valores atípicos de la figura de la izquierda. La pérdida al cuadrado amplifica esas diferencias, de manera que una compensación de dos incurre en una pérdida cuatro veces mayor que una compensación de uno: $MSE = \frac{0^2 + 0^2 + 0^2 + 2^2 + 0^2 + 0^2 + 0^2 + 2^2 + 0^2 + 0^2} 0.10} {10}