Regresión lineal: pérdida

La pérdida es una métrica numérica que describe qué tan erróneas son las predicciones de un modelo en la nube. La pérdida mide la distancia entre las predicciones del modelo y con etiquetas de recursos. El objetivo de entrenar un modelo es minimizar la pérdida y reducirla a su el valor más bajo posible.

En la siguiente imagen, puedes visualizar la pérdida como flechas extraídas de los datos señala al modelo. Las flechas muestran a qué distancia están las predicciones del modelo los valores reales.

Figura 9: Las líneas de pérdida conectan los datos con
un modelo de responsabilidad compartida.

Figura 9. La pérdida se mide desde el valor real hasta el valor predicho.

Distancia de la pérdida

En estadística y aprendizaje automático, la pérdida mide la diferencia entre los valores predichos y reales. La pérdida se enfoca en la distancia entre los valores, no la dirección. Por ejemplo, si un modelo predice 2, pero el valor real es 5, no nos importa que la pérdida sea negativa $ -3 $ ($ 2-5=-3 $). En cambio, nos interesa que la distancia entre los valores sea $ 3 $. Por lo tanto, todos métodos para calcular la pérdida quitan el signo.

Los dos métodos más comunes para quitar la señal son los siguientes:

  • Toma el valor absoluto de la diferencia entre el valor real y el para la predicción.
  • Eleva al cuadrado la diferencia entre el valor real y la predicción.

Tipos de pérdida

En la regresión lineal, hay cuatro tipos principales de pérdida, que se describen en en la siguiente tabla.

Tipo de pérdida Definición Ecuación
Pérdida L1 . La suma de los valores absolutos de la diferencia entre los valores predichos y los reales. $ ∑ | valor\ real - valor\ previsto | USD
Error absoluto medio (MAE) Promedio de pérdidas L1 en un conjunto de ejemplos. $ \frac{1}{N} ∑ | valor\ real - valor\ previsto | USD
Pérdida L2 La suma de la diferencia al cuadrado entre los valores predichos y los reales. $ ∑(valor\ real - valor\ previsto)^2 $
Error cuadrático medio (ECM) Promedio de pérdidas L2 en un conjunto de ejemplos. $ \frac{1}{N} ∑ (valor\ real - valor\ predicho)^2 $

Diferencia funcional entre la pérdida L1 y la pérdida L2 (o entre MAE y ECM) es el cuadrado. Cuando la diferencia entre que la predicción y la etiqueta sean grandes, al cuadrado, la pérdida es aún mayor. Cuando el valor la diferencia es pequeña (menor que 1), el cuadrado hace que la pérdida sea aún menor.

Cuando se procesan varios ejemplos a la vez, recomendamos promediar las pérdidas en todos los ejemplos, ya sea con MAE o ECM.

Ejemplo de cálculo de pérdida

Usando la línea de mejor ajuste anterior, calcularemos la pérdida L2 para un solo ejemplo. Desde línea de mejor ajuste, teníamos los siguientes valores para peso y sesgo:

  • $ \small{Weight: -3.6} $
  • $ \small{Sesgo: 30} $

Si el modelo predice que un automóvil de 9,000 kilogramos (2,370 libras) alcanza 34.6 kilómetros por galón, pero esto cuando obtiene 24 millas por galón, calcularíamos la pérdida L2 de la siguiente manera: sigue:

Valor Ecuación Resultado
Predicción

$\small{sesgo + (peso * atributo\ valor)}$

$\small{30 + (-3.6*2.37)}$

$\small{21.5}$
Valor real $ \small{ label } $ $ \small{ 24 } $
pérdida L2

$ \small{ (predicción - valor\ real)^2} $

$\small{ (21.5 - 24)^2 }$

$\small{6.25}$

En este ejemplo, la pérdida L2 para ese único dato es 6.25.

Elegir una pérdida

Decidir si usar MAE o ECM puede depender del conjunto de datos y de la forma en que quieren manejar ciertas predicciones. La mayoría de los valores de atributos de un conjunto de datos suelen caen dentro de un rango distinto. Por ejemplo, los automóviles suelen estar entre 2000 y 5,000 libras y obtener entre 8 y 80 millas por galón. Un automóvil de 8,000 libras o un automóvil que alcanza los 100 millas por galón, está fuera del rango típico y considerarse un valor atípico.

Un valor atípico también puede referirse a qué tan alejadas están las predicciones de un modelo de las reales de salida. Por ejemplo, un automóvil de 1,000 kilos o un automóvil que pesa 64 kilómetros por galón están dentro de los rangos típicos. Sin embargo, un automóvil de 1,000 libras 40 millas por galón sería un valor atípico en términos de la predicción del modelo. ya que el modelo predeciría que un automóvil de 1,000 kilos tendría entre 18 y 20 millas por galón.

Cuando elijas la mejor función de pérdida, considera cómo quieres que el modelo trate los valores atípicos. Por ejemplo, el ECM lleva el modelo más hacia los valores atípicos, mientras que el MAE no. La pérdida L2 genera una penalización mucho mayor por un valor atípico que Pérdida L1. Por ejemplo, las siguientes imágenes muestran un modelo entrenado con MAE y un modelo entrenado con ECM. La línea roja representa un entrenado que se usará para hacer predicciones. Los valores atípicos están más cerca de en comparación con el modelo entrenado con MAE.

Figura 10: El modelo se inclina más hacia los valores atípicos.

Figura 10: Un modelo entrenado con ECM acerca el modelo a los valores atípicos.

Figura 11: El modelo se inclina más lejos de los valores atípicos.

Figura 11: Un modelo entrenado con MAE está más lejos de los valores atípicos.

Observa la relación entre el modelo y los datos:

  • MSE. El modelo está más cerca de los valores atípicos, pero más lejos de la mayor parte de los otros puntos de datos.

  • MAE El modelo está más lejos de los valores atípicos, pero más cerca de la mayor parte los otros puntos de datos.

Comprueba tu comprensión

Considera los dos diagramas siguientes:

Un diagrama de 10 puntos.
      Una línea atraviesa 6 de los puntos. 2 puntos corresponden a 1 unidad
      por encima de la línea; Otros 2 puntos están a 1 unidad por debajo de la línea. Un diagrama de 10 puntos. Una línea corrida
      hasta 8 de los puntos. 1 punto equivale a 2 unidades.
      por encima de la línea; 1 punto más está a 2 unidades por debajo de la línea.
¿Cuál de los dos conjuntos de datos se muestran en los diagramas anteriores? tiene un error cuadrático medio (ECM) más alto?
El conjunto de datos de la izquierda.
Los seis ejemplos de la línea incurren en una pérdida total de 0. Las cuatro los ejemplos que no están en línea no están muy alejados, así que incluso el cuadrado de su desplazamiento aún produce un valor bajo: $MSE = \frac{0^2 + 1^2 + 0^2 + 1^2 + 0^2 + 1^2 + 0^2 + 1^2 + 0^2 + 0^2} {10} = 0.4$
El conjunto de datos a la derecha.
Los ocho ejemplos de la línea incurren en una pérdida total de 0. Sin embargo, aunque solo dos puntos están fuera de la línea, ambos los puntos están dos veces más alejados de la línea que los puntos atípicos en la figura de la izquierda. La pérdida al cuadrado amplifica esas diferencias, de modo que un desplazamiento de dos genera una pérdida cuatro veces mayor que un desplazamiento de uno: $MSE = \frac{0^2 + 0^2 + 0^2 + 2^2 + 0^2 + 0^2 + 0^2 + 2^2 + 0^2 + 0^2} {10} = $0.8