La pérdida es una métrica numérica que describe qué tan erróneas son las predicciones de un modelo en la nube. La pérdida mide la distancia entre las predicciones del modelo y con etiquetas de recursos. El objetivo de entrenar un modelo es minimizar la pérdida y reducirla a su el valor más bajo posible.
En la siguiente imagen, puedes visualizar la pérdida como flechas extraídas de los datos señala al modelo. Las flechas muestran a qué distancia están las predicciones del modelo los valores reales.
Figura 9. La pérdida se mide desde el valor real hasta el valor predicho.
Distancia de la pérdida
En estadística y aprendizaje automático, la pérdida mide la diferencia entre los valores predichos y reales. La pérdida se enfoca en la distancia entre los valores, no la dirección. Por ejemplo, si un modelo predice 2, pero el valor real es 5, no nos importa que la pérdida sea negativa $ -3 $ ($ 2-5=-3 $). En cambio, nos interesa que la distancia entre los valores sea $ 3 $. Por lo tanto, todos métodos para calcular la pérdida quitan el signo.
Los dos métodos más comunes para quitar la señal son los siguientes:
- Toma el valor absoluto de la diferencia entre el valor real y el para la predicción.
- Eleva al cuadrado la diferencia entre el valor real y la predicción.
Tipos de pérdida
En la regresión lineal, hay cuatro tipos principales de pérdida, que se describen en en la siguiente tabla.
Tipo de pérdida | Definición | Ecuación |
---|---|---|
Pérdida L1 . | La suma de los valores absolutos de la diferencia entre los valores predichos y los reales. | $ ∑ | valor\ real - valor\ previsto | USD |
Error absoluto medio (MAE) | Promedio de pérdidas L1 en un conjunto de ejemplos. | $ \frac{1}{N} ∑ | valor\ real - valor\ previsto | USD |
Pérdida L2 | La suma de la diferencia al cuadrado entre los valores predichos y los reales. | $ ∑(valor\ real - valor\ previsto)^2 $ |
Error cuadrático medio (ECM) | Promedio de pérdidas L2 en un conjunto de ejemplos. | $ \frac{1}{N} ∑ (valor\ real - valor\ predicho)^2 $ |
Diferencia funcional entre la pérdida L1 y la pérdida L2 (o entre MAE y ECM) es el cuadrado. Cuando la diferencia entre que la predicción y la etiqueta sean grandes, al cuadrado, la pérdida es aún mayor. Cuando el valor la diferencia es pequeña (menor que 1), el cuadrado hace que la pérdida sea aún menor.
Cuando se procesan varios ejemplos a la vez, recomendamos promediar las pérdidas en todos los ejemplos, ya sea con MAE o ECM.
Ejemplo de cálculo de pérdida
Usando la línea de mejor ajuste anterior, calcularemos la pérdida L2 para un solo ejemplo. Desde línea de mejor ajuste, teníamos los siguientes valores para peso y sesgo:
- $ \small{Weight: -3.6} $
- $ \small{Sesgo: 30} $
Si el modelo predice que un automóvil de 9,000 kilogramos (2,370 libras) alcanza 34.6 kilómetros por galón, pero esto cuando obtiene 24 millas por galón, calcularíamos la pérdida L2 de la siguiente manera: sigue:
Valor | Ecuación | Resultado |
---|---|---|
Predicción | $\small{sesgo + (peso * atributo\ valor)}$ $\small{30 + (-3.6*2.37)}$ |
$\small{21.5}$ |
Valor real | $ \small{ label } $ | $ \small{ 24 } $ |
pérdida L2 | $ \small{ (predicción - valor\ real)^2} $ $\small{ (21.5 - 24)^2 }$ |
$\small{6.25}$ |
En este ejemplo, la pérdida L2 para ese único dato es 6.25.
Elegir una pérdida
Decidir si usar MAE o ECM puede depender del conjunto de datos y de la forma en que quieren manejar ciertas predicciones. La mayoría de los valores de atributos de un conjunto de datos suelen caen dentro de un rango distinto. Por ejemplo, los automóviles suelen estar entre 2000 y 5,000 libras y obtener entre 8 y 80 millas por galón. Un automóvil de 8,000 libras o un automóvil que alcanza los 100 millas por galón, está fuera del rango típico y considerarse un valor atípico.
Un valor atípico también puede referirse a qué tan alejadas están las predicciones de un modelo de las reales de salida. Por ejemplo, un automóvil de 1,000 kilos o un automóvil que pesa 64 kilómetros por galón están dentro de los rangos típicos. Sin embargo, un automóvil de 1,000 libras 40 millas por galón sería un valor atípico en términos de la predicción del modelo. ya que el modelo predeciría que un automóvil de 1,000 kilos tendría entre 18 y 20 millas por galón.
Cuando elijas la mejor función de pérdida, considera cómo quieres que el modelo trate los valores atípicos. Por ejemplo, el ECM lleva el modelo más hacia los valores atípicos, mientras que el MAE no. La pérdida L2 genera una penalización mucho mayor por un valor atípico que Pérdida L1. Por ejemplo, las siguientes imágenes muestran un modelo entrenado con MAE y un modelo entrenado con ECM. La línea roja representa un entrenado que se usará para hacer predicciones. Los valores atípicos están más cerca de en comparación con el modelo entrenado con MAE.
Figura 10: Un modelo entrenado con ECM acerca el modelo a los valores atípicos.
Figura 11: Un modelo entrenado con MAE está más lejos de los valores atípicos.
Observa la relación entre el modelo y los datos:
MSE. El modelo está más cerca de los valores atípicos, pero más lejos de la mayor parte de los otros puntos de datos.
MAE El modelo está más lejos de los valores atípicos, pero más cerca de la mayor parte los otros puntos de datos.
Comprueba tu comprensión
Considera los dos diagramas siguientes: