Regressão linear: perda

A perda é uma métrica numérica que descreve o quão incorretas são as previsões de um modelo. A perda mede a distância entre as previsões do modelo e os rótulos reais. O objetivo de treinar um modelo é minimizar a perda, reduzindo-a ao menor valor possível.

Na imagem a seguir, é possível visualizar a perda como setas desenhadas dos pontos de dados para o modelo. As setas mostram a distância entre as previsões do modelo e os valores reais.

Figura 9. As linhas de perda conectam os pontos de dados ao modelo.

Figura 9. A perda é medida do valor real para o valor previsto.

Distância de perda

Em estatística e aprendizado de máquina, a perda mede a diferença entre os valores previstos e reais. A perda se concentra na distância entre os valores, não na direção. Por exemplo, se um modelo prever 2, mas o valor real for 5, não importa que a perda seja negativa de $ -3 $ ($ 2-5=-3 $). Em vez disso, nos interessa que a distância entre os valores seja de $ 3 $. Assim, todos os métodos para calcular a perda removem o sinal.

Os dois métodos mais comuns para remover a placa são os seguintes:

  • Use o valor absoluto da diferença entre o valor real e a previsão.
  • Ele eleva ao quadrado a diferença entre o valor real e a previsão.

Tipos de perda

Na regressão linear, há quatro tipos principais de perda, que são descritos na tabela a seguir.

Tipo de perda Definição Equação
L1 loss A soma dos valores absolutos da diferença entre os valores previstos e os valores reais. $ ∑ | valor\ real - valor\ previsto | $
Erro médio absoluto (MAE) A média das perdas de L1 em um conjunto de exemplos. $ \frac{1}{N} ∑ | valor\ real - valor\ previsto | $
Perda L2 A soma da diferença ao quadrado entre os valores previstos e os valores reais. $ ∑(valor\ real - valor\ previsto)^2 $
Erro quadrático médio (EQM) A média das perdas de L2 em um conjunto de exemplos. $ \frac{1}{N} ∑ (valor\ real - valor\ previsto)^2 $

A diferença funcional entre a perda L1 e a perda L2 (ou entre MAE e MSE) é o quadrado. Quando a diferença entre a predição e o rótulo é grande, o quadrado aumenta ainda mais a perda. Quando a diferença é pequena (menos de 1), o quadrado torna a perda ainda menor.

Ao processar vários exemplos de uma vez, recomendamos calcular a média das perdas em todos os exemplos, seja usando MAE ou MSE.

Exemplo de cálculo de perda

Usando a linha de melhor ajuste anterior, vamos calcular a perda L2 para um único exemplo. Na linha de melhor ajuste, tivemos os seguintes valores de peso e viés:

  • $ \small{Weight: -3.6} $
  • $ \small{Bias: 30} $

Se o modelo prever que um carro de 1.000 kg faz 21,5 milhas por galão, mas na verdade faz 24 milhas por galão, calcularemos a perda L2 da seguinte maneira:

Valor Equação Resultado
Previsão

$\small{bias + (weight * feature\ value)}$

$\small{30 + (-3,6*2,37)}$

$\small{21,5}$
Valor real $ \small{ label } $ $ \small{ 24 } $
Perda L2

$ \small{ (prediction - actual\ value)^2} $

$\small{ (21,5 - 24)^2 }$

$\small{6,25}$

Neste exemplo, a perda L2 desse ponto de dados é de 6,25.

Como escolher uma perda

A decisão de usar MAE ou MSE pode depender do conjunto de dados e da forma como você quer processar determinadas previsões. A maioria dos valores de recursos em um conjunto de dados geralmente fica em um intervalo distinto. Por exemplo, os carros normalmente têm entre 2.000 e 5.000 libras e conseguem percorrer entre 8 e 50 milhas por galão. Um carro de 3.600 kg, ou um carro que faz 100 milhas por galão, está fora do intervalo normal e seria considerado um valor discrepante.

Um valor discrepante também pode se referir à distância entre as previsões de um modelo e os valores reais. Por exemplo, um carro de 3.000 libras ou um carro que faz 40 milhas por galão estão dentro dos intervalos típicos. No entanto, um carro de 130 quilos que chega a 40 milhas por litro seria um outlier em termos de previsão do modelo, porque ele preveria que um carro de 13 quilos teria entre 40 e 20 milhas por litro.

Ao escolher a melhor função de perda, considere como você quer que o modelo trate valores discrepantes. Por exemplo, o EQM move o modelo mais na direção dos outliers, enquanto o MAE não. A perda de L2 incorre em uma penalidade muito maior para um outlier do que a perda de L1. Por exemplo, as imagens a seguir mostram um modelo treinado com o MAE e um modelo treinado com o EQM. A linha vermelha representa um modelo totalmente treinado que será usado para fazer previsões. Os outliers estão mais próximos do modelo treinado com o EQM do que do modelo treinado com o MAE.

Figura 10. O modelo está mais inclinado para os valores discrepantes.

Figura 10. Um modelo treinado com MSE se aproxima dos valores discrepantes.

Figura 11. O modelo é inclinado para longe dos outliers.

Figura 11. Um modelo treinado com MAE está mais distante dos outliers.

Observe a relação entre o modelo e os dados:

  • MSE. O modelo está mais próximo dos outliers, mas mais distante da maioria dos outros pontos de dados.

  • MAE. O modelo está mais longe dos outliers, mas mais próximo da maioria dos outros pontos de dados.

Teste seu conhecimento

Considere os dois gráficos a seguir:

Um gráfico de 10 pontos.
      Uma linha passa por 6 dos pontos. Dois pontos estão 1 unidade acima da linha, e dois outros pontos estão 1 unidade abaixo dela. Um gráfico de 10 pontos. Uma linha passa por 8 dos pontos. Um ponto está 2 unidades
      acima da linha; outro ponto está 2 unidades abaixo da linha.
Qual dos dois conjuntos de dados mostrados nos gráficos anteriores tem o maior erro quadrático médio (EQM)?
O conjunto de dados à esquerda.
Os seis exemplos na linha têm uma perda total de 0. Os quatro exemplos que não estão na linha não estão muito longe da linha.Por isso, mesmo ao elevar o deslocamento ao quadrado, ainda haverá um valor baixo: $MSE = \frac{0^2 + 1^2 + 0^2 + 1^2 + 0^2 + 1^2 + 0^2 + 1^2 + 0^2 + 0$2} {10} 0$2} {10}
O conjunto de dados à direita.
Os oito exemplos na linha incorrem em uma perda total de 0. No entanto, embora apenas dois pontos estejam fora da linha, ambos estão duas vezes mais distantes da linha do que os pontos discrepantes na figura à esquerda. A perda ao quadrado amplifica essas diferenças.Portanto, um deslocamento de dois gera uma perda quatro vezes maior que um deslocamento de um: $MSE = \frac{0^2 + 0^2 + 0^2 + 2^2 + 0^2 + 0^2 + 0^2 + 2^2 + 0^2 + 0^2} {10} = 0,8$