Regressão linear: perda

Perda é uma métrica numérica que descreve o quão erradas são as previsões de um modelo os dados. A perda mede a distância entre as previsões do modelo e o rótulos. O objetivo do treinamento de um modelo é minimizar a perda, reduzindo-a ao menor valor possível.

Na imagem a seguir, é possível visualizar a perda como setas extraídas dos dados aponta para o modelo. As setas mostram a distância entre as previsões do modelo os valores reais.

Figura 9. As linhas de perda conectam os pontos de dados
um modelo de machine learning.

Figura 9. A perda é medida a partir do valor real para o valor previsto.

Distância da perda

Em estatística e machine learning, a perda mede a diferença entre o valores previstos e reais. A perda se concentra na distância entre os valores, mas não a direção. Por exemplo, se um modelo prevê 2, mas o valor real é 5, não nos importa se a perda é negativa $ -3 $ ($ 2-5=-3 $). Em vez disso, consideramos que a distância entre os valores é de R $ 3 $. Assim, todas para calcular a perda, remova o sinal.

Os dois métodos mais comuns para remover a placa são os seguintes:

  • Considere o valor absoluto da diferença entre o valor real e o previsão.
  • Ao quadrado a diferença entre o valor real e a previsão.

Tipos de perda

Na regressão linear, há quatro tipos principais de perda, que são descritos em na tabela a seguir.

Tipo de perda Definição Equação
Perda de L1 A soma dos valores absolutos da diferença entre os valores previstos e os valores reais. $ ∑ | valor real - valor previsto | US$
Erro médio absoluto (MAE) Média de perdas de L1 em um conjunto de exemplos. $ \frac{1}{N} ∑ | valor real - valor previsto | US$
Perda L2 A soma da diferença ao quadrado entre os valores previstos e os valores reais. $ ∑(valor\real - valor\previsto)^2 $
Erro quadrático médio (EQM) Média de perdas de L2 em um conjunto de exemplos. $ \frac{1}{N} ∑ (valor real - valor previsto)^2 $

A diferença funcional entre a perda de L1 e a perda de L2 (ou entre o MAE e o EQM) é a raiz quadrada. Quando a diferença entre o previsão e rótulo for grande, elevar ao quadrado torna a perda ainda maior. Quando o diferença for pequena (menos de 1), elevar ao quadrado torna a perda ainda menor.

Ao processar vários exemplos de uma vez, recomendamos calcular a média das perdas em todos os exemplos, seja usando o MAE ou o EQM.

Exemplo de cálculo de perda

Usando a linha de melhor ajuste anterior, vamos calcular a perda de L2 para um único exemplo. Na guia melhor linha de melhor ajuste, tivemos os seguintes valores para peso e viés:

  • $ \small{Peso: -3,6} $
  • $ \small{Viés: 30} $

Se o modelo prevê que um carro de 939 quilos tem uma saída de 21,5 milhas por litro, mas tiver 24 milhas por galão, calcularíamos a perda de L2 como da seguinte forma:

Valor Equação Resultado
Previsão

$\small{bias + (peso * atributo\ valor)}$

$\small{30 + (-3,6*2,37)}$

$\small{21,5}$
Valor real $ \small{ rótulo } $ $ \small{ 24 } $
Perda L2

$ \small{ (previsão - valor real\)^2} $

$\small{ (21,5 - 24)^2 }$

$\small{6,25}$

Neste exemplo, a perda L2 desse ponto de dados é de 6,25.

Como escolher uma perda

A decisão entre usar o MAE ou o EQM depende do conjunto de dados e da maneira como você para lidar com determinadas previsões. A maioria dos valores de atributos em um conjunto de dados normalmente estão em um intervalo distinto. Por exemplo, os carros normalmente ficam entre 2000 e de 2.500 quilos e vão de 13 a 50 milhas por litro. Um carro de 2.400 kg ou que tem mais de 100 milhas por litro, está fora da faixa típica e não ser considerada outlier.

Um outlier também pode se referir a até que ponto as previsões de um modelo estão longe do real valores. Por exemplo, um carro de 13 kg ou que atinge 64 quilômetros por litro estão dentro dos intervalos típicos. No entanto, um carro de 1.000 quilos que fica 40 milhas por litro seria um ponto fora da curva em termos de previsão do modelo. porque o modelo previria que um carro de 13 kg teria entre 18 e 20 milhas por litro.

Ao escolher a melhor função de perda, considere como você quer que o modelo trate os outliers. Por exemplo, o EQM move o modelo mais para os outliers, enquanto o MAE não funciona. A perda L2 incorre em uma penalidade muito maior para um outlier Perda L1. Por exemplo, as imagens a seguir mostram um modelo treinado usando o MAE e um modelo treinado com EQM. A linha vermelha representa treinado que será usado para fazer previsões. Os outliers estão mais próximos ao modelo treinado com EQM do que ao modelo treinado com o MAE.

Figura 10. o modelo é mais inclinado em direção aos outliers.

Figura 10. Um modelo treinado com o EQM aproxima o modelo dos outliers.

Figura 11. O modelo é inclinado para longe dos outliers.

Figura 11. Um modelo treinado com o MAE está mais longe dos outliers.

Observe a relação entre o modelo e os dados:

  • MSE: O modelo está mais próximo dos outliers, mas longe da maioria os outros pontos de dados.

  • MAE: O modelo está mais longe dos outliers, mas mais próximo da maioria os outros pontos de dados.

Teste seu conhecimento

Considere os dois gráficos a seguir:

Um gráfico de 10 pontos.
      Uma linha passa por seis dos pontos. 2 pontos são uma unidade
      acima da linha; Os outros dois pontos estão 1 unidade abaixo da linha. Um gráfico de 10 pontos. Uma linha passa
      a oito pontos. 1 ponto é igual a 2 unidades
      acima da linha; Um outro ponto está duas unidades abaixo da linha.
Qual dos dois conjuntos de dados mostrados nos gráficos anteriores tem o Erro quadrático médio (EQM) maior?
O conjunto de dados à esquerda.
Os seis exemplos na linha geram uma perda total de 0. Os quatro exemplos que não estão na linha não estão muito distantes, então mesmo elevar ao quadrado o deslocamento ainda produz um valor baixo: $MSE = \frac{0^2 + 1^2 + 0^2 + 1^2 + 0^2 + 1^2 + 0^2 + 1^2 + 0^2 + 0^2} {10} = 0,4$
O conjunto de dados à direita.
Os oito exemplos na linha geram uma perda total de 0. No entanto, embora apenas dois pontos estejam fora da linha, ambos os pontos estão duas vezes mais longe da linha que os pontos atípicos na figura à esquerda. A perda quadrada amplifica essas diferenças, Assim, um deslocamento de dois incorre em uma perda quatro vezes maior de um: $MSE = \frac{0^2 + 0^2 + 0^2 + 2^2 + 0^2 + 0^2 + 0^2 + 2^2 + 0^2 + 0^2} {10} = 0,8$