Regressão linear

Este módulo apresenta os conceitos de regressão linear.

A regressão linear é uma técnica estatística usada para encontrar a relação entre variáveis. Em um contexto de ML, a regressão linear encontra a relação entre atributos e um rótulo.

Por exemplo, suponha que queremos prever a eficiência de combustível de um carro em milhas por galão com base no peso do carro e temos o seguinte conjunto de dados:

Libras em 1.000 (recurso) Milhas por galão (rótulo)
3.5 18
3,69 15
3,44 18
3,43 16
4,34 15
4,42 14
2,37 24

Se plotarmos esses pontos, teremos o seguinte gráfico:

Figura 1. Pontos de dados mostrando uma tendência de inclinação para baixo da esquerda para a direita.

Figura 1. Peso do carro (em libras) em comparação com a classificação de milhas por galão. À medida que um carro fica mais pesado, a classificação de milhas por galão geralmente diminui.

Podemos criar nosso próprio modelo desenhando uma linha de melhor ajuste pelos pontos:

Figura 2. Pontos de dados com uma linha de melhor ajuste que representa o modelo.

Figura 2. Uma linha de ajuste ideal desenhada pelos dados da figura anterior.

Equação de regressão linear

Em termos algébricos, o modelo seria definido como $ y = mx + b $, em que

  • $ y $ é o valor em milhas por galão que queremos prever.
  • $ m $ é a inclinação da linha.
  • $ x $ é o valor de entrada em libras.
  • $ b $ é a interseção com o eixo y.

No aprendizado de máquina, escrevemos a equação de um modelo de regressão linear da seguinte maneira:

$$ y' = b + w_1x_1 $$

em que:

  • $ y' $ é o rótulo previsto, ou seja, a saída.
  • $ b $ é o viés do modelo. O viés é o mesmo conceito da interseção y na equação algébrica de uma linha. No ML, a viés às vezes é chamada de $ w_0 $. A viés é um parâmetro do modelo e é calculada durante o treinamento.
  • $ w_1 $ é o peso do elemento. O peso é o mesmo conceito da inclinação $ m $ na equação algébrica de uma linha. O peso é um parâmetro do modelo e é calculado durante o treinamento.
  • $ x_1 $ é um recurso, ou seja, a entrada.

Durante o treinamento, o modelo calcula o peso e o viés que produzem o melhor modelo.

Figura 3. A equação y' = b + w1x1, com cada componente anotado com a finalidade dele.

Figura 3. Representação matemática de um modelo linear.

No nosso exemplo, calculamos o peso e o viés da linha que desenhamos. A viés é 30 (onde a linha cruza o eixo y), e o peso é -3,6 (a inclinação da linha). O modelo seria definido como $ y' = 30 + (-3, 6)(x_1) $ e poderia ser usado para fazer previsões. Por exemplo, usando esse modelo, um carro de 4.000 libras teria uma eficiência de combustível prevista de 15,6 milhas por galão.

Figura 4. Mesmo gráfico da Figura 2, com o ponto (4, 15,6) destacado.

Figura 4. Usando o modelo, um carro de 4.000 libras tem uma eficiência de combustível prevista de 15,6 milhas por galão.

Modelos com vários recursos

Embora o exemplo desta seção use apenas um recurso, a gravidade do carro, um modelo mais sofisticado pode depender de vários recursos, cada um com um peso separado ($ w_1 $, $ w_2 $ etc.). Por exemplo, um modelo que depende de cinco recursos seria escrito da seguinte maneira:

$ y' = b + w_1x_1 + w_2x_2 + w_3x_3 + w_4x_4 + w_5x_5 $

Por exemplo, um modelo que prevê a economia de combustível pode usar recursos como estes:

  • Cilindrada
  • Aceleração
  • Número de cilindros
  • Cavalos de potência

Esse modelo seria escrito da seguinte forma:

Figura 5. Equação de regressão linear com cinco atributos.

Figura 5. Um modelo com cinco recursos para prever a classificação de milhas por galão de um carro.

Ao representar alguns desses recursos adicionais em um gráfico, podemos ver que eles também têm uma relação linear com o rótulo, milhas por galão:

Figura 6. Deslocamento em centímetros cúbicos mostrado em um gráfico em relação a milhas por galão, mostrando uma relação linear negativa.

Figura 6. O deslocamento de um carro em centímetros cúbicos e a classificação de milhas por galão. À medida que o motor de um carro fica maior, a classificação de milhas por galão geralmente diminui.

Figura 7. Aceleração de zero a 60 em segundos representada em um gráfico em relação a milhas por galão, mostrando uma relação linear positiva.

Figura 7. A aceleração de um carro e a classificação de milhas por galão. À medida que a aceleração de um carro demora mais, a classificação de milhas por galão geralmente aumenta.

Figura 8. Potência em cavalos-vapor em um gráfico em relação a milhas por galão mostrando uma relação linear negativa.

Figura 8. A potência de um carro e a classificação de milhas por galão. À medida que a potência do carro aumenta, a classificação de milhas por galão geralmente diminui.

Exercício: testar seu conhecimento

Quais partes da equação de regressão linear são atualizadas durante o treinamento?
Viés e pesos
Durante o treinamento, o modelo atualiza o viés e os pesos.
A previsão
As previsões não são atualizadas durante o treinamento.
Os valores do recurso
Os valores de atributos fazem parte do conjunto de dados, portanto, eles não são atualizados durante o treinamento.