Este módulo apresenta os conceitos de regressão linear.
A regressão linear é uma técnica estatística usada para encontrar a relação entre variáveis. Em um contexto de ML, a regressão linear encontra a relação entre atributos e um rótulo.
Por exemplo, suponha que queremos prever a eficiência de combustível de um carro em milhas por galão com base no peso do carro e temos o seguinte conjunto de dados:
Libras em 1.000 (recurso) | Milhas por galão (rótulo) |
---|---|
3.5 | 18 |
3,69 | 15 |
3,44 | 18 |
3,43 | 16 |
4,34 | 15 |
4,42 | 14 |
2,37 | 24 |
Se plotarmos esses pontos, teremos o seguinte gráfico:
Figura 1. Peso do carro (em libras) em comparação com a classificação de milhas por galão. À medida que um carro fica mais pesado, a classificação de milhas por galão geralmente diminui.
Podemos criar nosso próprio modelo desenhando uma linha de melhor ajuste pelos pontos:
Figura 2. Uma linha de ajuste ideal desenhada pelos dados da figura anterior.
Equação de regressão linear
Em termos algébricos, o modelo seria definido como $ y = mx + b $, em que
- $ y $ é o valor em milhas por galão que queremos prever.
- $ m $ é a inclinação da linha.
- $ x $ é o valor de entrada em libras.
- $ b $ é a interseção com o eixo y.
No aprendizado de máquina, escrevemos a equação de um modelo de regressão linear da seguinte maneira:
em que:
- $ y' $ é o rótulo previsto, ou seja, a saída.
- $ b $ é o viés do modelo. O viés é o mesmo conceito da interseção y na equação algébrica de uma linha. No ML, a viés às vezes é chamada de $ w_0 $. A viés é um parâmetro do modelo e é calculada durante o treinamento.
- $ w_1 $ é o peso do elemento. O peso é o mesmo conceito da inclinação $ m $ na equação algébrica de uma linha. O peso é um parâmetro do modelo e é calculado durante o treinamento.
- $ x_1 $ é um recurso, ou seja, a entrada.
Durante o treinamento, o modelo calcula o peso e o viés que produzem o melhor modelo.
Figura 3. Representação matemática de um modelo linear.
No nosso exemplo, calculamos o peso e o viés da linha que desenhamos. A viés é 30 (onde a linha cruza o eixo y), e o peso é -3,6 (a inclinação da linha). O modelo seria definido como $ y' = 30 + (-3, 6)(x_1) $ e poderia ser usado para fazer previsões. Por exemplo, usando esse modelo, um carro de 4.000 libras teria uma eficiência de combustível prevista de 15,6 milhas por galão.
Figura 4. Usando o modelo, um carro de 4.000 libras tem uma eficiência de combustível prevista de 15,6 milhas por galão.
Modelos com vários recursos
Embora o exemplo desta seção use apenas um recurso, a gravidade do carro, um modelo mais sofisticado pode depender de vários recursos, cada um com um peso separado ($ w_1 $, $ w_2 $ etc.). Por exemplo, um modelo que depende de cinco recursos seria escrito da seguinte maneira:
$ y' = b + w_1x_1 + w_2x_2 + w_3x_3 + w_4x_4 + w_5x_5 $
Por exemplo, um modelo que prevê a economia de combustível pode usar recursos como estes:
- Cilindrada
- Aceleração
- Número de cilindros
- Cavalos de potência
Esse modelo seria escrito da seguinte forma:
Figura 5. Um modelo com cinco recursos para prever a classificação de milhas por galão de um carro.
Ao representar alguns desses recursos adicionais em um gráfico, podemos ver que eles também têm uma relação linear com o rótulo, milhas por galão:
Figura 6. O deslocamento de um carro em centímetros cúbicos e a classificação de milhas por galão. À medida que o motor de um carro fica maior, a classificação de milhas por galão geralmente diminui.
Figura 7. A aceleração de um carro e a classificação de milhas por galão. À medida que a aceleração de um carro demora mais, a classificação de milhas por galão geralmente aumenta.
Figura 8. A potência de um carro e a classificação de milhas por galão. À medida que a potência do carro aumenta, a classificação de milhas por galão geralmente diminui.