Este módulo apresenta os conceitos de regressão linear.
A regressão linear é uma técnica estatística usada para encontrar a relação entre variáveis. Em um contexto de ML, a regressão linear encontra a relação entre atributos e um rótulo.
Por exemplo, suponha que queremos prever a eficiência de combustível de um carro em milhas por galão com base no peso do carro e temos o seguinte conjunto de dados:
Libras em 1.000 (recurso) | Milhas por galão (rótulo) |
---|---|
3.5 | 18 |
3,69 | 15 |
3,44 | 18 |
3,43 | 16 |
4,34 | 15 |
4,42 | 14 |
2,37 | 24 |
Se plotarmos esses pontos, teremos o seguinte gráfico:
Figura 1. Peso do carro (em libras) em comparação com a classificação de milhas por galão. À medida que um carro fica mais pesado, a classificação de milhas por galão geralmente diminui.
Podemos criar nosso próprio modelo desenhando uma linha de melhor ajuste pelos pontos:
Figura 2. Uma linha de ajuste ideal desenhada pelos dados da figura anterior.
Equação de regressão linear
Em termos algébricos, o modelo seria definido como y=mx+b, em que
- y é o valor em milhas por galão que queremos prever.
- m é a inclinação da linha.
- x é o valor de entrada em libras.
- b é a interseção com o eixo y.
No aprendizado de máquina, escrevemos a equação de um modelo de regressão linear da seguinte maneira:
em que:
- y′ é o rótulo previsto, ou seja, a saída.
- b é o viés do modelo. O viés é o mesmo conceito da interseção y na equação algébrica de uma linha. No ML, a viés às vezes é chamada de w0. A viés é um parâmetro do modelo e é calculada durante o treinamento.
- w1 é o peso do elemento. O peso é o mesmo conceito da inclinação m na equação algébrica de uma linha. O peso é um parâmetro do modelo e é calculado durante o treinamento.
- x1 é um recurso, ou seja, a entrada.
Durante o treinamento, o modelo calcula o peso e o viés que produzem o melhor modelo.
Figura 3. Representação matemática de um modelo linear.
No nosso exemplo, calculamos o peso e o viés da linha que desenhamos. A viés é 30 (onde a linha cruza o eixo y), e o peso é -3,6 (a inclinação da linha). O modelo seria definido como y′=30+(−3,6)(x1) e poderia ser usado para fazer previsões. Por exemplo, usando esse modelo, um carro de 4.000 libras teria uma eficiência de combustível prevista de 15,6 milhas por galão.
Figura 4. Usando o modelo, um carro de 4.000 libras tem uma eficiência de combustível prevista de 15,6 milhas por galão.
Modelos com vários recursos
Embora o exemplo desta seção use apenas um recurso, a gravidade do carro, um modelo mais sofisticado pode depender de vários recursos, cada um com um peso separado (w1, w2 etc.). Por exemplo, um modelo que depende de cinco recursos seria escrito da seguinte maneira:
y′=b+w1x1+w2x2+w3x3+w4x4+w5x5
Por exemplo, um modelo que prevê a economia de combustível pode usar recursos como estes:
- Cilindrada
- Aceleração
- Número de cilindros
- Cavalos de potência
Esse modelo seria escrito da seguinte forma:
Figura 5. Um modelo com cinco recursos para prever a classificação de milhas por galão de um carro.
Ao representar alguns desses recursos adicionais em um gráfico, podemos ver que eles também têm uma relação linear com o rótulo, milhas por galão:
Figura 6. O deslocamento de um carro em centímetros cúbicos e a classificação de milhas por galão. À medida que o motor de um carro fica maior, a classificação de milhas por galão geralmente diminui.
Figura 7. A aceleração de um carro e a classificação de milhas por galão. À medida que a aceleração de um carro demora mais, a classificação de milhas por galão geralmente aumenta.
Figura 8. A potência de um carro e a classificação de milhas por galão. À medida que a potência do carro aumenta, a classificação de milhas por galão geralmente diminui.