Como mencionado no Regressão linear módulo, calcular viés de previsão é uma verificação rápida que pode sinalizar problemas com o modelo ou os dados de treinamento desde o início.
O viés de previsão é a diferença entre a média previsões e a média de Rótulos de informações empíricas na dados. um modelo treinado em um conjunto de dados em que 5% dos e-mails são spam deve prever, em média, que 5% das e-mails que ele classifica como spam. Em outras palavras, a média dos rótulos na conjunto de dados de informações empíricas é 0,05, e a média das previsões do modelo deve também será 0,05. Nesse caso, o modelo não tem viés de previsão. é claro, o modelo ainda pode ter outros problemas.
Se o modelo prevê que 50% das vezes que um e-mail é spam, então algo deu errado com o conjunto de dados de treinamento, o novo conjunto de dados que o modelo aplicada ou com o próprio modelo. Qualquer um uma diferença significativa entre os dois significa que o modelo tem algum viés de previsão.
O viés de previsão pode ser causado por:
- Vieses ou ruído nos dados, incluindo amostragem tendenciosa para o conjunto de treinamento.
- regularização muito forte, ou seja, o modelo foi simplificado demais e perdido alguma complexidade necessária
- Bugs no pipeline de treinamento de modelo
- O conjunto de atributos fornecidos ao modelo sendo insuficiente para a tarefa