Come indicato nel Regressione lineare modulo, il calcolo bias di previsione è un controllo rapido che può segnalare problemi relativi al modello o ai dati di addestramento all'inizio.
Il bias di previsione è la differenza tra la media previsioni e la media di le etichette per dati empirici reali nella e i dati di Google Cloud. un modello addestrato su un set di dati dove il 5% delle email sono spam dovrebbe prevedere, in media, che il 5% dei le email che classifica sono spam. In altre parole, la media delle etichette nel è pari a 0, 05 e la media delle previsioni del modello dovrebbe anche 0,05. In questo caso, il modello non ha bias di previsione. Di il modello potrebbe avere ancora altri problemi.
Se invece il modello prevede il 50% delle volte che un'email è spam, si è verificato un problema con il set di dati di addestramento, il nuovo set di dati a cui il modello oppure con il modello stesso. Qualsiasi una differenza significativa tra i due mezzi indica che il modello ha pregiudizi.
I bias di previsione possono essere causati da:
- Differenziazione o rumore nei dati, incluso il campionamento differenziato per il set di addestramento
- Regolarizzazione troppo forte, il che significa che il modello è stato troppo semplificato e ha perso necessaria una certa complessità
- Bug nella pipeline di addestramento del modello
- L'insieme di caratteristiche fornite al modello non è sufficiente per l'attività