Questo è il bue.
Figura 19. Un bue.
Nel 1906 si tenne una concorrenza nella valutazione del peso in Inghilterra. 787 partecipanti hanno indovinato il peso di un bue. L'errore mediano delle singole incertezze era di 37 lb (un errore del 3,1%). Tuttavia, la mediana complessiva delle incertezze era a soli 9 libbre dal peso reale del bue (1198 libbre), che era un errore solo dello 0,7%.
Figura 20. Istogramma di singole ipotesi di peso.
Questo aneddoto illustra la saggezza della folla: in determinate situazioni, l'opinione collettiva fornisce un buon giudizio.
Matematicamente, la saggezza della folla può essere modellata con il teorema del limite centrale: in teoria, l'errore quadrato tra un valore e la media di N stime rumorose di questo valore tende a zero con un fattore 1/N. Tuttavia, se le variabili non sono indipendenti, la varianza è maggiore.
Nel machine learning, un insieme è una raccolta di modelli le cui previsioni sono calcolate in media (o aggregate in qualche modo). Se i modelli di insieme sono abbastanza diversi senza essere troppo peggiori a livello individuale, la qualità dell'insieme è generalmente migliore rispetto a quella dei singoli modelli. Un insieme richiede più tempo di addestramento e di inferenza rispetto a un singolo modello. Dopo tutto, devi eseguire addestramento e inferenza su più modelli invece di un singolo modello.
A grandi linee, perché un gruppo funzioni meglio, i singoli modelli devono essere indipendenti. Come illustrazione, un insieme composto da 10 modelli identici (ovvero non completamente indipendenti) non sarà migliore del singolo modello. D'altra parte, forzare l'indipendenza dei modelli potrebbe significare peggiorarli. Per avere un insieme efficace è necessario trovare un equilibrio tra indipendenza del modello e qualità dei suoi modelli secondari.