Random Forest

C'est un bœuf.

Une très vieille photo d'un bœuf.

Figure 19. Un bœuf.

 

En 1906, une compétition d'évaluation des poids est organisée en Angleterre. 787 participants ont deviné le poids d'un bœuf. L'erreur médiane des estimations individuelles était de 37 lb (une erreur de 3,1%). Toutefois, la médiane globale des estimations ne différait que de 4,1 kg du poids réel de l'animal (1 198 kg), soit une erreur de seulement 0,7%.

Histogramme des estimations individuelles, montrant que la plupart des estimations se situent autour du poids réel de l'animal.

Figure 20. Histogramme des estimations de poids individuelles.

 

Cette anecdote illustre la sagesse de la foule: dans certaines situations, l'opinion collective fournit un très bon jugement.

Mathématiquement, la sagesse de la foule peut être modélisée avec le théorème de limite centrale : de manière informelle, l'erreur au carré entre une valeur et la moyenne de N estimations bruyantes de cette valeur tend vers zéro avec un facteur 1/N. Toutefois, si les variables ne sont pas indépendantes, la variance est plus élevée.

En machine learning, un ensemble est un ensemble de modèles dont les prédictions sont agrégées (ou agrégées d'une manière ou d'une autre). Si les modèles de l'ensemble sont suffisamment différents sans être trop mauvais individuellement, la qualité de l'ensemble est généralement meilleure que celle de chacun des modèles individuels. Un ensemble nécessite plus de temps d'entraînement et d'inférence qu'un seul modèle. Après tout, vous devez effectuer l'entraînement et l'inférence sur plusieurs modèles au lieu d'un seul.

De manière informelle, pour qu'un ensemble fonctionne au mieux, les modèles individuels doivent être indépendants. Par exemple, un ensemble composé de 10 modèles identiques (c'est-à-dire non indépendants du tout) ne sera pas meilleur que le modèle individuel. En revanche, forcer les modèles à être indépendants peut les aggraver. Un ensembrement efficace nécessite de trouver l'équilibre entre l'indépendance des modèles et la qualité de leurs sous-modèles.