Это Бык.
Рисунок 19. Бык.
В 1906 году в Англии прошли соревнования по весовому судейству . 787 участников угадали вес быка. Средняя ошибка отдельных предположений составила 37 фунтов (ошибка 3,1%). Однако общая медиана предположений всего на 9 фунтов отличалась от реального веса быка (1198 фунтов), что составляло ошибку всего 0,7%.
Рисунок 20. Гистограмма индивидуальных предположений о весе.
Этот анекдот иллюстрирует мудрость толпы : в определенных ситуациях коллективное мнение дает очень хорошее суждение.
Математически мудрость толпы можно смоделировать с помощью центральной предельной теоремы : неформально квадрат ошибки между значением и средним значением N зашумленных оценок этого значения стремится к нулю с коэффициентом 1/N. Однако, если переменные не являются независимыми, дисперсия больше.
В машинном обучении ансамбль — это набор моделей, прогнозы которых усредняются (или каким-либо образом агрегируются). Если модели ансамбля достаточно различны, но не слишком плохи по отдельности, качество ансамбля обычно лучше, чем качество каждой отдельной модели. Ансамбль требует больше времени на обучение и вывод, чем одна модель. В конце концов, вам придется выполнять обучение и вывод на нескольких моделях, а не на одной.
Неформально, чтобы ансамбль работал лучше, отдельные модели должны быть независимыми. Например, ансамбль, состоящий из 10 одинаковых моделей (то есть совершенно не независимых), не будет лучше отдельной модели. С другой стороны, принуждение моделей к независимости может означать их ухудшение. Эффективное объединение требует нахождения баланса между независимостью модели и качеством ее подмоделей.