Случайный лес

Это Бык.

An old, old photograph of an ox.

Рисунок 19. Бык.

В 1906 году в Англии было проведено соревнование судей по весу . 787 участников угадали вес быка. Средняя ошибка отдельных догадок составила 37 фунтов (ошибка 3,1%). Однако общая медиана предположений всего на 9 фунтов отличалась от реального веса быка (1198 фунтов), что составляло ошибку всего 0,7%.

Histogram of individual guesses, showing most guesses clustered around
the actual weight of the ox.

Рисунок 20. Гистограмма индивидуальных оценок веса.

Этот анекдот иллюстрирует мудрость толпы : в определенных ситуациях коллективное мнение дает очень хорошее суждение.

Математически мудрость толпы можно смоделировать с помощью центральной предельной теоремы : неформально квадрат ошибки между значением и средним значением N зашумленных оценок этого значения стремится к нулю с коэффициентом 1/N. Однако, если переменные не являются независимыми, дисперсия больше.

В машинном обучении ансамбль — это набор моделей, чьи прогнозы усредняются (или каким-то образом агрегируются). Если модели ансамбля достаточно различны, но не слишком плохи по отдельности, качество ансамбля, как правило, лучше, чем качество каждой из отдельных моделей. Ансамбль требует больше времени на обучение и вывод, чем одна модель. В конце концов, вам нужно выполнять обучение и логические выводы для нескольких моделей, а не для одной модели.

Неформально, чтобы ансамбль работал лучше всего, отдельные модели должны быть независимыми. Например, ансамбль из 10 одинаковых моделей (то есть совсем не независимых) не будет лучше, чем отдельная модель. С другой стороны, принуждение моделей к независимости может означать их ухудшение. Эффективная сборка требует нахождения баланса между независимостью модели и качеством ее подмоделей.