Оценка «из коробки»

Случайные леса не требуют набора данных проверки. В большинстве случайных лесов для оценки качества модели используется метод, называемый оценкой вне пакета ( оценка OOB ). При оценке OOB обучающий набор рассматривается так, как если бы он находился в тестовом наборе перекрестной проверки.

Как объяснялось ранее, каждое дерево решений в случайном лесу обычно обучается на ~67% обучающих примеров. Таким образом, каждое дерево решений не видит ~33% обучающих примеров. Основная идея OOB-оценки заключается в следующем:

  • Чтобы оценить случайный лес на обучающем наборе.
  • Для каждого примера используйте только те деревья решений, которые не видели пример во время обучения.

В следующей таблице показана внеплановая оценка случайного леса с 3 деревьями решений, обученными на 6 примерах. (Да, это та же таблица, что и в разделе «Баксирование»). В таблице показано, какое дерево решений и с каким примером используется во время оценки OOB.

Таблица 7. Оценка OOB — цифры обозначают количество раз, когда данный обучающий пример используется во время обучения данного примера.

Примеры обучения Примеры внештатной оценки
№1 #2 #3 #4 #5 #6
исходный набор данных 1 1 1 1 1 1
дерево решений 1 1 1 0 2 1 1 #3
дерево решений 2 3 0 1 0 2 0 №2, №4 и №6
дерево решений 3 0 1 3 1 0 1 №1 и №5

В примере, показанном в таблице 7, прогнозы OOB для примера обучения 1 будут вычисляться с использованием дерева решений № 3 (поскольку деревья решений № 1 и № 2 использовали этот пример для обучения). На практике, на наборе данных разумного размера и с несколькими деревьями решений, все примеры имеют внеплановый прогноз.

Код YDF
В YDF OOB-оценка доступна в журналах обучения, если модель обучена с помощью compute_oob_performances=True .

Оценка OOB также эффективна для расчета важности переменной перестановки для моделей случайного леса. Помните из раздела «Важность переменных» , что важность переменной перестановки измеряет важность переменной путем измерения падения качества модели при перетасовке этой переменной. Случайный лес «Важность переменной перестановки OOB» представляет собой важность переменной перестановки, вычисленную с использованием оценки OOB.

Код YDF
В YDF важности переменных перестановки OOB доступны в журналах обучения, если модель обучена с помощью compute_oob_variable_importances=True .