Оценка «из коробки»
Случайные леса не требуют набора данных проверки. В большинстве случайных лесов для оценки качества модели используется метод, называемый оценкой вне пакета ( оценка OOB ). При оценке OOB обучающий набор рассматривается так, как если бы он находился в тестовом наборе перекрестной проверки.
Как объяснялось ранее, каждое дерево решений в случайном лесу обычно обучается на ~67% обучающих примеров. Таким образом, каждое дерево решений не видит ~33% обучающих примеров. Основная идея OOB-оценки заключается в следующем:
- Чтобы оценить случайный лес на обучающем наборе.
- Для каждого примера используйте только те деревья решений, которые не видели пример во время обучения.
В следующей таблице показана внеплановая оценка случайного леса с 3 деревьями решений, обученными на 6 примерах. (Да, это та же таблица, что и в разделе «Баксирование»). В таблице показано, какое дерево решений и с каким примером используется во время оценки OOB.
Таблица 7. Оценка OOB — цифры обозначают количество раз, когда данный обучающий пример используется во время обучения данного примера.
Примеры обучения | Примеры внештатной оценки | ||||||
---|---|---|---|---|---|---|---|
№1 | #2 | #3 | #4 | #5 | #6 | ||
исходный набор данных | 1 | 1 | 1 | 1 | 1 | 1 | |
дерево решений 1 | 1 | 1 | 0 | 2 | 1 | 1 | #3 |
дерево решений 2 | 3 | 0 | 1 | 0 | 2 | 0 | №2, №4 и №6 |
дерево решений 3 | 0 | 1 | 3 | 1 | 0 | 1 | №1 и №5 |
В примере, показанном в таблице 7, прогнозы OOB для примера обучения 1 будут вычисляться с использованием дерева решений № 3 (поскольку деревья решений № 1 и № 2 использовали этот пример для обучения). На практике, на наборе данных разумного размера и с несколькими деревьями решений, все примеры имеют внеплановый прогноз.
compute_oob_performances=True
.Оценка OOB также эффективна для расчета важности переменной перестановки для моделей случайного леса. Помните из раздела «Важность переменных» , что важность переменной перестановки измеряет важность переменной путем измерения падения качества модели при перетасовке этой переменной. Случайный лес «Важность переменной перестановки OOB» представляет собой важность переменной перестановки, вычисленную с использованием оценки OOB.
compute_oob_variable_importances=True
.