Вот краткое изложение того, что вы узнали на курсе:
- Дерево решений — это модель, состоящая из набора условий, иерархически организованных в форме дерева. Условия делятся на различные категории:
- Условие выравнивания по оси включает только один объект. Наклонное условие включает в себя несколько функций.
- Бинарное состояние имеет два возможных результата. Небинарное состояние имеет более двух возможных результатов.
- Обучение дерева решений включает в себя поиск наилучшего состояния в каждом узле. Процедура разделения использует такие показатели, как прирост информации или Джини, для определения наилучшего состояния.
- Лес решений — это режим, состоящий из нескольких деревьев решений. Прогнозирование леса решений — это совокупность прогнозов его деревьев решений.
- Случайный лес — это ансамбль деревьев решений, в котором каждое дерево решений обучается с использованием определенного случайного шума.
- Бэггинг — это метод, при котором каждое дерево решений в случайном лесу обучается на различном подмножестве примеров.
- Случайные леса не требуют набора данных проверки. Вместо этого в большинстве случайных лесов для оценки качества модели используется метод, называемый «внештатной оценкой» .
- Дерево решений (решений) с градиентным усилением — это тип леса решений, обученный посредством итеративных корректировок входных деревьев решений. Величина, называемая сжатием, контролирует скорость, с которой обучается дерево решений (решений) с градиентным усилением, и степень, до которой оно может переобучиться.
Ссылки
- Приближение жадных функций: машина повышения градиента , Дж. Фридман.
- Элементы статистического обучения , Тревор Хэсти. Глава 10.
- Обобщенные усиленные модели: руководство по пакету gbm , Дж. Риджуэй