Переменная важность
Важность переменной (также известная как важность функции ) — это показатель, который показывает, насколько «важна» функция для модели. Например, если для данной модели с двумя входными признаками «f1» и «f2» важности переменных равны {f1=5,8, f2=2,5}, то признак «f1» является более «важным» для модели, чем признак «ф2». Как и в случае с другими моделями машинного обучения, важность переменных — это простой способ понять, как работает дерево решений.
К деревьям решений можно применять значения переменных, не зависящих от модели, например значения переменных перестановки .
Деревья решений также имеют определенные важные переменные, такие как:
- Сумма разделенной оценки с данной переменной.
- Количество узлов с данной переменной.
- Средняя глубина первого появления объекта по всем путям дерева.
Значения переменных могут различаться по таким качествам, как:
- семантика
- шкала
- характеристики
Кроме того, переменные важности предоставляют различную информацию о:
- модель
- набор данных
- тренировочный процесс
Например, количество условий, содержащих конкретную функцию, указывает, насколько дерево решений учитывает эту конкретную функцию, что может указывать на важность переменной. В конце концов, алгоритм обучения не использовал бы функцию в нескольких условиях, если бы это не имело значения. Однако появление одной и той же функции в нескольких условиях может также указывать на то, что модель пытается, но не может обобщить структуру функции. Например, это может произойти, когда объект представляет собой всего лишь пример идентификатора без какой-либо информации для обобщения.
С другой стороны, высокое значение высокой важности переменной перестановки указывает на то, что удаление признака вредит модели, что является показателем важности переменной. Однако если модель надежна, удаление какой-либо одной функции может не повредить модели.
Поскольку разные значения переменных сообщают о разных аспектах моделей, одновременное рассмотрение важности нескольких переменных является информативным. Например, если функция важна согласно всем значениям переменных, эта функция, скорее всего, важна. Другой пример: если признак имеет высокую важность переменной «количество узлов» и небольшую важность переменной «перестановка», то этот признак может быть трудно обобщить и может ухудшить качество модели.
model.describe()
и просмотрев вкладку «Важность переменной». Дополнительные сведения см. в руководстве по пониманию модели .