Переменная важность

Важность переменной (также известная как важность функции ) — это показатель, который показывает, насколько «важна» функция для модели. Например, если для данной модели с двумя входными признаками «f1» и «f2» важности переменных равны {f1=5,8, f2=2,5}, то признак «f1» является более «важным» для модели, чем признак «ф2». Как и в случае с другими моделями машинного обучения, важность переменных — это простой способ понять, как работает дерево решений.

К деревьям решений можно применять значения переменных, не зависящих от модели, например значения переменных перестановки .

Деревья решений также имеют определенные важные переменные, такие как:

  • Сумма разделенной оценки с данной переменной.
  • Количество узлов с данной переменной.
  • Средняя глубина первого появления объекта по всем путям дерева.

Значения переменных могут различаться по таким качествам, как:

  • семантика
  • шкала
  • характеристики

Кроме того, переменные важности предоставляют различную информацию о:

  • модель
  • набор данных
  • тренировочный процесс

Например, количество условий, содержащих конкретную функцию, указывает, насколько дерево решений учитывает эту конкретную функцию, что может указывать на важность переменной. В конце концов, алгоритм обучения не использовал бы функцию в нескольких условиях, если бы это не имело значения. Однако появление одной и той же функции в нескольких условиях может также указывать на то, что модель пытается, но не может обобщить структуру функции. Например, это может произойти, когда объект представляет собой всего лишь пример идентификатора без какой-либо информации для обобщения.

С другой стороны, высокое значение высокой важности переменной перестановки указывает на то, что удаление признака вредит модели, что является показателем важности переменной. Однако если модель надежна, удаление какой-либо одной функции может не повредить модели.

Поскольку разные значения переменных сообщают о разных аспектах моделей, одновременное рассмотрение важности нескольких переменных является информативным. Например, если функция важна согласно всем значениям переменных, эта функция, скорее всего, важна. Другой пример: если признак имеет высокую важность переменной «количество узлов» и небольшую важность переменной «перестановка», то этот признак может быть трудно обобщить и может ухудшить качество модели.

Код YDF
В YDF вы можете увидеть важность переменной модели, вызвав model.describe() и просмотрев вкладку «Важность переменной». Дополнительные сведения см. в руководстве по пониманию модели .