Числовые данные: полиномиальные преобразования

Иногда, когда у специалиста по МО есть знания предметной области, позволяющие предположить, что одна переменная связана с квадратом, кубом или другой степенью другой переменной, полезно создать синтетический признак на основе одного из существующих числовых признаков .

Рассмотрим следующий набор точек данных, где розовые кружки представляют один класс или категорию (например, породу дерева), а зеленые треугольники — другой класс (или породу дерева):

Рисунок 17. Разброс точек данных по y=x^2: треугольники под кривой и кружки над кривой.
Рисунок 17. Два класса, которые нельзя разделить линией.

Невозможно провести прямую линию, которая четко разделяет два класса, но можно нарисовать кривую, которая делает это:

Рис. 18. То же изображение, что и на рис. 17, только на этот раз с наложением y=x^2, чтобы создать четкую границу между треугольниками и кругами.
Рисунок 18. Разделение классов с y = x 2 .

Как обсуждалось в модуле «Линейная регрессия» , линейная модель с одним признаком $x_1$ описывается линейным уравнением:

$$y = b + w_1x_1$$

Дополнительные функции реализуются путем добавления терминов \(w_2x_2\),\(w_3x_3\)и т. д.

Градиентный спуск находит вес $w_1$ (или веса\(w_1\), \(w_2\), \(w_3\)в случае дополнительных функций), который минимизирует потери модели. Но показанные точки данных не могут быть разделены линией. Что можно сделать?

Можно сохранить как линейное уравнение , так и разрешить нелинейность, определив новый термин \(x_2\), который представляет собой просто квадрат \(x_1\) :

$$x_2 = x_1^2$$

Эта синтетическая функция, называемая полиномиальным преобразованием, рассматривается как любая другая функция. Предыдущая линейная формула принимает вид:

$$y = b + w_1x_1 + w_2x_2$$

Это по-прежнему можно рассматривать как задачу линейной регрессии , а веса, как обычно, определяются с помощью градиентного спуска, несмотря на то, что они содержат скрытый квадратичный член, полиномиальное преобразование. Не изменяя способ обучения линейной модели, добавление полиномиального преобразования позволяет модели разделять точки данных с помощью кривой вида $y = b + w_1x + w_2x^2$.

Обычно интересующий числовой признак умножается сам на себя, то есть возводится в некоторую степень. Иногда специалист по МО может сделать обоснованное предположение о соответствующем показателе. Например, многие отношения в физическом мире связаны с квадратами, включая ускорение силы тяжести, затухание света или звука на расстоянии и упругую потенциальную энергию.

Родственное понятие в категориальных данных — это перекрестный признак , который чаще всего синтезирует два разных признака.