Линейная регрессия

Этот модуль знакомит с концепциями линейной регрессии .

Линейная регрессия — это статистический метод, используемый для поиска взаимосвязи между переменными. В контексте машинного обучения линейная регрессия находит связь между функциями и меткой .

Например, предположим, что мы хотим спрогнозировать топливную экономичность автомобиля в милях на галлон на основе веса автомобиля, и у нас есть следующий набор данных:

Фунты в тысячах (особенность) Миль на галлон (этикетка)
3,5 18
3,69 15
3.44 18
3.43 16
4.34 15
4.42 14
2.37 24

Если бы мы нанесли эти точки на график, мы получили бы следующий график:

Рисунок 1. Точки данных, показывающие нисходящую тенденцию слева направо.

Рисунок 1 . Вес автомобиля (в фунтах) в зависимости от оценки в милях на галлон. По мере того, как автомобиль становится тяжелее, его рейтинг в милях на галлон обычно уменьшается.

Мы могли бы создать свою собственную модель, проведя линию наилучшего соответствия через точки:

Рисунок 2. Точки данных с проведенной через них линией наилучшего соответствия, представляющей модель.

Рисунок 2 . Линия наилучшего соответствия, проведенная на основе данных предыдущего рисунка.

Уравнение линейной регрессии

В алгебраических терминах модель будет определяться как $y = mx + b$, где

  • $ y $ — это мили на галлон — значение, которое мы хотим спрогнозировать.
  • $m$ – наклон линии.
  • $ x $ — это фунты — наше входное значение.
  • $b$ — это точка пересечения с осью y.

В ML мы пишем уравнение для модели линейной регрессии следующим образом:

$$ y' = b + w_1x_1 $$

где:

  • $y'$ — это предсказанная метка — результат.
  • $b$ — смещение модели. Смещение — это то же понятие, что и точка пересечения оси y в алгебраическом уравнении прямой. В ML смещение иногда называют $w_0$. Смещение является параметром модели и рассчитывается во время обучения.
  • $w_1$ — вес функции. Вес – это то же понятие, что и наклон $m$ в алгебраическом уравнении прямой. Вес является параметром модели и рассчитывается во время обучения.
  • $x_1$ — это функция — вход.

Во время обучения модель вычисляет вес и смещение, которые создают лучшую модель.

Рисунок 3. Уравнение y' = b + w1x1, где каждый компонент помечен со своим назначением.

Рисунок 3 . Математическое представление линейной модели.

В нашем примере мы бы вычислили вес и смещение по нарисованной линии. Смещение равно 30 (где линия пересекает ось Y), а вес равен -3,6 (наклон линии). Модель будет определена как $y' = 30 + (-3,6)(x_1)$, и мы сможем использовать ее для прогнозирования. Например, при использовании этой модели прогнозируемая топливная экономичность автомобиля массой 4000 фунтов составит 15,6 миль на галлон.

Рисунок 4. Тот же график, что и на рисунке 2, с выделенной точкой (4, 15.6).

Рисунок 4 . Используя модель, автомобиль весом 4000 фунтов имеет прогнозируемую топливную экономичность 15,6 миль на галлон.

Модели с множеством функций

Хотя в примере в этом разделе используется только один признак — вес автомобиля, более сложная модель может опираться на несколько признаков, каждый из которых имеет отдельный вес ($w_1$, $w_2$ и т. д.). Например, модель, основанная на пяти функциях, будет записана следующим образом:

$ y' = b + w_1x_1 + w_2x_2 + w_3x_3 + w_4x_4 + w_5x_5 $

Например, модель, прогнозирующая расход бензина, может дополнительно использовать такие функции, как следующие:

  • Объем двигателя
  • Ускорение
  • Количество цилиндров
  • Лошадиные силы

Эта модель будет записана следующим образом:

Рисунок 5. Уравнение линейной регрессии с пятью признаками.

Рисунок 5 . Модель с пятью функциями для прогнозирования пробега автомобиля в милях на галлон.

Изобразив некоторые из этих дополнительных характеристик, мы видим, что они также имеют линейную зависимость от метки (мили на галлон):

Рисунок 6. График рабочего объема в кубических сантиметрах в зависимости от миль на галлон показывает отрицательную линейную зависимость.

Рисунок 6 . Объем автомобиля в кубических сантиметрах и его рейтинг в милях на галлон. По мере того, как двигатель автомобиля становится больше, его пробег в милях на галлон обычно уменьшается.

Рисунок 7. График ускорения от нуля до шестидесяти секунд в зависимости от миль на галлон, демонстрирующий положительную линейную зависимость.

Рисунок 7 . Ускорение автомобиля и его рейтинг в милях на галлон. Поскольку разгон автомобиля занимает больше времени, рейтинг миль на галлон обычно увеличивается.

Рисунок 8. График зависимости мощности в лошадиных силах от миль на галлон, демонстрирующий отрицательную линейную зависимость.

Рисунок 8 . Мощность автомобиля и его пробег в милях на галлон. По мере увеличения мощности автомобиля рейтинг миль на галлон обычно уменьшается.

Упражнение: Проверьте свое понимание.

Какие части уравнения линейной регрессии обновляются во время обучения?
Предвзятость и вес
Во время обучения модель обновляет смещение и веса на основе потерь.
Прогноз
Прогнозы не обновляются во время обучения.
Значения функции
Значения объектов являются частью набора данных, поэтому они не обновляются во время обучения.