Этот модуль знакомит с концепциями линейной регрессии .
Линейная регрессия — это статистический метод, используемый для поиска взаимосвязи между переменными. В контексте машинного обучения линейная регрессия находит связь между функциями и меткой .
Например, предположим, что мы хотим спрогнозировать топливную экономичность автомобиля в милях на галлон на основе веса автомобиля, и у нас есть следующий набор данных:
Фунты в тысячах (особенность) | Миль на галлон (этикетка) |
---|---|
3,5 | 18 |
3,69 | 15 |
3.44 | 18 |
3.43 | 16 |
4.34 | 15 |
4.42 | 14 |
2.37 | 24 |
Если бы мы нанесли эти точки на график, мы получили бы следующий график:
Рисунок 1 . Вес автомобиля (в фунтах) в зависимости от оценки в милях на галлон. По мере того, как автомобиль становится тяжелее, его рейтинг в милях на галлон обычно уменьшается.
Мы могли бы создать свою собственную модель, проведя линию наилучшего соответствия через точки:
Рисунок 2 . Линия наилучшего соответствия, проведенная на основе данных предыдущего рисунка.
Уравнение линейной регрессии
В алгебраических терминах модель будет определяться как $y = mx + b$, где
- $ y $ — это мили на галлон — значение, которое мы хотим спрогнозировать.
- $m$ – наклон линии.
- $ x $ — это фунты — наше входное значение.
- $b$ — это точка пересечения с осью y.
В ML мы пишем уравнение для модели линейной регрессии следующим образом:
где:
- $y'$ — это предсказанная метка — результат.
- $b$ — смещение модели. Смещение — это то же понятие, что и точка пересечения оси y в алгебраическом уравнении прямой. В ML смещение иногда называют $w_0$. Смещение является параметром модели и рассчитывается во время обучения.
- $w_1$ — вес функции. Вес – это то же понятие, что и наклон $m$ в алгебраическом уравнении прямой. Вес является параметром модели и рассчитывается во время обучения.
- $x_1$ — это функция — вход.
Во время обучения модель вычисляет вес и смещение, которые создают лучшую модель.
Рисунок 3 . Математическое представление линейной модели.
В нашем примере мы бы вычислили вес и смещение по нарисованной линии. Смещение равно 30 (где линия пересекает ось Y), а вес равен -3,6 (наклон линии). Модель будет определена как $y' = 30 + (-3,6)(x_1)$, и мы сможем использовать ее для прогнозирования. Например, при использовании этой модели прогнозируемая топливная экономичность автомобиля массой 4000 фунтов составит 15,6 миль на галлон.
Рисунок 4 . Используя модель, автомобиль весом 4000 фунтов имеет прогнозируемую топливную экономичность 15,6 миль на галлон.
Модели с множеством функций
Хотя в примере в этом разделе используется только один признак — вес автомобиля, более сложная модель может опираться на несколько признаков, каждый из которых имеет отдельный вес ($w_1$, $w_2$ и т. д.). Например, модель, основанная на пяти функциях, будет записана следующим образом:
$ y' = b + w_1x_1 + w_2x_2 + w_3x_3 + w_4x_4 + w_5x_5 $
Например, модель, прогнозирующая расход бензина, может дополнительно использовать такие функции, как следующие:
- Объем двигателя
- Ускорение
- Количество цилиндров
- Лошадиные силы
Эта модель будет записана следующим образом:
Рисунок 5 . Модель с пятью функциями для прогнозирования пробега автомобиля в милях на галлон.
Изобразив некоторые из этих дополнительных характеристик, мы видим, что они также имеют линейную зависимость от метки (мили на галлон):
Рисунок 6 . Объем автомобиля в кубических сантиметрах и его рейтинг в милях на галлон. По мере того, как двигатель автомобиля становится больше, его пробег в милях на галлон обычно уменьшается.
Рисунок 7 . Ускорение автомобиля и его рейтинг в милях на галлон. Поскольку разгон автомобиля занимает больше времени, рейтинг миль на галлон обычно увеличивается.
Рисунок 8 . Мощность автомобиля и его пробег в милях на галлон. По мере увеличения мощности автомобиля рейтинг миль на галлон обычно уменьшается.