Лінійна регресія

У цьому модулі ви ознайомитеся з поняттями лінійної регресії.

Лінійна регресія – це статистичний метод, який використовується для пошуку взаємозв’язку між змінними. У контексті машинного навчання лінійна регресія знаходить зв’язок між ознаками й міткою.

Припустімо, що ми хочемо передбачити витрати палива в милях на галон для автомобілів, виходячи з того, наскільки вони важкі, і маємо такий набір даних:

Фунти в тисячах (ознака) Милі на галон (мітка)
3,5 18
3,69 15
3,44 18
3,43 16
4,34 15
4,42 14
2,37 24

Ось що ми отримаємо, якщо побудуємо графік із точками на основі цих даних:

Рисунок 1. Точки даних показують тренд, що спадає зліва направо.

Рисунок 1. Вага автомобіля (у фунтах), як порівняти з показником витрати палива в милях на галон. Коли автомобіль стає важчим, його показник витрати палива в милях на галон зазвичай зменшується.

Можна створити власну модель, провівши лінію найкращої відповідності між точками.

Рисунок 2. Точки даних із проведеною через них лінією найкращої відповідності, яка зображає модель.

Рисунок 2. Лінія найкращої відповідності, проведена через дані з попереднього рисунка.

Рівняння лінійної регресії

Модель, виражена алгебраїчним рівнянням, буде такою: $ y = mx + b $, де:

  • $ y $ – милі на галон (це величина, яку потрібно спрогнозувати);
  • $ m $ – нахил лінії;
  • $ x $ – фунт (наше вхідне значення);
  • $ b $ – точка перетину з віссю "y".

У машинному навчанні рівняння моделі лінійної регресії записуються так:

$$ y' = b + w_1x_1 $$

Визначення змінних:

  • $ y' $ – прогнозна мітка (вихідні дані);
  • $ b $ – упередженість моделі (упередженість – це те саме поняття, що й точка перетину з віссю "y" в алгебраїчному рівнянні для прямої; у машинному навчанні упередженість іноді позначають як $ w_0 $; це параметр моделі, що обчислюється під час навчання);
  • $ w_1 $ – вага ознаки (вага – це те саме поняття, що й нахил $ m $ в алгебраїчному рівнянні для прямої; це параметр моделі, що обчислюється під час навчання);
  • $ x_1 $ – це ознака (вхідні дані).

Під час навчання розраховуються значення ваги й упередженості, що будуть найкращими для моделі.

Рисунок 3. Рівняння y' = b + w1x1, у якому для кожного складника вказано його призначення.

Рисунок 3. Математичне представлення лінійної моделі.

У цьому прикладі ми обчислимо значення ваги й упередженості на основі проведеної лінії. Показник упередженості дорівнює 30 (у точці перетину лінії з віссю "y"), а вага становить –3,6 (кут нахилу лінії). Модель матиме вигляд y' = 30 + (–3,6)(x_1), і на її основі можна буде робити прогнози. Наприклад, згідно із цією моделлю, автомобіль вагою 4000 фунтів матиме прогнозну витрату палива 15,6 милі на галон.

Рисунок 4. Той самий графік, що й на рисунку 2, з виділеною точкою з координатами (4, 15,6).

Рисунок 4. Згідно із цією моделлю, автомобіль вагою 4000 фунтів матиме прогнозну витрату палива 15,6 милі на галон.

Моделі з кількома ознаками

У прикладі, наведеному в цьому розділі, використовується лише одна ознака – вага автомобіля. Проте складніша модель може покладатися на декілька ознак, кожна з яких має окрему вагу ($ w_1 $, $ w_2 $ тощо). Наприклад, модель, яка спирається на п’ять ознак, матиме такий вигляд:

$ y' = b + w_1x_1 + w_2x_2 + w_3x_3 + w_4x_4 + w_5x_5 $

Наприклад, модель, яка прогнозує витрати палива, може додатково використовувати такі ознаки:

  • Робочий об’єм двигуна
  • Прискорення
  • Кількість циліндрів
  • Кінські сили

Модель матиме такий вигляд:

Рисунок 5. Рівняння лінійної регресії з п’ятьма ознаками.

Рисунок 5. Модель із п’ятьма ознаками, що прогнозує витрати палива в милях на галон.

Якщо побудувати графік із точками, які відповідають деяким додатковим ознакам, видно, що вони також мають лінійну залежність від мітки "милі на галон":

Рисунок 6. На графіку видно, що, як порівняти зі значеннями в милях на галон, робочий об’єм у кубічних сантиметрах має негативну лінійну залежність.

Рисунок 6. Робочий об’єм автомобіля в кубічних сантиметрах і його витрата палива в милях на галон. Зазвичай що більше двигун автомобіля, то менша його витрата палива в милях на галон.

Рисунок 7. На графіку видно, що, як порівняти зі значеннями в милях на галон, прискорення від нуля до шістдесяти в секундах має позитивну лінійну залежність.

Рисунок 7. Прискорення автомобіля і його витрата палива в милях на галон. Зазвичай що довше автомобіль розганяється, то більша його витрата палива в милях на галон.

Рисунок 8. На графіку видно, що, як порівняти зі значеннями в милях на галон, кінські сили мають негативну лінійну залежність.

Рисунок 8. Кінські сили автомобіля і його витрата палива в милях на галон. Як правило, що більше кінських сил має автомобіль, то менша його витрата палива в милях на галон.

Вправа. Перевірте свої знання

Які частини рівняння лінійної регресії оновлюються під час навчання?
Значення ваги й упередженості
Під час навчання модель оновлює значення ваги й упередженості на основі втрат.
Прогноз
Прогнози не оновлюються під час навчання.
Значення ознак
Значення ознак є частиною набору даних, тому вони не оновлюються під час навчання.