Линейная регрессия: потеря

Потери — это числовая метрика, которая описывает, насколько ошибочны прогнозы модели. Потери измеряют расстояние между предсказаниями модели и фактическими метками. Цель обучения модели — минимизировать потери, уменьшив их до минимально возможного значения.

На следующем изображении вы можете визуализировать потери в виде стрелок, проведенных от точек данных к модели. Стрелки показывают, насколько далеки прогнозы модели от фактических значений.

Рисунок 9. Линии потерь соединяют точки данных с моделью.

Рисунок 9 . Убыток измеряется от фактического значения до прогнозируемого значения.

Расстояние потери

В статистике и машинном обучении потери измеряют разницу между прогнозируемыми и фактическими значениями. Потеря фокусируется на расстоянии между значениями, а не на направлении. Например, если модель предсказывает 2, но фактическое значение равно 5, нас не волнует, что потеря будет отрицательной -3$ (2-5$=-3$). Вместо этого мы заботимся о том, чтобы расстояние между значениями составляло $3$. Таким образом, все методы расчета убытка снимают знак.

Два наиболее распространенных метода удаления знака:

  • Возьмите абсолютное значение разницы между фактическим значением и прогнозом.
  • Возведите в квадрат разницу между фактическим значением и прогнозом.

Виды потерь

В линейной регрессии существует четыре основных типа потерь, которые представлены в следующей таблице.

Тип потери Определение Уравнение
L 1 потеря Сумма абсолютных значений разницы между прогнозируемыми значениями и фактическими значениями. $ ∑ | фактическое\ значение - прогнозируемое\ значение | $
Средняя абсолютная ошибка (MAE) Среднее значение потерь L 1 по набору примеров. $ \frac{1}{N} ∑ | фактическое\ значение - прогнозируемое\ значение | $
L 2 потеря Сумма квадратов разницы между прогнозируемыми значениями и фактическими значениями. $ ∑(фактическое\ значение - прогнозируемое\ значение)^2 $
Среднеквадратическая ошибка (MSE) Среднее значение потерь L 2 по набору примеров. $ \frac{1}{N} ∑ (фактическое\ значение - прогнозируемое\ значение)^2 $

Функциональная разница между потерей L 1 и потерей L 2 (или между MAE и MSE) возводится в квадрат. Когда разница между прогнозом и меткой велика, возведение в квадрат делает потерю еще больше. Когда разница мала (менее 1), возведение в квадрат делает потерю еще меньше.

При одновременной обработке нескольких примеров мы рекомендуем усреднять потери по всем примерам, независимо от того, используете ли вы MAE или MSE.

Пример расчета потерь

Используя предыдущую линию наилучшего соответствия , мы рассчитаем потерю L 2 для одного примера. Из линии наилучшего соответствия мы получили следующие значения веса и смещения:

  • $ \small{Вес: -3,6} $
  • $ \small{Смещение: 30} $

Если модель предсказывает, что автомобиль массой 2370 фунтов проедет 21,5 миль на галлон, но на самом деле он проезжает 24 мили на галлон, мы рассчитаем потерю L 2 следующим образом:

Ценить Уравнение Результат
Прогноз

$\small{смещение + (вес * признак\ значение)}$

$\small{30 + (-3,6*2,37)}$

$\маленький{21,5}$
Фактическая стоимость $ \small{ метка } $ $ \small{ 24 } $
L 2 потеря

$ \small{ (прогноз - фактическое\ значение)^2} $

$\small{ (21,5 - 24)^2 }$

$\маленький{6.25}$

В этом примере потеря L 2 для этой единственной точки данных равна 6,25.

Выбор потери

Решение о том, использовать ли MAE или MSE, может зависеть от набора данных и способа обработки определенных прогнозов. Большинство значений объектов в наборе данных обычно попадают в определенный диапазон. Например, автомобили обычно весят от 2000 до 5000 фунтов и проезжают от 8 до 50 миль на галлон. Автомобиль массой 8000 фунтов или автомобиль, который проезжает 100 миль на галлон, находится за пределами типичного диапазона и будет считаться выбросом .

Выброс также может указывать на то, насколько далеки прогнозы модели от реальных значений. Например, автомобиль весом 3000 фунтов или автомобиль, который проезжает 40 миль на галлон, находятся в пределах типичных диапазонов. Однако автомобиль массой 3000 фунтов, который проезжает 40 миль на галлон, будет исключением с точки зрения прогноза модели, поскольку модель предсказывает, что автомобиль весом 3000 фунтов проедет от 18 до 20 миль на галлон.

Выбирая лучшую функцию потерь, подумайте, как вы хотите, чтобы модель обрабатывала выбросы. Например, MSE приближает модель к выбросам, а MAE — нет. Потеря L 2 влечет за собой гораздо более высокий штраф за выброс, чем потеря L 1 . Например, на следующих изображениях показаны модель, обученная с помощью MAE, и модель, обученная с помощью MSE. Красная линия представляет полностью обученную модель, которая будет использоваться для прогнозирования. Выбросы ближе к модели, обученной с помощью MSE, чем к модели, обученной с помощью MAE.

Рисунок 10. Модель больше наклонена к выбросам.

Рисунок 10 . Модель, обученная с помощью MSE, приближает модель к выбросам.

Рисунок 11. Модель наклонена дальше от выбросов.

Рисунок 11 . Модель, обученная с помощью MAE, находится дальше от выбросов.

Обратите внимание на связь между моделью и данными:

  • МСЭ . Модель ближе к выбросам, но дальше от большинства других точек данных.

  • МАЭ . Модель находится дальше от выбросов, но ближе к большинству других точек данных.

Проверьте свое понимание

Рассмотрим следующие два графика:

Сюжет на 10 баллов.       Линия проходит через 6 точек. 2 точки – это 1 единица выше линии; Еще 2 точки находятся на 1 единицу ниже линии.Сюжет на 10 баллов. Линия проходит через 8 точек. 1 балл – это 2 единицы выше линии; Еще одна точка находится на 2 единицы ниже линии.
Какой из двух наборов данных, показанных на предыдущих графиках, имеет более высокую среднеквадратическую ошибку (MSE)?
Набор данных слева.
Шесть примеров в строке приводят к общей потере 0. Четыре примера, не находящиеся в строке, не очень далеко от линии, поэтому даже возведение их смещения в квадрат все равно дает низкое значение: $MSE = \frac{0^2 + 1 ^2 + 0^2 + 1^2 + 0^2 + 1^2 + 0^2 + 1^2 + 0^2 + 0^2} {10} = 0,4$
Набор данных справа.
Восемь примеров на линии приводят к общей потере 0. Однако, хотя только две точки находятся за пределами линии, обе эти точки находятся в два раза дальше от линии, чем точки-выбросы на левом рисунке. Квадратные потери усиливают эти различия, поэтому смещение, равное двум, приводит к потерям в четыре раза больше, чем смещение, равное единице: $MSE = \frac{0^2 + 0^2 + 0^2 + 2^2 + 0^2 + 0^2 + 0^2 + 2^2 + 0^2 + 0^2} {10} = 0,8$