Линейная регрессия: потеря

Функция потерь — это числовая метрика, описывающая, насколько неверны предсказания модели. Функция потерь измеряет расстояние между предсказаниями модели и фактическими метками. Цель обучения модели — минимизировать функцию потерь, сводя её к минимально возможному значению.

На следующем изображении вы можете визуализировать потери в виде стрелок, проведенных от точек данных к модели. Стрелки показывают, насколько предсказания модели отличаются от фактических значений.

Рисунок 8. Линии потерь соединяют точки данных с моделью.

Figure 8 . Loss is measured from the actual value to the predicted value.

Расстояние потери

In statistics and machine learning, loss measures the difference between the predicted and actual values. Loss focuses on the distance between the values, not the direction. For example, if a model predicts 2, but the actual value is 5, we don't care that the loss is negative (2 – 5= –3). Instead, we care that the distance between the values is 3. Thus, all methods for calculating loss remove the sign.

Наиболее распространенные способы снятия вывески следующие:

  • Возьмите абсолютное значение разницы между фактическим значением и прогнозом.
  • Возведите в квадрат разницу между фактическим значением и прогнозом.

Виды убытков

В линейной регрессии существует пять основных типов потерь, которые описаны в следующей таблице.

тип убытка Определение Уравнение
L 1 loss Сумма абсолютных значений разницы между прогнозируемыми и фактическими значениями. $ ∑ | фактическое значение - прогнозируемое значение | $
Средняя абсолютная ошибка (MAE) The average of L 1 losses across a set of N examples. $ \frac{1}{N} ∑ | фактическое значение - прогнозируемое значение | $
L 2 loss Сумма квадратов разностей между прогнозируемыми и фактическими значениями. $ ∑(фактическое значение - прогнозируемое значение)^2 $
Среднеквадратичная ошибка (MSE) The average of L 2 losses across a set of N examples. $ \frac{1}{N} ∑ (фактическое значение - прогнозируемое значение)^2 $
Среднеквадратичная ошибка (RMSE) Квадратный корень из среднеквадратичной ошибки (MSE). $ \sqrt{\frac{1}{N} ∑ (фактическое значение - прогнозируемое значение)^2} $

Функциональное различие между функцией потерь L1 и функцией потерь L2 (или между MAE/RMSE и MSE) заключается в возведении в квадрат. Когда разница между предсказанием и меткой велика, возведение в квадрат еще больше увеличивает функцию потерь. Когда разница мала (меньше 1), возведение в квадрат еще меньше уменьшает функцию потерь.

Loss metrics like MAE and RMSE may be preferable to L 2 loss or MSE in some use cases because they tend to be more human-interpretable, as they measure error using the same scale as the model's predicted value.

При обработке нескольких примеров одновременно рекомендуется усреднять значения потерь по всем примерам, используя MAE, MSE или RMSE.

Пример расчета убытков

В предыдущем разделе мы создали следующую модель для прогнозирования топливной эффективности в зависимости от веса автомобиля:

  • Модель: $ y' = 34 + (-4,6)(x_1) $
    • Вес: –4,6 $
    • Предвзятость: 34 доллара

If the model predicts that a 2,370-pound car gets 23.1 miles per gallon, but it actually gets 24 miles per gallon, we would calculate the L 2 loss as follows:

Ценить Уравнение Результат
Прогноз

$\small{bias + (weight * feature\ value)}$

$\small{34 + (-4.6*2.37)}$

$\small{23.1}$
Фактическая стоимость $ \small{ label } $ $ \small{ 24 } $
L 2 loss

$ \small{ (фактическое значение - прогнозируемое значение)^2 } $

$\small{ (24 - 23.1)^2 }$

$\small{0.81}$

In this example, the L 2 loss for that single data point is 0.81.

Выбор проигрыша

Deciding whether to use MAE or MSE can depend on the dataset and the way you want to handle certain predictions. Most feature values in a dataset typically fall within a distinct range. For example, cars are normally between 2000 and 5000 pounds and get between 8 to 50 miles per gallon. An 8,000-pound car, or a car that gets 100 miles per gallon, is outside the typical range and would be considered an outlier .

Выброс также может означать, насколько сильно прогнозы модели отличаются от реальных значений. Например, 3000 фунтов находятся в пределах типичного диапазона веса автомобиля, а 40 миль на галлон — в пределах типичного диапазона топливной экономичности. Однако автомобиль весом 3000 фунтов, расходующий 40 миль на галлон, будет выбросом с точки зрения прогноза модели, поскольку модель предскажет, что автомобиль весом 3000 фунтов будет расходовать около 20 миль на галлон.

When choosing the best loss function, consider how you want the model to treat outliers. For instance, MSE moves the model more toward the outliers, while MAE doesn't. L 2 loss incurs a much higher penalty for an outlier than L 1 loss. For example, the following images show a model trained using MAE and a model trained using MSE. The red line represents a fully trained model that will be used to make predictions. The outliers are closer to the model trained with MSE than to the model trained with MAE.

Рисунок 9. Модель в большей степени ориентирована на выбросы.

Figure 9 . MSE loss moves the model closer to the outliers.

Рисунок 10. Модель наклонена дальше от выбросов.

Figure 10 . MAE loss keeps the model farther from the outliers.

Обратите внимание на взаимосвязь между моделью и данными:

  • Среднеквадратичная ошибка (MSE) . Модель ближе к выбросам, но дальше от большинства других точек данных.

  • MAE . The model is further away from the outliers but closer to most of the other data points.

Проверьте свои знания

Рассмотрим следующие два графика линейной модели, построенной на основе набора данных:

График, построенный на основе 10 точек. Через 6 из этих точек проходит прямая. 2 точки находятся на 1 единицу выше прямой; 2 другие точки находятся на 1 единицу ниже прямой.График, состоящий из 10 точек. Прямая проходит через 8 из этих точек. 1 точка находится на 2 единицы выше линии; 1 другая точка находится на 2 единицы ниже линии.
Which of the two linear models shown in the preceding plots has the higher Mean Squared Error (MSE) when evaluated on the plotted data points?
Модель слева.
Шесть примеров на линии приводят к общей потере 0. Четыре примера вне линии находятся не очень далеко от нее, поэтому даже возведение их смещения в квадрат дает низкое значение: $MSE = \frac{0^2 + 1^2 + 0^2 + 1^2 + 0^2 + 1^2 + 0^2 + 1^2 + 0^2 + 0^2} {10} = 0,4$
Модель справа.
The eight examples on the line incur a total loss of 0. However, although only two points lay off the line, both of those points are twice as far off the line as the outlier points in the left figure. Squared loss amplifies those differences, so an offset of two incurs a loss four times as great as an offset of one: $MSE = \frac{0^2 + 0^2 + 0^2 + 2^2 + 0^2 + 0^2 + 0^2 + 2^2 + 0^2 + 0^2} {10} = 0.8$