Линейная регрессия: упражнение градиентного спуска

В этом упражнении вы вернетесь к графику данных о топливной эффективности из упражнения «Параметры» . Но на этот раз вы будете использовать градиентный спуск, чтобы узнать оптимальные значения веса и смещения для линейной модели, которая минимизирует потери.

Выполните три задания под графиком.

Задача № 1: Отрегулируйте ползунок «Скорость обучения» под графиком, чтобы установить скорость обучения 0,03. Нажмите кнопку «Пуск» , чтобы запустить градиентный спуск.

Сколько времени требуется обучению модели для сходимости (достижения стабильного минимального значения потерь)? Каково значение MSE при сходимости модели? Какие значения веса и смещения создают это значение?

Когда мы установили скорость обучения 0,03, модель сходилась примерно через 30 секунд, достигнув MSE чуть менее 3 со значениями веса и смещения –2,08 и 23,098 соответственно. Это означает, что мы выбрали хорошее значение скорости обучения.

Задача № 2. Нажмите кнопку «Сброс» под графиком, чтобы сбросить значения веса и смещения на графике. Отрегулируйте ползунок «Скорость обучения» до значения около 1,10e –5 . Нажмите кнопку «Пуск» , чтобы запустить градиентный спуск.

Что вы заметили в том, сколько времени потребуется обучению модели на этот раз?

Спустя несколько минут обучение модели все еще не сходилось. Небольшие обновления значений веса и смещения по-прежнему приводят к несколько более низким значениям потерь. Это говорит о том, что выбор более высокой скорости обучения позволит градиентному спуску быстрее находить оптимальные значения веса и смещения.

Задача № 3. Нажмите кнопку «Сброс» под графиком, чтобы сбросить значения веса и смещения на графике. Установите ползунок «Скорость обучения» до значения 1. Нажмите кнопку «Пуск», чтобы запустить градиентный спуск.

Что происходит со значениями потерь при выполнении градиентного спуска? Сколько времени потребуется обучению моделей, чтобы на этот раз сойтись?

Значения потерь сильно колеблются при высоких значениях (MSE более 300). Это указывает на то, что скорость обучения слишком высока и обучение модели никогда не достигнет сходимости.