Проверьте свое понимание: машинное обучение в производстве

Рекомендации по тестированию конвейера не могут быть продемонстрированы в Colab. Вместо этого следующие упражнения помогут практиковать рекомендации. На следующей странице описаны ресурсы для реализации рекомендаций.

Для следующих вопросов нажмите на свой выбор, чтобы развернуть и проверить свой ответ.

После запуска предсказателя появления единорога вы должны поддерживать его в актуальном состоянии, переобучив его на новых данных. Поскольку вы собираете слишком много новых данных для обучения, вы решаете ограничить обучающие данные, выбирая новые данные в течение определенного периода времени. Вам также необходимо учитывать ежедневные и годовые закономерности появления единорогов. И максимально быстро вы можете запускать новые версии моделей каждые три месяца. Какое временное окно вы выбираете?
Однажды, потому что большее окно приведет к большому количеству данных, и обучение вашей модели займет слишком много времени.
Неправильно. Вы можете настроить частоту выборки данных, чтобы ограничить размер набора данных. Учитывая, что вы можете обновлять свою модель только каждые три месяца, модель, обученная на данных за день, постепенно устаревает.
Одна неделя, чтобы ваш набор данных был не слишком большим, но вы все равно могли сглаживать закономерности.
Неправильно. Вы можете настроить частоту выборки данных, чтобы ограничить размер набора данных. Учитывая, что вы можете обновлять свою модель только каждые три месяца, модель, обученная на данных за неделю, постепенно устаревает.
Один год, чтобы убедиться, что ваша модель не подвержена смещению из-за ежедневных или годовых моделей.
Правильный! Вы должны выбрать репрезентативный набор данных, чтобы ваша модель научилась прогнозировать во всех сценариях.
Вы запускаете предсказатель внешности единорога. Это работает хорошо! Вы уезжаете в отпуск и возвращаетесь через три недели и обнаруживаете, что качество вашей модели значительно упало. Предположим, что поведение единорога вряд ли существенно изменится за три недели. Какова наиболее вероятная причина снижения качества?
Учебно-служебный перекос.
Правильный. Хотя поведение единорога, вероятно, не изменилось, возможно, основные отчеты о данных или форматирование данных изменились в данных обслуживания после сбора обучающих данных. Обнаружьте потенциальную асимметрию обслуживания обучения, сравнив данные обслуживания со схемой данных обучающих данных.
Вы забыли проверить качество модели на соответствие фиксированному порогу.
Неправильно. Тестирование качества модели помогло бы обнаружить снижение качества, но не объяснило бы, почему это снижение произошло.
Ваша модель устарела.
Неверно, если предположить, что ваши обучающие данные охватывают все циклы поведения единорога, как обсуждалось в предыдущем вопросе.
Вы мудро решили отслеживать прогнозы для Антарктиды, потому что у вас нет достаточного количества обучающих данных. Качество вашего прогноза таинственным образом падает на несколько дней, особенно зимой. Что может быть причиной?
Экологический фактор.
Правильный. Вы обнаруживаете, что штормы в Антарктиде коррелируют со снижением качества вашего прогноза. Во время этих бурь поведение единорогов меняется. Кроме того, сбор данных во время штормов в Антарктиде невозможен, а значит, ваша модель не может обучаться для таких условий.
Ваша модель устарела.
Неправильно. Если бы эта причина была верной, то качество падало бы постоянно по мере устаревания вашей модели, а не только на несколько дней.
Причина не нужна. Модели машинного обучения обладают присущей им случайностью.
Неправильно. Если качество вашей модели колеблется, вы должны выяснить причину. Постарайтесь устранить случайность в обучении модели, чтобы повысить воспроизводимость.
Ваш предсказатель внешности единорога работает уже год. Вы исправили много проблем, и теперь качество высокое. Однако вы замечаете небольшую, но постоянную проблему. Качество вашей модели немного снизилось в городских районах. Что может быть причиной?
Высокое качество ваших прогнозов позволяет пользователям легко находить единорогов, что влияет на само поведение единорогов.
Правильный. Единороги отреагировали на повышенное внимание, изменив свое поведение в городских районах. По мере того как прогнозы вашей модели адаптируются к меняющемуся поведению, единороги продолжают менять свое поведение. Такая ситуация, когда поведение вашей модели влияет на сами обучающие данные, называется циклом обратной связи. Вам следует попробовать изменить обнаружение перекоса при обучении, чтобы обнаруживать изменения в данных обслуживания, которые соответствуют изменениям в поведении единорога.
О появлениях единорогов сообщают несколько раз в густонаселенных районах, что искажает данные обучения.
Неправильно. Это, вероятно, не причина, потому что этот перекос должен был снизить ваше качество с момента запуска.
Городские районы трудно моделировать.
Неправильно. Если бы у вашей модели были проблемы с прогнозированием в городских районах, качество было бы низким с самого начала, а не снижалось после запуска.