Эта страница переведена с помощью Cloud Translation API. Справедливость: проверьте свои знания Вернуться к курсу Правда или ложь: историческое смещение возникает, когда модель обучается на старых данных. Истинный ЛОЖЬ Инженеры обучают регрессионную модель прогнозированию калорийности блюд на основе различных данных, которые они собрали с веб-сайтов рецептов по всему миру, включая размер порции, ингредиенты и методы приготовления. Какие из следующих проблем с данными являются потенциальными источниками систематической ошибки, которые следует изучить дополнительно? Выбирайте столько ответов, сколько считаете нужным. Примерно в 4000 из 40 000 обучающих примеров отсутствовало значение функции «размер порции». Примерно 5000 обучающих примеров имели измерения в британских единицах измерения (унции, фунты и т. д.), тогда как остальные 35 000 примеров имели измерения в метрических единицах (граммы, литры и т. д.). Примерно в 100 из 40 000 обучающих примеров значения ингредиентов, скорее всего, были неправильными (например, 100 палочек сливочного масла). Некоторые популярные блюда были недостаточно представлены в обучающих данных по сравнению с другими популярными блюдами (например, для доса было 200 обучающих примеров, а для пиццы — только 10). Модель обнаружения сарказма была обучена на 80 000 текстовых сообщениях: 40 000 сообщений, отправленных взрослыми (18 лет и старше), и 40 000 сообщений, отправленных несовершеннолетними (младше 18 лет). Затем модель была оценена на тестовом наборе из 20 000 сообщений: 10 000 от взрослых и 10 000 от несовершеннолетних. Следующие матрицы путаницы показывают результаты для каждой группы (положительный прогноз означает классификацию «саркастических»; отрицательный прогноз означает классификацию «не саркастичных»): Взрослые Истинные положительные результаты (TP): 512 Ложные срабатывания (FP): 51 Ложноотрицательных результатов (ЛН): 36 Истинно отрицательные результаты (TN): 9401 Точность = TP/(TP + FP) = 0,909 Напомним = TP/(TP + FN) = 0,934 Несовершеннолетние Истинные положительные результаты (TP): 2147 Ложные срабатывания (FP): 96 Ложноотрицательных результатов (FN): 2177. Истинно отрицательные результаты (TN): 5580 Точность = TP/(TP + FP) = 0,957 Напомним = TP/(TP + FN) = 0,497 Какие из следующих утверждений о производительности модели на тестовом наборе верны? Выбирайте столько ответов, сколько считаете нужным. Модель лучше работает на примерах взрослых, чем на примерах несовершеннолетних. 10 000 сообщений, отправленных взрослыми, представляют собой набор данных, несбалансированный по классам. 10 000 сообщений, отправленных несовершеннолетними, представляют собой набор данных с несбалансированным классом. Примерно 50% сообщений, отправленных несовершеннолетними, ошибочно классифицируются как «саркастические». Модель не может классифицировать примерно 50% саркастических сообщений несовершеннолетних как «саркастические». Какая из следующих гипотез могла бы объяснить расхождения в результатах подгрупп на тестовом наборе для модели обнаружения сарказма, описанной выше? Выбирайте столько ответов, сколько считаете нужным. Модель слишком сильно ошибается в предсказании «саркастичности». В результате он допускает больше ошибок при классификации текстовых сообщений несовершеннолетних, поскольку в тестовом наборе больше саркастических сообщений от несовершеннолетних. Модель оценивалась на более негативных (не саркастических) примерах несовершеннолетних, чем взрослых, что привело к большему количеству ошибок у несовершеннолетних. Сарказм в текстовых сообщениях несовершеннолетних был более тонким и, следовательно, с меньшей вероятностью был отмечен моделью. Реальных саркастических сообщений от взрослых гораздо меньше, чем от несовершеннолетних. Если бы модель оценивалась на более сбалансированном по классу наборе сообщений для взрослых, ее запоминаемость для этой подгруппы могла бы упасть. Инженеры работают над переобучением приведенной выше модели сарказма, чтобы устранить несоответствия в точности обнаружения сарказма в разных возрастных группах, но модель уже запущена в производство. Какая из следующих временных стратегий поможет уменьшить ошибки в прогнозах модели? Ограничьте использование модели текстовыми сообщениями, отправленными несовершеннолетними. Настройте выходные данные модели так, чтобы она возвращала «саркастические» сообщения для всех текстовых сообщений, отправленных несовершеннолетними, независимо от того, что изначально предсказывала модель. Если модель прогнозирует «не саркастично» для текстовых сообщений, отправленных несовершеннолетними, настройте выходные данные так, чтобы модель вместо этого возвращала значение «не уверен». Отправить ответы error_outline При определении оценки по тесту произошла ошибка. Повторите попытку.