检查您的理解情况:生产环境中的机器学习

无法在 Colab 中演示流水线测试指南。以下练习有助于遵循相应准则。下一页介绍了实施指南时所需参考的资源。

对于以下问题,请点击您选择的答案以展开并查看答案。

启动独角兽外观预测器后,您必须根据新数据重新训练,让预测器保持最新状态。由于要收集太多新数据以用于训练,您决定通过在一段时间内对新数据进行采样来限制训练数据。还需要考虑独角兽出现时的每日和每年模式。此外,发布新模型版本的最快方法是每三个月发布一次。您选择哪个时间段?
一天,因为窗口越大,产生的数据就越多,模型训练时间也就越长。
错误。您可以调整数据采样率以限制数据集的大小。由于您只能每三个月更新一次模型,使用一天的数据训练过的模型会逐渐过时。
一周,这样您的数据集就不会太大,但仍然可以清理平滑模式。
错误。您可以调整数据采样率以限制数据集的大小。由于您只能每 3 个月更新一次模型,因此使用一周数据训练过的模型会逐渐过时。
一年,以确保您的模型不会受每日或每年模式的影响。
正确!您应该选择一个有代表性的数据集,以便模型学习在所有场景中进行预测。
启动 独角兽外观预测器。效果不错!您外出度假并在 3 周后回来,发现您的模型质量明显下降。假设独角兽的行为不太可能在三周内发生显著变化。以下哪一项最有可能导致图片质量下降?
训练-应用偏差。
正确。虽然独角兽的行为可能没有发生变化,但收集训练数据后,底层数据报告或数据格式可能发生了变化。根据训练数据的数据架构检查应用数据,以检测潜在的训练-应用偏差。
您忘记在固定阈值下测试模型质量。
错误。测试模型质量有助于发现质量下降,但不会解释为何出现这种下降。
您的模型已过时。
不正确,假设您的训练数据涵盖了独角兽行为的所有循环(如上一个问题中所述)。
您明智地决定监控南极洲的预测结果,因为您缺少足够的训练数据。您的预测质量每次都会神奇地下降几天,尤其是在冬季。原因可能是什么?
环境因素。
正确。您发现南极风暴与预测质量下降有关。在这些风暴期间,独角兽的行为会发生变化。此外,在南极风暴期间收集数据是不可能的,这意味着您的模型无法针对这样的条件进行训练。
您的模型会过时。
错误。如果原因正确,那么质量会在模型过时时持续下降,而不是只在几天内下降。
无需任何理由。机器学习模型具有固有的随机性。
错误。如果模型质量波动,则应调查原因。尝试消除模型训练中的随机性以提高可再现性。
你的独角兽外观预测器已经运行了一年。您修复了很多问题,质量现在很高。不过,您注意到了一个小而持久的问题。城市区域的模型质量略有降低。原因可能是什么?
高质量的预测会让用户轻松找到独角兽,这会影响独角兽的外观行为。
正确。独角兽通过改变其在城市中的行为来应对越来越多的注意力。随着模型的预测结果适应不断变化的行为,独角兽会继续改变其行为。这种情况下,模型的行为会影响训练数据本身的情况称为反馈环。 您应尝试修改训练-应用偏差检测功能,以检测与独角兽行为变化相对应的服务数据变化。
系统会在人口密集的地区多次报告独角兽的出现,这会令训练数据出现偏差。
错误。这可能不是原因,因为这种偏差应该会降低应用的发布质量。
城市区域很难建模。
错误。如果模型在城市区域无法预测,从一开始选择模型时质量将很低,而不是在发布后会偏低。