检查您的理解情况：生产环境中的机器学习

无法在 Colab 中演示流水线测试指南。以下练习有助于遵循相应准则。下一页介绍了实施指南时所需参考的资源。

对于以下问题，请点击您选择的答案以展开并查看答案。

启动独角兽外观预测器后，您必须根据新数据重新训练，让预测器保持最新状态。由于要收集太多新数据以用于训练，您决定通过在一段时间内对新数据进行采样来限制训练数据。还需要考虑独角兽出现时的每日和每年模式。此外，发布新模型版本的最快方法是每三个月发布一次。您选择哪个时间段？

一天，因为窗口越大，产生的数据就越多，模型训练时间也就越长。

错误。您可以调整数据采样率以限制数据集的大小。由于您只能每三个月更新一次模型，使用一天的数据训练过的模型会逐渐过时。

一周，这样您的数据集就不会太大，但仍然可以清理平滑模式。

错误。您可以调整数据采样率以限制数据集的大小。由于您只能每 3 个月更新一次模型，因此使用一周数据训练过的模型会逐渐过时。

一年，以确保您的模型不会受每日或每年模式的影响。

正确！您应该选择一个有代表性的数据集，以便模型学习在所有场景中进行预测。

启动独角兽外观预测器。效果不错！您外出度假并在 3 周后回来，发现您的模型质量明显下降。假设独角兽的行为不太可能在三周内发生显著变化。以下哪一项最有可能导致图片质量下降？

训练-应用偏差。

正确。虽然独角兽的行为可能没有发生变化，但收集训练数据后，底层数据报告或数据格式可能发生了变化。根据训练数据的数据架构检查应用数据，以检测潜在的训练-应用偏差。

您忘记在固定阈值下测试模型质量。

错误。测试模型质量有助于发现质量下降，但不会解释为何出现这种下降。

您的模型已过时。

不正确，假设您的训练数据涵盖了独角兽行为的所有循环（如上一个问题中所述）。

您明智地决定监控南极洲的预测结果，因为您缺少足够的训练数据。您的预测质量每次都会神奇地下降几天，尤其是在冬季。原因可能是什么？

环境因素。

正确。您发现南极风暴与预测质量下降有关。在这些风暴期间，独角兽的行为会发生变化。此外，在南极风暴期间收集数据是不可能的，这意味着您的模型无法针对这样的条件进行训练。

您的模型会过时。

错误。如果原因正确，那么质量会在模型过时时持续下降，而不是只在几天内下降。

无需任何理由。机器学习模型具有固有的随机性。

错误。如果模型质量波动，则应调查原因。尝试消除模型训练中的随机性以提高可再现性。

你的独角兽外观预测器已经运行了一年。您修复了很多问题，质量现在很高。不过，您注意到了一个小而持久的问题。城市区域的模型质量略有降低。原因可能是什么？

高质量的预测会让用户轻松找到独角兽，这会影响独角兽的外观行为。

正确。独角兽通过改变其在城市中的行为来应对越来越多的注意力。随着模型的预测结果适应不断变化的行为，独角兽会继续改变其行为。这种情况下，模型的行为会影响训练数据本身的情况称为反馈环。您应尝试修改训练-应用偏差检测功能，以检测与独角兽行为变化相对应的服务数据变化。

系统会在人口密集的地区多次报告独角兽的出现，这会令训练数据出现偏差。

错误。这可能不是原因，因为这种偏差应该会降低应用的发布质量。

城市区域很难建模。

错误。如果模型在城市区域无法预测，从一开始选择模型时质量将很低，而不是在发布后会偏低。