生产型机器学习系统:要提出的问题

本课重点介绍您应该提出的有关数据的问题 和模型。

每项功能是否有用?

您应该持续监控您的模型,以移除对模型有影响的特征 对模型的预测能力几乎没有影响。如果 特征突然变化的特征,模型的行为 进行一些不希望的更改。

另请考虑以下相关问题:

  • 特征的实用性是否能证明值得添加该特征?

人们往往倾向于向模型添加更多特征。例如: 假设您发现了一个新特征,该特征的添加可生成模型预测结果 稍微好一点。预测效果好一点当然似乎比 预测结果稍差;不过,这一额外功能 维护负担

您的数据源可靠吗?

关于输入数据的可靠性,可以提出以下问题:

  • 信号是始终可用,还是来自 来源不可靠?例如:
    • 信号是否来自因负载过重而崩溃的服务器?
    • 信号是否来自每年 8 月去度假的人类?
  • 计算模型输入数据的系统是否发生过变化?如果是:
    • 频率
    • 您如何知道系统发生更改的时间?

对于从 上游进程。然后,仅推进到 。

您的模型是否参与了反馈环?

有时,模型会影响自己的训练数据。例如, 进而成为(直接或间接)输入数据, 传递给同一个模型。

有时,一个模型会影响另一个模型。例如,假设有两个 预测股票价格的模型:

  • 模型 A:不理想的预测模型。
  • 模型 B。

由于模型 A 出错,因此它错误地决定购买股票 X 的股票。 这些购买拉高了 X 股票的价格。模型 B 使用价格 作为输入特征,因此模型 B 对股票 X 的价值做出结论。因此,模型 B 可以 根据模型 A 的错误行为买入或卖出股票 X。 进而影响模型 A,从而可能会触发 郁金香狂热或滑入画面 X 公司的股票。

练习:检查您的理解情况

以下哪三种模型容易受到 反馈环?
一种路况预测模型,用于预测高速公路出口处的拥堵情况 (使用海滩人群规模作为其特征之一)。
有些海滩游客可能会根据路况制定计划 预测。如果海滩上有很多人,并且预计交通流量会 很多人可能会另做计划这可能会压低海滩 这会导致交通拥堵情况预测更加畅通 增加出席人数,这样就会重复循环。
图书推荐模型,向用户可能喜欢的小说推荐 根据图书的热门程度(即图书被 已购买)。
图书推荐很有可能促成购买,而且这些 额外销售将作为输入反馈给模型, 因此其他人更有可能在 。
一种大学排名模型,该模型根据学校的 选择性:已申请认证的学生中, 允许其加入。
模型的排名可能会进一步提高评分最高的用户关注度 从而增加他们收到的申请数量。如果这些 学校继续招收同样数量的学生,选择性将 (被录取的学生比例将下降)。这个 将提升这些学校的从而进一步提高 潜在学生的兴趣,等等...
一个选举结果模型,用于预测 市长选举活动,在投票结束后对 2% 的选民进行调查。
如果模型在轮询结束后才发布预测, 已关闭,其预测不可能影响选民 行为
房屋价值预测模型, 面积(以平方米为单位)、卧室数量和地理位置 作为特征。
不可能快速更改房子的位置 房型大小或卧室数量等信息 也不太可能出现反馈环不过,您有时可能会 卧室大小与卧室数量(大型住宅)之间 更有可能有更多房间),而这可能需要单独找出。
用于检测人是否在微笑的人脸属性模型 我们会定期利用图库照片数据库进行训练 (每月自动更新)。
这里没有反馈环,因为模型预测并没有 对照片数据库造成的任何影响。不过,对输入的版本控制 因为这些每月更新的数据可能会 对模型造成不可预见的影响。