本课重点介绍您应该提出的有关数据的问题 和模型。
每项功能是否有用?
您应该持续监控您的模型,以移除对模型有影响的特征 对模型的预测能力几乎没有影响。如果 特征突然变化的特征,模型的行为 进行一些不希望的更改。
另请考虑以下相关问题:
- 特征的实用性是否能证明值得添加该特征?
人们往往倾向于向模型添加更多特征。例如: 假设您发现了一个新特征,该特征的添加可生成模型预测结果 稍微好一点。预测效果好一点当然似乎比 预测结果稍差;不过,这一额外功能 维护负担
您的数据源可靠吗?
关于输入数据的可靠性,可以提出以下问题:
- 信号是始终可用,还是来自
来源不可靠?例如:
- 信号是否来自因负载过重而崩溃的服务器?
- 信号是否来自每年 8 月去度假的人类?
- 计算模型输入数据的系统是否发生过变化?如果是:
- 频率
- 您如何知道系统发生更改的时间?
对于从 上游进程。然后,仅推进到 。
您的模型是否参与了反馈环?
有时,模型会影响自己的训练数据。例如, 进而成为(直接或间接)输入数据, 传递给同一个模型。
有时,一个模型会影响另一个模型。例如,假设有两个 预测股票价格的模型:
- 模型 A:不理想的预测模型。
- 模型 B。
由于模型 A 出错,因此它错误地决定购买股票 X 的股票。 这些购买拉高了 X 股票的价格。模型 B 使用价格 作为输入特征,因此模型 B 对股票 X 的价值做出结论。因此,模型 B 可以 根据模型 A 的错误行为买入或卖出股票 X。 进而影响模型 A,从而可能会触发 郁金香狂热或滑入画面 X 公司的股票。
练习:检查您的理解情况
以下哪三种模型容易受到
反馈环?
一种路况预测模型,用于预测高速公路出口处的拥堵情况
(使用海滩人群规模作为其特征之一)。
有些海滩游客可能会根据路况制定计划
预测。如果海滩上有很多人,并且预计交通流量会
很多人可能会另做计划这可能会压低海滩
这会导致交通拥堵情况预测更加畅通
增加出席人数,这样就会重复循环。
图书推荐模型,向用户可能喜欢的小说推荐
根据图书的热门程度(即图书被
已购买)。
图书推荐很有可能促成购买,而且这些
额外销售将作为输入反馈给模型,
因此其他人更有可能在
。
一种大学排名模型,该模型根据学校的
选择性:已申请认证的学生中,
允许其加入。
模型的排名可能会进一步提高评分最高的用户关注度
从而增加他们收到的申请数量。如果这些
学校继续招收同样数量的学生,选择性将
(被录取的学生比例将下降)。这个
将提升这些学校的从而进一步提高
潜在学生的兴趣,等等...
一个选举结果模型,用于预测
市长选举活动,在投票结束后对 2% 的选民进行调查。
如果模型在轮询结束后才发布预测,
已关闭,其预测不可能影响选民
行为
房屋价值预测模型,
面积(以平方米为单位)、卧室数量和地理位置
作为特征。
不可能快速更改房子的位置
房型大小或卧室数量等信息
也不太可能出现反馈环不过,您有时可能会
卧室大小与卧室数量(大型住宅)之间
更有可能有更多房间),而这可能需要单独找出。
用于检测人是否在微笑的人脸属性模型
我们会定期利用图库照片数据库进行训练
(每月自动更新)。
这里没有反馈环,因为模型预测并没有
对照片数据库造成的任何影响。不过,对输入的版本控制
因为这些每月更新的数据可能会
对模型造成不可预见的影响。