在本课程中,您将调试与 18 世纪文学相关的现实机器学习问题*。
现实世界示例:18 世纪文学
现实世界示例:18 世纪文学
- 18 世纪文学教授想要仅根据作者使用的“心灵隐喻”来预测作者的政治派别。
现实世界示例:18 世纪文学
- 18 世纪文学教授想要仅根据作者使用的“心灵隐喻”来预测作者的政治派别。
- 研究人员构建了一个庞大的标签数据集,其中包含许多作者的作品,逐句进行拆分,并拆分为训练集/验证集/测试集。
现实世界示例:18 世纪文学
- 18 世纪文学教授想要仅根据作者使用的“心灵隐喻”来预测作者的政治派别。
- 研究人员构建了一个庞大的标签数据集,其中包含许多作者的作品,逐句进行拆分,并拆分为训练集/验证集/测试集。
- 经过训练的模型在测试数据上的表现几乎完美,但研究人员却认为结果不准确。可能出了什么问题?
现实世界示例:18 世纪文学
您为什么认为测试准确率过高?看看您能不能找出问题所在,然后点击下面的“播放”按钮 ▶,看看您的判断是否正确。
现实世界示例:18 世纪文学
- 数据拆分 A:研究人员将每位作者的一些样本放在训练集中,一些放在验证集中,另一些放在测试集中。
Richardson 的所有示例可能都在训练集中,而 Swift 的所有示例可能都在验证集中。
现实世界示例:18 世纪文学
- 数据拆分 B:研究人员将每位作者的所有样本都放在一个集中。
现实世界示例:18 世纪文学
- 数据拆分 A:研究人员将每位作者的一些样本放在训练集中,一些放在验证集中,另一些放在测试集中。
- 数据拆分 B:研究人员将每位作者的所有样本都放在一个集中。
- 结果:使用数据拆分 A 训练的模型的准确度比使用数据拆分 B 训练的模型高得多。
现实世界示例:18 世纪文学
结论:仔细考虑如何拆分样本。
了解数据代表的含义。
* 我们根据 Sculley 和 Pasanek 的《有意义的含义与挖掘:数据挖掘中隐含假设的影响》一文概括介绍了此模块(在此过程中做了一些修改)。