机器学习系统在现实世界中的应用:文学

在本课程中,您将调试与 18 世纪文学相关的现实机器学习问题*。

现实世界示例:18 世纪文学

  • 18 世纪文学教授想要仅根据作者使用的“心灵隐喻”来预测作者的政治派别。
古书
  • 18 世纪文学教授想要仅根据作者使用的“心灵隐喻”来预测作者的政治派别。
  • 研究人员构建了一个庞大的标签数据集,其中包含许多作者的作品,逐句进行拆分,并拆分为训练集/验证集/测试集。
古书
  • 18 世纪文学教授想要仅根据作者使用的“心灵隐喻”来预测作者的政治派别。
  • 研究人员构建了一个庞大的标签数据集,其中包含许多作者的作品,逐句进行拆分,并拆分为训练集/验证集/测试集。
  • 经过训练的模型在测试数据上的表现几乎完美,但研究人员却认为结果不准确。可能出了什么问题?
古书

您为什么认为测试准确率过高?看看您能不能找出问题所在,然后点击下面的“播放”按钮 ▶,看看您的判断是否正确。

  • 数据拆分 A:研究人员将每位作者的一些样本放在训练集中,一些放在验证集中,另一些放在测试集中。
Richardson 的所有示例可能都在训练集中,而 Swift 的所有示例可能都在验证集中。
显示训练集、验证集和测试集中的作者示例细分的图表。每组代表三个三个作者的示例。
  • 数据拆分 B:研究人员将每位作者的所有样本都放在一个集中。
显示训练集、验证集和测试集中的作者示例细分的图表。训练集仅包含 Swift 的样本,验证集仅包含 Blake 的样本,测试集仅包含 Defoe 的样本。
  • 数据拆分 A:研究人员将每位作者的一些样本放在训练集中,一些放在验证集中,另一些放在测试集中。
  • 数据拆分 B:研究人员将每位作者的所有样本都放在一个集中。
  • 结果:使用数据拆分 A 训练的模型的准确度比使用数据拆分 B 训练的模型高得多。

结论:仔细考虑如何拆分样本。

了解数据代表的含义。

* 我们根据 Sculley 和 Pasanek 的《有意义的含义与挖掘:数据挖掘中隐含假设的影响》一文概括介绍了此模块(在此过程中做了一些修改)。