此页面由 Cloud Translation API 翻译。

机器学习系统在现实世界中的应用：文学

在本课程中，您将调试与 18 世纪文学相关的现实机器学习问题*。

现实世界示例：18 世纪文学

现实世界示例：18 世纪文学

18 世纪文学教授想要仅根据作者使用的“心灵隐喻”来预测作者的政治派别。

现实世界示例：18 世纪文学

18 世纪文学教授想要仅根据作者使用的“心灵隐喻”来预测作者的政治派别。
研究人员构建了一个庞大的标签数据集，其中包含许多作者的作品，逐句进行拆分，并拆分为训练集/验证集/测试集。

现实世界示例：18 世纪文学

18 世纪文学教授想要仅根据作者使用的“心灵隐喻”来预测作者的政治派别。
研究人员构建了一个庞大的标签数据集，其中包含许多作者的作品，逐句进行拆分，并拆分为训练集/验证集/测试集。
经过训练的模型在测试数据上的表现几乎完美，但研究人员却认为结果不准确。可能出了什么问题？

现实世界示例：18 世纪文学

您为什么认为测试准确率过高？看看您能不能找出问题所在，然后点击下面的“播放”按钮 ▶，看看您的判断是否正确。

现实世界示例：18 世纪文学

数据拆分 A：研究人员将每位作者的一些样本放在训练集中，一些放在验证集中，另一些放在测试集中。

显示训练集、验证集和测试集中的作者示例细分的图表。每组代表三个三个作者的示例。

现实世界示例：18 世纪文学

数据拆分 B：研究人员将每位作者的所有样本都放在一个集中。

显示训练集、验证集和测试集中的作者示例细分的图表。训练集仅包含 Swift 的样本，验证集仅包含 Blake 的样本，测试集仅包含 Defoe 的样本。

现实世界示例：18 世纪文学

数据拆分 A：研究人员将每位作者的一些样本放在训练集中，一些放在验证集中，另一些放在测试集中。
数据拆分 B：研究人员将每位作者的所有样本都放在一个集中。
结果：使用数据拆分 A 训练的模型的准确度比使用数据拆分 B 训练的模型高得多。

现实世界示例：18 世纪文学

结论：仔细考虑如何拆分样本。

了解数据代表的含义。

* 我们根据 Sculley 和 Pasanek 的《有意义的含义与挖掘：数据挖掘中隐含假设的影响》一文概括介绍了此模块（在此过程中做了一些修改）。

癌症预测（5 分钟）

指南（2 分钟）

如未另行说明，那么本页面中的内容已根据知识共享署名 4.0 许可获得了许可，并且代码示例已根据 Apache 2.0 许可获得了许可。有关详情，请参阅 Google 开发者网站政策。Java 是 Oracle 和/或其关联公司的注册商标。

最后更新时间 (UTC)：2022-09-27。