机器学习速成课程的全新改进版本将于 2024 年 8 月推出。敬请期待！

此页面由 Cloud Translation API 翻译。

泛化

泛化是指模型适当地适应先前未见过的新数据（从用于创建该模型的同一分布中抽取）的能力。

泛化

概览

模型周期、预测、样本、发现真实分布、更多抽样

目标：根据从真实分布（隐藏）中抽取的新数据做出良好预测。
问题：我们看不到真相。

我们只能从中取样。

概览

模型周期、预测、样本、发现真实分布、更多抽样

目标：根据从真实分布（隐藏）中抽取的新数据做出良好预测。
问题：我们看不到真相。

我们只能从中取样。

如果模型 h 非常适合我们的当前样本，我们如何相信它能在其他新样本上很好地进行预测？

我们如何知道自己的模型是否理想？

理论上：

有趣的领域：泛化理论
基于衡量模型简单性 / 复杂性的理念

直觉：奥卡姆剃刀定律的形式化

模型越简单，良好的实证结果就越有可能不仅仅是基于样本的特性

我们如何知道自己的模型是否理想？

根据经验：
- 问：我们的模型能否很好地处理新的数据样本？
- 评估：获取新的数据样本，并将其称为测试集
- 一般来说，测试集的出色性能可以很好地反映新数据的表现：

机器学习细则

以上所有三个基本假设：

我们从分布中随机抽取独立同分布 (i.i.d.) 的样本
分布是平稳的：分布不会随时间发生变化
我们始终从相同的发行版中提取：包括训练集、验证集和测试集

过拟合的风险

如未另行说明，那么本页面中的内容已根据知识共享署名 4.0 许可获得了许可，并且代码示例已根据 Apache 2.0 许可获得了许可。有关详情，请参阅 Google 开发者网站政策。Java 是 Oracle 和/或其关联公司的注册商标。

最后更新时间 (UTC)：2022-09-27。