此页面由 Cloud Translation API 翻译。

机器学习术语表：机器学习基础知识

本页面包含机器学习基础知识术语表。对于所有术语库术语点击此处。

A

准确性

#fundamentals

正确分类预测的数量除以除以预测总数。具体来说：

$$\text{Accuracy} = \frac{\text{correct predictions}} {\text{correct predictions + incorrect predictions }}$$

例如，某个模型做出 40 次正确预测和 10 次错误预测预测的准确率为：

$$\text{Accuracy} = \frac{\text{40}} {\text{40 + 10}} = \text{80%}$$

二元分类可提供具体名称针对不同类别的正确预测和 错误预测。二元分类的准确率公式如下所示：

$$\text{Accuracy} = \frac{\text{TP} + \text{TN}} {\text{TP} + \text{TN} + \text{FP} + \text{FN}}$$

其中：

TP 是真正例（正确预测）的数量。
TN 为真正例（正确预测）的数量。
FP 是指假正例（错误预测）的数量。
FN 为假负例（预测错误）的数量。

比较和对比准确性 精确率和 召回率。

点击该图标即可查看其他备注。

虽然准确性指标在有些情况下非常重要，误导他人。值得注意的是，准确性通常是一个糟糕的指标用于评估处理 分类不平衡的数据集。

例如，假设在某个时间，每个世纪只有 25 天会下雪亚热带城市。由于没有降雪的日子（负类别）极大有雪的超过天数（正类别），雪花数据集这座城市是分类不平衡的。想象一种二元分类 这个模型应该预测每天有雪或无雪，只是预测“无雪”。此模型非常准确，但没有预测能力。下表总结了一百年的预测结果：

类别	数字
TP	0
TN	36500
FP	25
FN	0

因此，该模型的准确性为：

accuracy = (TP + TN) / (TP + TN + FP + FN)
accuracy = (0 + 36500) / (0 + 36500 + 25 + 0) = 0.9993 = 99.93%

虽然 99.93% 的准确率似乎是一个非常可观的百分比，但它并不具备预测能力。

精确率和 召回率通常更实用与 accuracy 相比，用于评估基于分类不平衡的数据集训练的模型。

激活函数

#fundamentals

让神经网络能够进行学习的函数特征之间的非线性（复杂）关系nonlinear 和标签。

常用的激活函数包括：

ReLU
S 型函数

激活函数的曲线图绝不是单条直线。例如，ReLU 激活函数的曲线图包含两条直线：

两条直线的笛卡尔图。第一行有一个常量，
y 值为 0，沿 x 轴运行，范围为 -无穷大,0 到 0,-0。
第二行从 0,0 开始。这条线的斜率为 +1，因此
范围为 0,0 到 +无穷大，+无穷大。

S 型激活函数的曲线图如下所示：

x 值跨越网域的二维曲线图
-无穷大到 +正，而 y 值的范围几乎是 0 到 +正
几乎是 1。当 x 为 0 时，y 为 0.5。曲线的斜率始终为
正值，最大斜率为 0,0.5，然后逐渐减少
它们会随着 x 的绝对值增加而逐渐变化。

点击该图标即可查看示例。

在神经网络中，激活函数操控加权和将所有输入值相加，神经元。为了计算加权和，神经元将相关值和权重的乘积。例如，假设神经元的相关输入包含以下内容：

输入值	输入权重
2	-1.3
-1	0.6
3	0.4

因此，加权和为：

weighted sum = (2)(-1.3) + (-1)(0.6) + (3)(0.4) = -2.0

假设这个神经网络的设计者选择 S 型函数 激活函数。在这种情况下，神经元会计算 S 型函数为 -2.0，约为 0.12。因此，神经元将 0.12（而不是 -2.0）传递到神经网络中的下一层。下图展示了该流程的相关部分：

人工智能

#fundamentals

可以解决复杂任务的非人类程序或模型。例如，翻译文本的程序或模型，或通过放射图像识别疾病，均具有人工智能。

正式地说，机器学习是人工智能技术的情报。然而，近年来，一些组织已开始采用 “人工智能”和“机器学习”这两个术语可以互换。

AUC（ROC 曲线下的面积）

#fundamentals

一个介于 0.0 和 1.0 之间的数字，表示 二元分类模型的能够将正类别与 负类别。 AUC 越接近 1.0，模型区分类。

例如，下图显示了一个分类器模型，用于区分正类别（绿色椭圆形）与负类别（紫色矩形）完美呈现。这种不切实际的完美模型 AUC 为 1.0：

数轴，一侧有 8 个正例，
另一边有 9 个反例。

而下图则展示了分类器的生成随机结果的模型。此模型的 AUC 为 0.5：

包含 6 个正例和 6 个负例的数轴。
样本序列是正数、负数、
正面, 负面, 正面, 负面, 正面, 负面, 正面
否定、肯定、否定

是，上述模型的 AUC 为 0.5，而不是 0.0。

大多数模型都处于这两种极端之间。例如，以下模型在一定程度上区分了正类别和负类别，曲线下面积的曲线在 0.5 到 1.0 之间：

包含 6 个正例和 6 个负例的数轴。
样本的序列不同，分别是负、负、负、负，
正面, 负面, 正面, 正面, 负面, 正面, 正面,
积极。

AUC 会忽略您针对其设置的任何值， 分类阈值。曲线下面积会考虑所有可能的分类阈值。

点击该图标即可了解曲线下面积与 ROC 曲线之间的关系。

AUC 表示 ROC 曲线。例如： ROC 曲线下完整区分正类别和正类别的例如：

曲线下面积是上图中灰色区域的面积。在这种不寻常的情况中，该区域只是灰色区域的长度 (1.0) 乘以灰色区域的宽度 (1.0)。产品则 1.0 和 1.0 的曲线下面积正好为 1.0，这是 AUC 得分。

另一方面，不能区分类别的分类器的 ROC 曲线如下所示。此灰色区域的面积为 0.5。

更典型的 ROC 曲线大致如下所示：

手动计算此曲线下的面积可能非常艰巨，因此，程序通常会计算大多数 AUC 值。

点击该图标即可查看曲线下面积的更正式定义。

曲线下面积是分类器更确信随机选择的正例实际上是正例，随机选择的负例为正例。

B

反向传播算法

#fundamentals

用来实现 梯度下降法， 神经网络。

训练神经网络涉及多次迭代以下两步循环：

在正向传递期间，系统会处理一批用于生成预测结果的样本。系统会将每个根据每个标签值进行预测。两者的区别在于预测值，标签值是该样本的损失。系统会汇总所有样本的损失，以计算总的当前批次的损失。
在反向传播（反向传播算法）期间，系统会通过以下方式减少损失：调整所有神经元 隐藏层。

神经网络通常包含跨多个隐藏层的多个神经元。其中每个神经元以不同的方式影响整体损失。反向传播算法确定是增加还是减少权重应用于特定神经元。

学习速率是控制每个反向传递每个权重增加或减少的程度。较大的学习速率会使每个权重的增减幅度超过学习速率很小。

用微积分学的术语来说，反向传播算法实现的是链式法则。也就是说，反向传播算法会计算误差的偏导数 每个参数的延迟时间。

几年前，机器学习从业者必须编写代码来实现反向传播算法。现在，TensorFlow 等现代机器学习 API 可以为您实现反向传播算法了。哎呀！

批处理

#fundamentals

一次训练中使用的一组样本迭代。批次大小决定了。

请参阅周期，了解批次与一个周期。

批次大小

#fundamentals

一个批次中的样本数量。例如，如果批次大小为 100，则模型会处理每次迭代 100 个样本。

下面是常用的批量大小策略：

随机梯度下降法 (SGD)，其中批次大小为 1。
全批量，其中批次大小是整个样本中的样本数 训练集。例如，如果训练集包含 100 万个样本，那么批次大小将为 100 万示例。全批量策略通常是一种低效的策略。
小批次，其中批次大小通常介于 10 和 1000。小批次策略通常是最有效的策略。

偏见（道德/公平性）

#fairness

#fundamentals

1. 对某些事物、人或事物有成见、偏见或偏爱或群组的效果这些偏差会影响收集和数据的解释、系统设计以及用户如何互动与系统集成。此类偏差的形式包括：

2. 抽样或报告过程中引入的系统错误。此类偏差的形式包括：

请勿与机器学习模型中的偏差项混淆。或预测偏差。

偏差（数学）或偏差项

#fundamentals

相对于原点的截距或偏移。偏差是机器学习模型，由两个模型中的以下：

b
w₀

例如，在下面的公式中，偏差为 b：

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

在简单的二维直线中，偏差仅表示“y 截距”。例如，下图中线条的偏差为 2。

斜率为 0.5，偏差（y 截距）为 2 的曲线图。

存在偏差是因为并非所有模型都从原点 (0,0) 开始。例如：假设一个游乐园的门票价格为 2 欧元，客户入住每小时 0.5 欧元。因此，映射总费用偏差为 2，因为最低成本为 2 欧元。

不要将偏见与道德和公平性中的偏见相混淆或预测偏差。

二元分类

#fundamentals

一种分类任务，用于预测两个互斥类别之一：

正类别
负类别

例如，以下两个机器学习模型各自执行了二元分类：

一个模型，用于确定电子邮件是否 spam（正类别）或 非垃圾邮件（负类别）。
一种评估医疗症状以确定是否患有某种特定疾病（正类别）或没有该疾病疾病（负类别）。

与多类别分类相对。

另请参阅逻辑回归和 分类阈值。

分桶

#fundamentals

将单个特征转换为多个二进制特征称为“buckets”或“bins”，通常基于值范围。裁剪地图项通常为 连续特征。

例如，不要将体温连续浮点特征，您可以切断温度范围离散分区，例如：

小于等于 10 摄氏度就属于“冷”温度存储分区。
11 - 24 摄氏度就是“温带”存储分区。
>= 25 摄氏度就属于“温暖”温度存储分区。

模型将以相同方式处理同一分桶中的每个值。对于例如，值 13 和 22 都位于温带分区中，因此模型会以相同的方式处理这两个值。

点击该图标即可查看其他备注。

如果将温度表示为连续特征，则模型将温度视为单个特征。如果用体温表示三个存储分区，则模型会将每个存储分区视为单独的特征。也就是说，模型可以学习每个存储分区与标签。例如， 线性回归模型可以学习每个存储分区的单独权重。

增加存储分区数会使模型的复杂程度增加，增加模型必须学习的关系数量。例如，冷水桶、温带水桶和温水水桶基本上三个不同的特征进行训练。如果您决定将也就是冷冻和热量，您的模型都需要使用五个独立的特征进行训练。

您如何知道要创建多少个存储分区，或者每个存储分区的范围应该是什么？通常需要相当多的回答。

C

分类数据

#fundamentals

特征，具有一组特定的可能值。例如：假设有一个名为 traffic-light-state 的分类特征，具有以下三种可能的值之一：

red
yellow
green

通过将 traffic-light-state 表示为分类特征，模型可以学习 red、green 和 yellow 对驱动程序行为的不同影响。

分类特征有时也称为 离散特征。

与数值数据相对。

类别

#fundamentals

标签可以所属的类别。例如：

在二元分类模型中，垃圾邮件，这两类分别可能是垃圾邮件和非垃圾邮件。
在多类别分类模型中可识别狗的品种，对应的类可能是贵宾犬、小猎犬、哈巴狗，依此类推。

分类模型可预测类别。相比之下，回归模型可预测出而不是类。

分类模型

#fundamentals

一种模型，其预测结果是一个类别。例如，以下都是分类模型：

一个用于预测输入句子语言（法语？西班牙语？意大利语？）。
一个用于预测树种的模型（枫树？橡树？猴面包树？）。
一种预测特定特征的正类别或负类别的模型身体状况。

相比之下，回归模型则可预测数字，而不是类。

两种常见的分类模型是：

二元分类
多类别分类

分类阈值

#fundamentals

在二元分类中，将一个 0 到 1 之间的数字转换为逻辑回归模型为正类别预测或负类别。请注意，分类阈值是人类选择的值，而不是模型训练选择的值。

逻辑回归模型会输出一个介于 0 到 1 之间的原始值。然后，执行以下操作：

如果此原始值大于分类阈值，则正类别被预测为正类别。
如果此原始值小于分类阈值，则：预测负类别。

例如，假设分类阈值为 0.8。如果原始值为 0.9，则模型会预测为正类别。如果原始值为 0.7，则模型会预测负类别。

分类阈值的选择对 假正例和 假负例。

点击该图标即可查看其他备注。

随着模型或数据集的发展，工程师有时也会改变分类阈值。当分类阈值发生变化时，正类别预测可能会突然变成负类别反之亦然。

以一个二元分类疾病预测模型为例。假设当系统在第一年运行时：

特定患者的原始值为 0.95。
分类阈值为 0.94。

因此，系统会诊断正类别。（患者喘气， “糟糕！我病了！”）

一年后，值现在可能如下所示：

同一患者的原始值仍为 0.95。
分类阈值更改为 0.97。

因此，系统现在将该患者重新分类为负类别。（“祝您有愉快的一天！我没有生病。”）同一患者。诊断结果不同。

分类不平衡的数据集

#fundamentals

分类问题的数据集，其中每个类别的标签数量存在显著差异。以一个二元分类数据集为例，该数据集包含两个标签分为以下几类：

100 万个排除标签
10 个肯定标签

负例和正例标签的比率为 100,000:1，因此属于分类不平衡的数据集。

相比之下，下面的数据集没有分类不平衡，因为负例标签的比率相对接近于 1：

517 个排除标签
483 个肯定标签

多类别数据集也有可能是类别不平衡的。例如，以下多类别分类数据集也有类别不平衡，这是因为一个标签的样本数量远远多于另外两个：

100 万个类别为“green”的标签
200 个类别为“purple”的标签
350 个类别为“orange”的标签

另请参阅熵、大多数类别、和少数类。

裁剪

#fundamentals

一种通过执行下列方法处理离群值的方法：以下两项或其中一项：

减少大于最大值的 feature 值降低到该最大阈值
增加小于最小阈值的特征值，直至达到该值最低阈值。

例如，假设特定特征的值小于 0.5% 不在 40–60 之间。在这种情况下，您可以执行以下操作：

将超过 60（最大阈值）的所有值裁剪到正好 60。
将小于 40（最小阈值）的所有值裁剪到正好 40。

离群值可能会损害模型，有时会导致权重在训练期间溢出。一些离群值也会严重破坏 准确率等指标。裁剪是限制

渐变裁剪力梯度值。

混淆矩阵

#fundamentals

NxN 表格，汇总了正确和错误预测的数量 分类模型所生成的图片。以下面的混淆矩阵为例， 二元分类模型：

	肿瘤（预测）	非肿瘤（预测）
肿瘤（标准答案）	18 (TP)	1（FN）
非肿瘤（标准答案）	6 (FP)	452（田纳西州）

上述混淆矩阵显示以下内容：

在标准答案为“肿瘤”的 19 个预测中，模型正确分类为 18，而错误分类为 1。
在 458 个预测（标准答案为非肿瘤）中，模型正确分类的 452 和错误分类的 6。

多类别分类的混淆矩阵有助于你发现错误模式例如，请考虑以下关于 3 个类别的混淆矩阵，对三种不同的鸢尾花类型进行分类的多类别分类模型（维吉尼亚鸢尾、变色龙和山鸢尾）。当标准答案是维珍妮卡时，混淆矩阵的概率更高，我预测 Versicolor 与 Setosa 相比：

	山鸢尾（预测）	变色（预测）	维吉尼卡（预测）
山鸢尾（标准答案）	88	12	0
变色（标准答案）	6	141	7
维吉尼卡（标准答案）	2	27	109

再举一个例子，混淆矩阵可以揭示经过训练的模型识别手写数字时，往往会将 4 错误地预测为 9，或者错误地预测了 1 而非 7。

混淆矩阵包含计算各种效果指标，包括精确率 和召回率。

连续特征

#fundamentals

一种浮点特征，可能具有无限可能性例如温度或重量。

与离散特征相对。

收敛

#fundamentals

当 loss 值变化很小或而不是每次迭代。例如，以下 损失曲线表明大约 700 次迭代会收敛：

笛卡尔图。X 轴表示损失。Y 轴代表训练时间
迭代。在前几次迭代期间，损失非常高，
急剧下降。经过大约 100 次迭代后，损失仍然
但要慢得多。经过大约 700 次迭代后
损失保持不变。

如果后续无法训练，则模型会收敛改进模型。

在深度学习中，损失值有时会保持不变或在最终降序排列之前，在较长时间内则您可能会暂时产生一种收敛的假象。

另请参阅早停法。

D

DataFrame

#fundamentals

一种热门的 Pandas 数据类型，用于表示内存中的数据集。

DataFrame 类似于表格或电子表格。数据中的每一列 DataFrame 有一个名称（标题），每一行都由一个唯一编号。

DataFrame 中的每一列都采用类似于二维数组的结构，只是您可以为每个列分配自己的数据类型。

另请参阅官方 pandas.DataFrame 参考页面。

数据集或数据集

#fundamentals

原始数据的集合，通常（但并非专门）整理到一个以下格式：

电子表格
CSV（逗号分隔值）格式的文件

深度模型

#fundamentals

包含多个神经网络的神经网络 隐藏层。

深度模型也称为“深度神经网络”。

与宽度模型相对。

密集特征

#fundamentals

一种特征，其中大部分或所有值都是非零值，通常浮点值的张量Tensor。例如，以下 10 元素张量是密集的，因为它的 9 个值是非零值：

与稀疏特征相对。

深度

#fundamentals

神经网络中的以下各项的总和：

隐藏层的数量
输出层的数量，通常为 1
任何嵌入层的数量

例如，具有五个隐藏层和一个输出层的神经网络深度为 6。

请注意，输入层 影响深度。

离散特征

#fundamentals

一种特征，包含有限个可能值。例如：值只能是动物、蔬菜或矿物的特征是离散（或分类）特征。

与连续特征相对。

动态

#fundamentals

频繁或不断地处理某件事。术语“动态”和“在线”是机器学习中的同义词。以下是动态和在线在机器中的常见用法正在学习：

动态模型（或在线模型）是一种模型，。
动态训练（或在线训练）是训练频繁或持续不断
动态推理（即在线推理）是根据需求生成预测。

动态模型

#fundamentals

一个模型经常出现（甚至可能会持续）重新训练。动态模型是一个“终身学习者”那个适应不断演变的数据。动态模型也称为 在线模型。

与静态模型相对。

E

早停法

#fundamentals

一种正则化方法，它涉及 training 中训练损失结束之前下降。在早停法中，您有意停止训练模型，当验证数据集的损失开始增加到 increase;也就是泛化效果变差。

点击该图标即可查看其他备注。

早停法似乎不合常理。毕竟，指示模型停止运行在损失仍然减少的情况下进行训练，这似乎是让厨师在甜点完全出炉之前停止烹饪。不过，训练模型则会导致过拟合。也就是说，模型训练时间过长，模型可能会与训练数据紧密拟合，模型就无法对新样本做出良好预测。

嵌入层

#language

#fundamentals

一种特殊的隐藏层，用于基于高维分类特征来逐渐学习低维度嵌入向量。一个嵌入层让神经网络能够训练更多这比只使用高维分类特征进行训练更高效。

例如，Google 地球目前支持约 73,000 种树种。假设树种是模型中的特征，所以模型的输入层包含一个独热矢量，即 73000 元素。例如，baobab 的表示形式如下：

包含 73,000 个元素的数组。前 6,232 个元素包含
0.下一个元素的值是 1。最后的 66,767 个元素
值为零。

包含 73,000 个元素的数组非常长。如果没有添加嵌入层训练将非常耗时， 72,999 个零相乘。也许您会选择嵌入层，共 12 个维度因此，嵌入层会逐渐学习每个树种的新嵌入向量。

在某些情况下，哈希处理是一种合理的替代方案嵌入层。

周期数

#fundamentals

对整个训练集的完整训练遍历以便每个样本都处理一次。

一个周期表示 N/批次大小 训练迭代，其中 N 是样本总数。

例如，假设存在以下情况：

该数据集包含 1000 个样本。
批次大小为 50 个样本。

因此，一个周期需要 20 次迭代：

1 epoch = (N/batch size) = (1,000 / 50) = 20 iterations

示例

#fundamentals

一行 features 的值，可能一个标签。中的示例 监督式学习可分为两类常规类别：

有标签样本由一个或多个特征组成和标签。有标签样本会在训练期间使用。
无标签样本包含一个或但没有标签。推理期间会使用无标签样本。

例如，假设您正在训练模型来确定天气状况对学生考试分数的影响。以下是三个有标签的示例：

功能			标签
温度	湿度	压力	测试分数
15	47	998	良好
19	34	1020	极佳
18	92	1012	差

下面是三个无标签样本：

温度	湿度	压力
12	62	1014
21	47	1017
19	41	1021

数据集所在的行通常是样本的原始来源。也就是说，一个样本通常包含数据集。此外，样本中的特征还可以 合成特征，例如 特征组合。

F

假负例 (FN)

#fundamentals

在一个示例中，模型错误地预测了 负类别。例如，模型预测某封电子邮件不是垃圾邮件（负类别），但该电子邮件实际上是垃圾邮件。

假正例 (FP)

#fundamentals

在一个示例中，模型错误地预测了 正类别。例如，模型某封电子邮件是垃圾邮件（正值），但是电子邮件实际上不是垃圾邮件。

假正例率 (FPR)

#fundamentals

模型错误的实际负例所占的比例预测了正类别。以下公式计算的是正面率：

$$\text{false positive rate} = \frac{\text{false positives}}{\text{false positives} + \text{true negatives}}$$

假正例率是 ROC 曲线的 x 轴。

功能

#fundamentals

机器学习模型的输入变量。示例包含一个或多个特征例如，假设您在训练一个以确定天气状况对学生考试分数的影响。下表显示了三个示例，每个示例都包含一个标签：

功能			标签
温度	湿度	压力	测试分数
15	47	998	92
19	34	1020	84
18	92	1012	87

与标签相对。

特征组合

#fundamentals

由“组合”形成的合成特征 分类或分桶特征。

例如，请考虑使用“情绪预测”该模型以下 4 个存储分区中的其中一个：

freezing
chilly
temperate
warm

并表示以下三个分区之一中的风速：

still
light
windy

如果没有特征组合，线性模型会根据每个特征前面七个不同的存储分区例如，模型会使用 freezing，而不依赖于训练，例如， windy。

或者，您也可以创建一个包含温度和风速。此合成特征有以下 12 种可能：值：

freezing-still
freezing-light
freezing-windy
chilly-still
chilly-light
chilly-windy
temperate-still
temperate-light
temperate-windy
warm-still
warm-light
warm-windy

得益于特征组合，模型可以学习情绪差异介于 freezing-windy 天到 freezing-still 天之间。

如果您通过两个地图项创建合成地图项，而这两个地图项都包含大量产生的特征组合将有大量可能的组合。例如，如果一个特征有 1,000 个分桶，另一个特征有 2,000 个分桶，生成的特征组合有 2,000,000 个存储分区。

正式地说，交叉是一种笛卡尔积。

特征组合主要用于线性模型，很少使用和神经网络。

特征工程

#fundamentals

#TensorFlow

此过程涉及以下步骤：

确定哪些特征可能有用学习到的知识。
将数据集中的原始数据转换为这些功能。

例如，您可以认为 temperature 可能是一个有用的功能。然后，您可以尝试进行分桶。优化模型可以从不同 temperature 范围学习到的内容。

特征工程有时称为 特征提取或 特征化。

点击该图标可获取有关 TensorFlow 的其他说明。

在 TensorFlow 中，特征工程通常是指转换原始日志文件 tf.Example 协议缓冲区条目。另请参阅 tf.Transform.

特征集

#fundamentals

您的机器学习的特征组 model 进行训练。例如，邮政编码、房源大小和房源使用情况可能为预测房价的模型包含一个简单的特征集。

特征向量

#fundamentals

feature 值数组，包含示例。特征向量是输入的训练和推理期间。例如，一个具有两个离散特征的模型的特征向量可能是：

[0.92, 0.56]

四个层：一个输入层、两个隐藏层和一个输出层。
输入层包含两个节点，
另一个是 0.92，另一个是 0.56。

每个样本都为特征向量提供不同的值，因此下一个示例的特征向量可能如下所示：

[0.73, 0.49]

特征工程决定了如何表示特征向量中的特征。例如，一个二元分类特征五个可能的值可以用 独热编码。在这种情况下，特定样本的特征向量将包含四个零，一个 1.0 放在第三个位置，如下所示：

[0.0, 0.0, 1.0, 0.0, 0.0]

再举一个例子，假设您的模型由三个特征组成：

一个二元分类特征，具有五个可能的值，以独热编码；例如：[0.0, 1.0, 0.0, 0.0, 0.0]
另一个二元分类特征，其中有三个可能的值表示采用独热编码；例如：[0.0, 0.0, 1.0]
浮点特征；例如：8.3。

在这种情况下，每个样本的特征向量将用乘以 9 的值。根据上述列表中的示例值，则特征向量为：

0.0
1.0
0.0
0.0
0.0
0.0
0.0
1.0
8.3

反馈环

#fundamentals

在机器学习中，模型的预测会影响同一模型或其他模型的训练数据。例如，一个模型推荐的电影会影响用户观看的电影影响后续的电影推荐模型。

G

泛化

#fundamentals

模型能够根据新数据之前未见过的数据。相反，可以泛化的模型

点击该图标即可查看其他备注。

您使用训练集中的样本训练模型。因此，模型会学习训练集中数据的特征。泛化实质上会询问您的模型能否根据样本做出良好的预测不属于训练集中的句子。

为了促进泛化， 正则化有助于训练模型与训练集中数据特征的程度不太精确。

泛化曲线

#fundamentals

训练损失和 验证损失 迭代。

泛化曲线可以帮助您检测过拟合。例如，以下泛化曲线表明出现过拟合，最终明显高于训练损失。

笛卡尔图，其中 y 轴标记为损失，x 轴
标注的迭代。系统会显示两个图表。一个曲线图显示的是
另一个显示的是验证损失。
两个曲线的起点类似，但训练损失最终
则远低于验证损失。

梯度下降法

#fundamentals

一种最小化损失的数学技术。梯度下降法以迭代方式权重和偏差，逐渐找到最佳组合，以最大限度降低损失。

梯度下降法的年代比机器学习晚得多。

标准答案

#fundamentals

真人秀。

实际发生的事情。

例如，假设有一种二元分类 该模型会预测学生在大学的第一年将在六年内升级此模型的标准答案是并不是说毕业的学生在六年内就毕业了

点击该图标即可查看其他备注。

我们根据标准答案评估模型质量。但是，标准答案并不总是完全、真实、可靠例如，您可以考虑使用以下示例展示了标准答案的潜在缺陷：

在结业示例中，我们是否确定了结业每位学生的记录是否始终正确无误？是这所大学的能够完美地保留记录吗？
假设标签是一个由仪器测量的浮点值（例如气压计）。我们如何确定每种乐器以完全相同的方式校准，或者每次读数都相同什么情况？
如果标签关乎人类观念，我们如何确定每个人类评估者都会评估以下时间段内的事件：？为了提高一致性，专家人工审核者有时会进行干预。

H

隐藏层

#fundamentals

神经网络中的一层 输入层（特征）和 输出层（预测）。每个隐藏层都包含一个或多个神经元。例如，下面的神经网络包含两个隐藏层，第一个有三个神经元，第二个有两个神经元：

四层。第一层是输入层，包含两个
功能。第二层是隐藏层，
神经元。第三层是隐藏层，
神经元。第四层是输出层。每项功能
包含三条边，每条边指向不同的神经元
数据模型。第二层中的每个神经元
包含两个边，每条边指向不同的神经元
第三层。第三层中的每个神经元都包含
每条边都指向输出层。

深度神经网络包含多个隐藏层。例如，上图展示了深度神经元，因为模型包含两个隐藏层。

超参数

#fundamentals

您或超参数调节服务的变量在模型连续运行期间进行调整。例如： 学习速率是一种超参数。您可以将学习速率设置为 0.01。如果您 0.01 过高，可以将学习下一个训练课程的预测比率为 0.003。

相反，参数则是各种不同的模型的权重和偏差在训练期间学习。

I

独立同分布 (i.i.d)

#fundamentals

数据来自不会变化的分布，其中每个值绘制不依赖于之前绘制的值。i.i.d. 是理想气体机器学习 - 一种实用的数学结构，但几乎从未发现过真实世界。例如，某个网页的访问者分布情况可能是 i.i.d.短时间内；也就是说，分布但通常只有一次人光顾而不受他人访问的影响。不过，如果您延长该时间范围网页访问者的季节性差异就可能表现出来。

另请参阅非平稳性。

推理

#fundamentals

在机器学习中，将经过训练的模型应用于无标签样本。

推理在统计学中具有不同的含义。请参阅 <ph type="x-smartling-placeholder"></ph> 维基百科中有关统计推断的文章。

输入层

#fundamentals

神经网络的层，神经网络 存储的是特征向量。也就是说，输入层为训练或提供示例推理。例如，下面的输入层包含两个特征：

四个层：一个输入层、两个隐藏层和一个输出层。

可解释性

#fundamentals

能够解释或呈现机器学习模型的推理过程简单易懂的词汇

例如，大多数线性回归模型的性能高度可解释。（您只需看一看每项训练的 feature.)决策森林也具有高度可解释性。然而，有些模型需要进行复杂的可视化处理才能变得可解释。

您可以使用 Learning Interpretability Tool (LIT) 来解读机器学习模型。

迭代

#fundamentals

模型参数的一次更新，即模型的权重和偏差 - 期间训练。批次大小决定模型在单次迭代中处理的样本数。例如，如果批次大小为 20，则模型会先处理 20 个样本，调整参数。

在训练神经网络时，单次迭代涉及以下两个卡券：

用于评估单个批次的损失的前向传播。
反向传播（反向传播），用于调整根据损失和学习速率调整模型参数。

L

L₀ 正则化

#fundamentals

一种正则化，会降低非零权重的总数模型中。例如，一个具有 11 个非零权重的模型会比具有 10 个非零权重的类似模型受到的惩罚更多。

L₀ 正则化有时称为 L0 正则化。

点击该图标即可查看其他备注。

L₀ 正则化在大型模型中通常不切实际，因为 L₀ 正则化将训练转化为凸优化问题。

L₁ 损失

#fundamentals

用于计算绝对值的损失函数 实际标签值和由模型预测的值。例如，以下是在 5 的 batch 中计算 L₁ 损失示例：

样本的实际值	模型的预测值	增量的绝对值
7	6	1
5	4	1
8	11	3
4	6	2
9	8	1
		8 = L₁ 损失

L₁ 损失对离群值不太敏感与 L₂ 损失相比。

平均绝对误差是每个样本的 L₁ 损失。

点击该图标即可查看正式数学计算。

$$ L_1 loss = \sum_{i=0}^n | y_i - \hat{y}_i |$$

其中：

$n$ 为样本数。
$y$ 是标签的实际值。
$\hat{y}$ 是模型针对 $y$ 预测的值。

L₁ 正则化

#fundamentals

一种正则化，用于执行惩罚权重，权重。L₁ 正则化有助于提升不相关的或几乎不相关特征设为 0。一项具有以下特征的功能：权重为 0 就相当于从模型中移除了权重。

与 L₂ 正则化相对。

L₂ 损失

#fundamentals

损失函数，用于计算平方实际标签值和由模型预测的值。例如，以下是在 5 的 batch 中计算 L₂ 损失示例：

样本的实际值	模型的预测值	增量平方
7	6	1
5	4	1
8	11	9
4	6	4
9	8	1
		16 = L₂ 损失

由于平方，L₂ 损失放大了 离群值。也就是说，L₂ 损失对不良预测的反应比 L₁ 损失。例如，L₁ 损失函数应为 8，而不是 16。请注意， 16 个模型中有 9 个来自离群值。

回归模型通常使用 L₂ 损失函数作为损失函数。

均方误差是每个样本的 L₂ 损失。 平方损失是 L₂ 损失的别名。

点击该图标即可查看正式数学计算。

$$ L_2 loss = \sum_{i=0}^n {(y_i - \hat{y}_i)}^2$$

其中：

$n$ 为样本数。
$y$ 是标签的实际值。
$\hat{y}$ 是模型针对 $y$ 预测的值。

L₂ 正则化

#fundamentals

一种正则化，用于执行惩罚权重，与权重的平方和成比例。 L₂ 正则化有助于增加离群值权重（具有较大正值或较小负值）且接近于 0，但并非正好为 0。值非常接近 0 的特征将保留在模型中但对模型的预测没有太大影响。

L₂ 正则化始终可以改进泛化， 线性模型。

与 L₁ 正则化相对。

有标签样本

#fundamentals

一个示例包含一个或多个特征和一个 label。例如，下表显示了房屋估价模型中的有标签样本，每个样本都有三个特征和一个标签：

卧室数量	浴室数量	房龄	房价（标签）
3	2	15	345,000 美元
2	1	72	179,000 美元
4	2	34	392,000 美元

在监督式机器学习中，这些模型会基于有标签样本进行训练， 无标签样本。

对比有标签样本与无标签样本。

lambda

#fundamentals

与正则化率的含义相同。

lambda 是一个多含义术语。我们在此重点介绍 正则化中的定义。

图层

#fundamentals

一组神经元 神经网络。三种常见的图层类型如下：

输入层，负责为所有输入层提供值 features。
一个或多个隐藏层，特征与标签之间的非线性关系。
输出层，提供预测结果。

例如，下图显示了一个输入层、两个隐藏层和一个输出层：

具有一个输入层、两个隐藏层和一个
输出层。输入层包含两个特征。第一个
由三个神经元和第二个隐藏层组成，
由两个神经元组成。输出层由单个节点组成。

在 TensorFlow 中，层也是 Python 函数，张量和配置选项作为输入和生成其他张量作为输出。

学习速率

#fundamentals

一个告知梯度下降法的浮点数算法调整权重和偏差的幅度，迭代。例如，如果学习速率为 0.3，权重和偏差的调整幅度是学习速率的三倍为 0.1。

学习速率是一个重要的超参数。如果您将学习速率太低，训练所需的时间会太长。如果因为如果将学习速率设置得过高，梯度下降法通常实现收敛。

点击该图标可获得更符合数学条件的解释。

在每次迭代过程中， 梯度下降法 算法将学习速率。所得产品称为 梯度步长。

线性

#fundamentals

两个或多个变量之间的关系，这些变量可以单独表示通过加法和乘法得出的结果。

线性关系的曲线图是一条直线。

与nonlinear相对。

线性模型

#fundamentals

一种模型，为每个模型分配一个权重 feature，用于进行预测。（线性模型也包含偏差。）相比之下，深度模型中特征与预测的关系通常是非线性的。nonlinear

线性模型通常更容易训练，而且可解释性。不过，深度模型可以学习特征之间的复杂关系。

线性回归和逻辑回归是两种类型的线性模型。

点击该图标即可查看计算结果。

线性模型遵循以下公式：

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

其中： <ph type="x-smartling-placeholder">

年为原始预测。（在某些类型的线性模型中，将作进一步修改。有关示例，请参见 逻辑回归。）
b 是偏差。
w 是权重，因此 w₁ 是第一个特征的权重，w₂ 是第二个特征，依此类推。
x 是一个特征，因此 x₁ 是第一个特征的值，x₂ 是第二个特征的值，依此类推。

。例如，假设某个针对三个特征的线性模型学习了以下内容偏差和权重： <ph type="x-smartling-placeholder">

b = 7
w₁ = -2.5
w₂ = -1.2
w₃ = 1.4

。因此，假设有三个特征 (x₁、x₂、和 x₃），线性模型使用以下方程生成每个预测：

y' = 7 + (-2.5)(x₁) + (-1.2)(x₂) + (1.4)(x₃)

假设某个特定示例包含以下值：

x₁ = 4
x₂ = -10
x₃ = 5

。将这些值代入公式可得到本示例的预测结果：

y' = 7 + (-2.5)(4) + (-1.2)(-10) + (1.4)(5)
y' = 16

线性模型不仅包括仅使用线性方程进行预测，而且可以使用线性方程的更广泛的模型集用作预测公式中的一个组成部分。例如，逻辑回归会对原始图片进行后处理，预测 (y') 以生成 0 到 1 之间的最终预测值，。

线性回归

#fundamentals

一种同时满足以下两个条件的机器学习模型：

该模型是一个线性模型。
预测结果为浮点值。（这是 fallback 是线性回归的一部分。）

对比线性回归与逻辑回归。此外，请将回归与分类进行比较。

逻辑回归

#fundamentals

一种可预测概率的回归模型。逻辑回归模型具有以下特征：

此标签是分类标签。术语“逻辑” 回归通常是指二元逻辑回归，即一个模型，该模型计算具有两个可能值的标签的概率。不太常见的变体是多项逻辑回归，用于计算标签概率。
训练期间的损失函数为对数损失函数。（对于标签，可以并行放置多个对数损失单元可能的值超过两个）。
该模型具有线性架构，而不是深度神经网络。不过，该定义的其余部分也适用于深度模型，用于预测概率，。

例如，假设某个逻辑回归模型计算垃圾邮件或非垃圾邮件的概率。在推理期间，假设模型预测值为 0.72。因此，模型正在估算：

有 72% 的电子邮件是垃圾邮件。
电子邮件不是垃圾邮件的可能性为 28%。

逻辑回归模型使用以下两步式架构：

模型通过应用线性函数生成原始预测 (y') 输出特征。
模型将该原始预测用作输入， S 型函数，将原始预测为 0 到 1 之间的值（不含 0 和 1）。

与任何回归模型一样，逻辑回归模型可以预测数字。然而，这个数字通常成为二元分类的一部分。如下所示：

如果预测数字大于 分类阈值、二元分类模型可预测正类别。
如果预测数量小于分类阈值，二元分类模型会预测负类别。

对数损失函数

#fundamentals

二进制程序中使用的损失函数逻辑回归。

点击该图标即可查看计算结果。

以下公式用于计算对数损失：

$$\text{Log Loss} = \sum_{(x,y)\in D} -y\log(y') - (1 - y)\log(1 - y')$$

其中：

$(x,y)\in D$ 是包含多个已加标签的数据点的数据集样本，也就是 $(x,y)$ 配对。
$y$ 是有标签样本中的标签。由于这是逻辑回归， $y$ 的每个值都必须为 0 或 1。
$y'$ 是预测值（介于 0 和 1 之间，不包括 0 和 1）。给定 $x$中的特征集。

对数几率

#fundamentals

某些事件的发生几率的对数。

点击该图标即可查看计算结果。

如果事件是二元概率，则几率指的是成功概率 (p) 与成功概率的比率失败 (1-p)。例如，假设指定事件的 90% 成功概率和失败概率为 10%。在此示例中几率的计算公式如下：

$$ {\text{odds}} = \frac{\text{p}} {\text{(1-p)}} = \frac{.9} {.1} = {\text{9}} $$

简单来说，对数几率是指几率的对数。按照惯例 “对数”指的是自然对数、但对数实际上可以是任何大于 1 的底数。根据惯例，我们样本的对数几率为：

$$ {\text{log-odds}} = ln(9) ~= 2.2 $$

对数几率函数是 S 型函数。

负

#fundamentals

在 监督式模型，用于衡量模型的预测结果源自其标签。

损失函数计算损失。

损失曲线

#fundamentals

损失作为训练次数的函数图迭代。以下曲线图显示了典型的损失曲线：

损失与训练迭代的笛卡尔图，显示了
初始迭代的损失迅速下降，然后逐渐下降
在最后一次迭代期间，下降，然后呈现平缓的趋势。

损失曲线可以帮助您确定模型收敛或过拟合。

损失曲线可以绘制以下所有类型的损失：

训练损失
验证损失
测试损失

另请参阅泛化曲线。

损失函数

#fundamentals

在训练或测试期间，数学函数，用于计算一批样本的损失。损失函数返回的损失较低，较之准确预测模型，预测不佳。

训练的目标是尽可能减小损失函数的回车。

存在许多不同类型的损失函数。选择合适的损失函数。例如：

L₂ 损失（或均方误差）是线性回归的损失函数。
对数损失函数是逻辑回归。

M

机器学习

#fundamentals

用于训练 model。经过训练的模型根据从以下数据中抽取的新（以前从未见过）数据做出有用的预测：与用于训练模型的分布相同。

机器学习也指程序或系统。

多数类

#fundamentals

视频中更常见的标签 分类不平衡的数据集。例如：假设一个数据集包含 99% 负类别标签和 1% 正类别标签，负类别标签是多数类别。

与少数类相对。

小批次

#fundamentals

在一个集中处理的批次中随机选择的一小部分迭代。小批次的批次大小通常是 10 到 1,000 个样本。

例如，假设整个训练集（全批量）包含 1000 个样本。进一步假设您将将每个小批次的批次大小设置为 20。因此，每个从 1000 个样本中随机选择 20 个样本确定损失，然后会相应地调整权重和偏差。

相较于基于模型的预测，损失。

少数类

#fundamentals

中不常见的标签 分类不平衡的数据集。例如：假设一个数据集包含 99% 负类别标签和 1% 正类别标签，正类别标签是少数类。

与大多数类别相对。

点击该图标即可查看其他备注。

包含 100 万个样本声音的训练集令人敬佩。但是，如果少数类别的代表性较差，那么即使训练集非常大，也可能无法解决问题。减少专注数据集中的样本总数以及少数类中的样本。

如果您的数据集未包含足够的少数类样本，请考虑使用降采样（定义）来补充少数类。

模型

#fundamentals

一般来说，任何处理输入数据并返回数据的数学结构输出。换句话说，模型是一系列参数和结构，是系统进行预测所需的。在监督式机器学习中，模型将样本作为输入，并推断出 predict 作为输出。在监督式机器学习中，模型有所不同。例如：

线性回归模型由一组权重组成和偏差。
神经网络模型由以下部分组成：
- 一组隐藏层，每个隐藏层包含一个或多个隐藏层，更多神经元。
- 与每个神经元相关的权重和偏差。
决策树模型由以下部分组成：
- 树木的形状；即条件模式和叶子相连。
- 条件开，叶子。

您可以保存、恢复模型或制作模型副本。

非监督式机器学习 生成模型，通常是一个函数，可将输入样本最合适的集群。

点击该图标即可将代数函数和编程函数与机器学习模型进行比较。

如下所示的代数函数是一个模型：

  f(x, y) = 3x -5xy + y² + 17

上述函数将输入值（x 和 y）映射到输出。

同样，如下所示的编程函数也是一个模型：

def half_of_greater(x, y):
  if (x > y):
    return(x / 2)
  else
    return(y / 2)

调用程序会将参数传递给前面的 Python 函数，而 Python 函数生成输出（通过 return 语句）。

虽然采用深度神经网络 其数学结构与代数深度神经网络仍然接受输入（样本）并返回输出（预测）。

一名人类程序员手动编写一个编程函数。相比之下，机器学习模型会逐步学习自动训练期间的 GRU 状态。

多类别分类

#fundamentals

在监督式学习中，分类问题其中数据集包含两个以上的 类。例如，Iris 数据集中的标签必须是下列其中一项三个类：

山鸢尾
维吉尼亚鸢尾
变色鸢尾

一个根据 Iris 数据集训练的模型，用于根据新示例预测鸢尾花类型执行多类别分类。

相比之下，区分两种问题的分类问题则是类别是二元分类模型。例如，预测“垃圾邮件”或“非垃圾邮件”的电子邮件模型是一种二元分类模型。

在聚类问题中，多类别分类是指两个集群中。

否

负类别

#fundamentals

在二元分类中，一个类别是另一个称为正面，另一个称为否定。正类别为模型要测试的事物或事件，负类别例如：

在医学检查中，负类别可以是“非肿瘤”。
电子邮件分类器中的负类别可能是“非垃圾邮件”。

与正类别相对。

输出表示

#fundamentals

至少包含一个模型 隐藏层。深度神经网络包含多个隐藏层。例如，下图中的显示了包含两个隐藏层的深度神经网络。

一个神经网络，具有一个输入层、两个隐藏层和一个
输出层。

神经网络中的每个神经元都连接到下一层中的所有节点。例如，在上图中，请注意三个神经元在第一个隐藏层中，分别与 Transformer 模型中的两个神经元第二个隐藏层。

在计算机上实现的神经网络有时称为 人工神经网络，大脑和其他神经系统中存在的神经网络。

一些神经网络可以模拟极其复杂的非线性关系不同特征和标签之间的差异。

另请参阅卷积神经网络和 循环神经网络。

神经元

#fundamentals

在机器学习中，隐藏层中的一个不同单元属于神经网络的一部分。每个神经元执行以下任务：以下两步操作：

计算输入值相乘的加权和 权重。
将加权和作为输入传递给激活函数。

第一个隐藏层中的神经元接受来自特征值的输入。在输入层中。之后的任何隐藏层中的神经元，第一个隐藏层接受来自前一个隐藏层中神经元的输入。例如，第二个隐藏层中的神经元接受来自神经元。

下图突出显示了两个神经元及其输入。

一个神经网络，具有一个输入层、两个隐藏层和一个
输出层。突出显示两个神经元：第一个神经元
一个隐藏层，另一个位于第二个隐藏层。突出显示的
第一个隐藏层中的神经元可接收来自两个特征的输入。
输入层中。第二个隐藏层中突出显示的神经元
从第一个隐藏层中的三个神经元中分别接收输入，
层。

神经网络中的神经元会模仿大脑中神经元的行为，神经系统的其他部分。

节点（神经网络）

#fundamentals

隐藏层中的神经元。

nonlinear

#fundamentals

无法只表示两个或多个变量之间的关系通过加法和乘法得出的结果。线性关系可以用一条线来表示nonlinear关系以一条线表示例如，假设有两个模型映射到单个标签。左侧的模型是线性模型而右侧的模型为非线性模型：

两个曲线图。一个曲线图是一条直线，因此这是线性关系。
另一个曲线图是曲线，因此这是非线性关系。

非平稳性

#fundamentals

其值在一个或多个维度（通常是时间）会发生变化的特征。以下面的非平稳性示例为例：

特定商店销售的泳衣数量因季节而异。
特定地区特定水果收获的数量在一年的大部分时间里都是零，但在短期内较大。
由于气候变化，年度平均气温正在发生变化。

与平稳性相对。

归一化

#fundamentals

从广义上讲，转换变量实际范围的过程转换为标准的值范围，例如：

-1 至 +1
0 至 1
正态分布

例如，假设某个特征的值的实际范围是 800 至 2,400。在特征工程中，您可以将实际值归一化为一个标准范围，例如以 -1 为 +1。

归一化是 特征工程。模型的训练速度通常更快模型中的每个数值特征， 特征向量的范围大致相同。

数值数据

#fundamentals

用整数或实数表示的特征。例如，房屋估价模型可能会将房屋估价（以平方英尺或平方米为单位）。表示一种数值数据，表示该特征的值与标签的数学关系。也就是说，房屋的平方米数与房屋价值的数学关系。

并非所有整数数据都应表示为数值数据。例如：世界上某些地区的邮政编码是整数；但是，整数邮政在模型中不应表示为数值数据。这是因为邮政编码 20000 的效果不是邮政编码的两倍（或一半） 10,000。此外，虽然不同的邮政编码确实对应不同的则我们无法假设邮政编码的房地产价值在邮政编码为 10000 时，20000 的价值是房地产价值的两倍。邮政编码应表示为分类数据 。

数值特征有时也称为 连续特征。

O

离线

#fundamentals

相当于 static。

离线推理

#fundamentals

模型生成一批预测的过程然后缓存（保存）这些预测。然后，应用便可以访问从缓存中进行预测，而不是重新运行模型。

例如，假设一个模型生成本地天气预报（预测）。每个模型运行后，系统会缓存所有本地天气预报。天气应用会检索天气预报从缓存中移除

离线推理也称为静态推理。

与在线推理相对。

独热编码

#fundamentals

将分类数据表示为向量，其中：

一个元素设置为 1。
所有其他元素均设为 0。

独热编码通常用于表示字符串或标识符，具有一组有限的可能值。例如，假设某个分类特征名为 Scandinavia 有五个可能的值：

“丹麦”
“瑞典”
“挪威”
“芬兰”
“冰岛”

独热编码可以表示这五个值中的每个值，如下所示：

country	矢量
“丹麦”	1	0	0	0	0
“瑞典”	0	1	0	0	0
“挪威”	0	0	1	0	0
“芬兰”	0	0	0	1	0
“冰岛”	0	0	0	0	1

得益于独热编码，模型可以学习。

将特征表示为数值数据是一种是独热编码的替代方案。遗憾的是，代表从数量来看，斯堪的纳维亚国家并不是一个好的选择。例如：请考虑以下数字表示形式：

“丹麦”为 0
“瑞典”为 1
“挪威”是 2
“芬兰”是 3
“冰岛”是 4

通过数字编码，模型可以解读原始数字并尝试利用这些数字进行训练。然而，冰岛实际上并不是因此模型会得出一些奇怪的结论。

一对多

#fundamentals

假设存在一个 N 类别的分类问题，由 N 个单独的 二元分类器 - 一个二元分类器，可能的结果。例如，假设有一个对样本进行分类的模型一对多解决方案，可以提供三个独立的二元分类器：

动物和非动物
蔬菜和非蔬菜
矿物和非矿物

在线

#fundamentals

与动态的含义相同。

在线推理

#fundamentals

根据需求生成预测。例如：假设某个应用将输入传递给模型，并针对预测。使用在线推理的系统通过运行模型（并将预测结果返回给应用）。

与离线推理相对。

输出层

#fundamentals

“最终版本”是神经网络的一层。输出层包含预测结果。

下图显示了一个带输入的小型深度神经网络，、两个隐藏层和一个输出层：

过拟合

#fundamentals

创建与所选模型匹配的 训练数据过于紧密，以致于模型无法根据新数据做出正确的预测。

正则化可以减少过拟合。使用庞大而多样的训练集进行训练也可以减少过拟合。

点击该图标即可查看其他备注。

过拟合就好比严格遵循您最喜欢的建议教师。您很可能会在该老师的课程中取得成功，但可能“过拟合”能够积极采纳该教师的想法，类。同时，多名教师给出的建议将帮助你更好地适应新情况。

P

pandas

#fundamentals

基于 numpy 构建的面向列的数据分析 API。许多机器学习框架包括 TensorFlow，支持将 Pandas 数据结构作为输入。请参阅 Pandas 文档了解详情。

参数

#fundamentals

模型学习的权重和偏差 training. 的。例如，在 线性回归模型，其参数包括偏差 (b) 和所有权重（w₁、w₂、等）。

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

相比之下，超参数是你（或超参数转换服务）提供给模型。例如，学习速率就是一种超参数。

正类别

#fundamentals

要测试的类。

例如，癌症模型中的正类别可以是“肿瘤”。在电子邮件分类器中，正类别可以是“垃圾邮件”。

与负类别相对。

点击该图标即可查看其他备注。

正类别一词可能会让人感到困惑，因为“正面”结果往往会取得不良结果。例如，许多医学检查与肿瘤或疾病相关。一般来说，您需要 “祝贺您！您的检测结果为阴性。” 无论如何，正类别就是测试要查找的事件。

不可否认，你是在同时测试正面和负面效果类。

后处理

#fairness

#fundamentals

运行模型后调整模型的输出。后处理可用于强制执行公平性约束，自己修改模型的过程。

例如，可以将后处理应用于二元分类器方法是设置分类阈值，保持机会平等 检查真正例率 都是相同的。

预测

#fundamentals

模型的输出。例如：

二元分类模型的预测结果要么是正例，类别或负类别。
多类别分类模型的预测是一个类别。
线性回归模型的预测结果是一个数字。

代理标签

#fundamentals

用于粗略在数据集内无法直接提供的标签的数据。

例如，假设您必须训练模型来预测员工压力水平。您的数据集包含很多预测特征，未包含名为压力水平的标签。信心十足，拿出“工作场所事故”用作压力水平。毕竟，承受高压力的员工会而不是让员工平静下来真的吗？可能是工作场所事故实际上是出于多种原因的。

再举个例子，假设您要将 is it raining? 设为布尔值标签。但您的数据集不包含雨水数据。如果您就可以创建一些人物照片遮阳伞作为“在下雨吗？”的代理标签。你说的是不是一个合适的代理标签？有可能，但某些文化背景的人相比下雨，人们更有可能带伞防晒。

代理标签通常并不完善。请尽可能选择实际标签，代理标签。也就是说，如果没有实际标签，请选择代理标签，选择最不严重的候选代理标签。

R

RAG

#fundamentals

缩写 检索增强生成。

标注者

#fundamentals

为样本提供标签的人员。 “注释者”是标注者的别称。

修正线性单元 (ReLU)

#fundamentals

一个具有以下行为的激活函数：

如果输入为负或 0，则输出为 0。
如果输入为正数，则输出等于输入。

例如：

如果输入为 -3，则输出为 0。
如果输入为 +3，则输出为 3.0。

以下是 ReLU 的一个曲线图：

ReLU 是一种非常流行的激活函数。虽然行为简单， ReLU 仍然能让神经网络学习非线性函数nonlinear 特征和标签之间的关系。

回归模型

#fundamentals

通俗地说，是指生成数值预测的模型。（相比之下，分类模型会生成一个类， prediction.)例如，以下都是回归模型：

用于预测某个房屋价值（例如 423,000 欧元）的模型。
用于预测某棵树的预期寿命（如 23.2 年）的模型。
一个用于预测某个城市降雨量的模型例如“0.18 英寸”

两种常见的回归模型类型是：

线性回归，用于找出最接近使标签值适合特征。
逻辑回归，生成之后系统映射到某个类别的概率，预测。

并非所有输出数值预测结果的模型都是回归模型。在某些情况下，数字预测实际上只是一种分类模型恰好具有数字类名称的事件。例如，预测数字邮政编码属于分类模型，而不是回归模型。

正则化

#fundamentals

任何可减少过拟合的机制。常见的正则化类型包括：

L₁ 正则化
L₂ 正则化
dropout 正则化
早停法（这不是正式的正则化方法，但可以有效限制过拟合）

正则化还可以定义为对模型复杂度的惩罚。

点击该图标即可查看其他备注。

正则化有违常理。通常增加正则化训练损失增加了，这令人感到困惑，因为 最大限度地减少训练损失的目标是什么？

实际上，不行。目标不是最大限度减少训练损失。我们的目标是能够对真实示例做出出色的预测。值得注意的是，虽然增加正则化会增加训练损失，这通常有助于模型基于真实示例进行更好的预测。

正则化率

#fundamentals

一个数字，用于指定 正则化。提升正则化率可以降低过拟合，但降低模型的预测能力。相反，减少或省略正则化率会增加过拟合。

点击该图标即可查看计算结果。

正则化率通常以希腊字母 lambda 表示。以下简化的损失公式显示了 lambda 的影响：

$$\text{minimize(loss function + }\lambda\text{(regularization))}$$

其中正则化是指任何正则化机制，包括：

L₁ 正则化
L₂ 正则化

ReLU

#fundamentals

校正线性单元的缩写。

检索增强生成 (RAG)

#fundamentals

提高网页质量的 大语言模型 (LLM) 输出将模型与在模型训练完成后检索到的知识来源结合起来进行分析。 RAG 通过为训练好的 LLM 提供访问从可信知识库或文档中检索到的信息。

使用检索增强生成的常见动机包括：

提高模型所生成回答的事实准确性。
让模型可以访问未用于训练的知识。
改变模型使用的知识。
启用模型以引用来源。

例如，假设化学应用使用 PaLM API，用于生成摘要。与用户查询的内容相关当应用后端收到查询时，会执行以下操作：

搜索（“检索”）与用户查询相关的数据。
将相关化学数据附加（“增强功能”）到用户的查询中。
指示 LLM 根据附加的数据创建摘要。

ROC（接收者操作特征）曲线

#fundamentals

真正例率与不同指标的假正例率 分类阈值（以二进制形式）分类。

ROC 曲线的形状表明二元分类模型的能力来区分正类别和负类别。例如，假设二元分类模型完全全部正类别中的权重：

一个数轴，右侧是 8 个正例；
左侧为 7 个反例。

上述模型的 ROC 曲线如下所示：

ROC 曲线。x 轴表示假正例率，y 轴表示
是真正例率。曲线为反转的 L 形。曲线
从 (0.0,0.0) 开始，一直向上延伸到 (0.0,1.0)。然后曲线
从 (0.0,1.0) 到 (1.0,1.0)。

相比之下，下图则显示了原始逻辑回归也就是无法区分负类别和负类别的正类别：

包含正例和负类别的数轴

此模型的 ROC 曲线如下所示：

ROC 曲线，实际上是 (0.0,0.0) 的直线
到 (1.0,1.0)。

与此同时，在现实世界中，大多数二元分类模型正类别和负类别都在一定程度上，但通常并不完美。因此，典型的 ROC 曲线介于以下两个极端之间：

ROC 曲线。x 轴表示假正例率，y 轴表示
是真正例率。ROC 曲线近似于摇动的弧形
从西向北遍历罗盘点

理论上，ROC 曲线上最接近 (0.0,1.0) 的点可识别理想的分类阈值。不过，现实生活中的一些其他问题影响对理想分类阈值的选择。例如：假负例比假正例更能带来痛苦。

一种称为AUC的数值指标将 ROC 曲线总结为单个浮点值。

均方根误差 (RMSE)

#fundamentals

均方误差的平方根。

S

S 型函数

#fundamentals

一个数学函数，将输入值限制在受限范围内，通常为 0 到 1 或 -1 到 +1。也就是说，您可以将任意数字（二、一百万、负十亿）加 S 型函数，则输出值仍然会限制范围。 S 型激活函数的曲线图如下所示：

S 型函数在机器学习中有多种用途，包括：

将一个逻辑回归或多项回归模型概率。
在某些 API 中充当激活函数神经网络。

点击该图标即可查看计算结果。

针对输入数 x 的 S 型函数使用以下公式：

$$ sigmoid(x) = \frac{1}{1 + e^{-\text{x}}} $$

在机器学习中，x 通常是一个加权和。

softmax

#fundamentals

这个函数用于确定多类别分类模型。概率相加精确到 1.0。例如，下表显示了 softmax 的概率：

图片是...	Probability
狗	0.85
猫	0.13
马	0.02

Softmax 也称为完整 softmax。

与候选采样相对。

点击该图标即可查看计算结果。

softmax 方程如下所示：

$$\sigma_i = \frac{e^{\text{z}_i}} {\sum_{j=1}^{j=K} {e^{\text{z}_j}}} $$

其中： <ph type="x-smartling-placeholder">

$\sigma_i$ 为输出向量。输出矢量的每个元素指定此元素的概率。所有元素的总和为 1.0。输出向量包含相同的数字，作为输入矢量 $z$。
$z$ 为输入矢量。输入矢量的每个元素都包含浮点值。
$K$ 指的是输入矢量中的元素数量（向量）。

例如，假设输入矢量为：

[1.2, 2.5, 1.8]

因此，softmax 按如下方式计算分母：

$$\text{denominator} = e^{1.2} + e^{2.5} + e^{1.8} = 21.552$$

因此，每个元素的 softmax 概率为：

$$\sigma_1 = \frac{e^{1.2}}{21.552} = 0.154 $$ $$\sigma_2 = \frac{e^{2.5}}{21.552} = 0.565 $$ $$\sigma_1 = \frac{e^{1.8}}{21.552} = 0.281 $$

因此，输出矢量为：

$$\sigma = [0.154, 0.565, 0.281]$$

$\sigma$ 中三个元素的总和为 1.0。哎呀！

稀疏特征

#language

#fundamentals

一种特征，其值主要为零或为空。例如，包含单个 1 值和一百万个 0 值的特征即 Sparse。相比之下，密集特征则具有则不为零或为空。

在机器学习中，数量惊人的特征是稀疏特征。分类特征通常是稀疏特征。例如，某森林内有 300 种可能的树种，可能只是“枫树”。或者，在数以百万计的视频库中可能存在的视频，那么可能只用一个示例只有“Casablanca”

在模型中，您通常使用 独热编码。如果独热编码很大，就可以将嵌入层 进行独热编码，以提高效率。

稀疏表示法

#language

#fundamentals

仅存储稀疏特征中非零元素的位置。

例如，假设名为 species 的分类特征标识了 36 特定森林中的树木品种。进一步假设每个 example 仅标识一个物种。

您可以使用独热矢量来表示每个样本中的树种。独热矢量将包含一个 1（用来表示以及 35 个 0（表示有 35 个树种，因此，独热表示法的 maple 可能如下所示：

一个矢量，其中位置 0 到 23 存储值 0，即位置
24 存储值 1，位置 25 到 35 存储值 0。

或者，稀疏表示法则直接确定特定物种。如果 maple 位于位置 24，则使用稀疏表示法的 maple 可能只是：

请注意，稀疏表示法比独热表示法更紧凑表示。

点击该图标可查看稍微复杂一些的示例。

假设模型中的每个样本都必须代表单词，英语句子中这些单词的顺序。英语大约有 17 万个单词，地图项包含大约 170,000 个元素。大多数英语句子都使用在这 170,000 个字词中是极小的比例，但单个样本几乎肯定是稀疏数据。

请思考以下句子：

My dog is a great dog

您可以使用独热矢量的变体来表示此句子。在此变体中，向量中的多个单元格可以包含非零值。此外，在这个变体中，单元格可以包含整数而不是一个。尽管“我的”“是”“a”和“优秀”仅显示在这个句子中，出现一次单词“dog”出现两次。使用表示此句子中字词的独热矢量可生成以下内容包含 170,000 个元素的矢量：

同一句子的稀疏表示法则是：

如果您感到困惑，请点击该图标。

术语“稀疏表示法”由于存在数据稀疏性，表示法本身不是稀疏向量。更确切地说，是这种表示法实际上是稀疏向量的密集表示法。同义词索引表示法比 “稀疏表示法”。

稀疏向量 (sparse vector)

#fundamentals

一个值大部分为零的向量。另请参阅稀疏特征和稀疏性。

平方损失

#fundamentals

与 L₂ 损失的含义相同。

静态

#fundamentals

某件事只执行一次，而不是一直进行。术语“静态”和“离线”是同义词。以下是静态和离线在机器中的常见用法正在学习：

静态模型（也称为“离线模型”）是指训练一次、然后一段时间。
静态训练（即离线训练）是训练静态模型。
静态推理（也称作离线推理）是一种模型一次生成一批预测的过程。

与动态相对。

静态推理

#fundamentals

与离线推理的含义相同。

平稳性

#fundamentals

一种特征，其值在一个或多个维度内（通常是时间）不会改变。例如，某个特征在 2021 年值看起来大致相同， 2023 年展现出平稳性。

在现实世界中，很少有特征展现平稳性。均匀分配功能 “稳定性”（如海平面）随时间变化的同义词。

与不平稳相对。

随机梯度下降法 (SGD)

#fundamentals

梯度下降法，其中 batch size 为 1。换句话说，SGD 在随机选择了一个样本，从训练集中随机选择。

监督式机器学习

#fundamentals

利用特征及其学习特征来训练模型相应的标签。监督式机器学习也就是研究一系列问题及其对应的相应的回答。在掌握了问题和这样，学生就可以针对未曾见过的新问题就同一主题提出问题。

比较对象 非监督式机器学习。

合成特征

#fundamentals

某个特征不在输入特征中，但由其中一项或多项组合而成创建合成特征的方法包括：

对连续特征进行分桶，将其拆分为多个范围分箱。
创建一个特征组合。
将一个特征值与其他特征值相乘（或相除）或单独使用。例如，如果 a 和 b 是输入特征，则以下是合成特征的示例： <ph type="x-smartling-placeholder">
- ab
- a²
对特征值应用先验函数。例如，如果 c 是输入特征，那么以下是合成特征的示例： <ph type="x-smartling-placeholder">
- sin(c)
- ln(c)

通过归一化或缩放创建的特征不会被视为合成特征。

T

测试损失

#fundamentals

一个指标，表示模型相对于损失 测试集。构建模型时，您需要通常会尽量减小测试损失。这是因为低测试损失与低训练损失相比，信号质量更强；或者 验证损失低。

测试损失与训练损失或验证损失之间有时会有很大的差距建议您增加 正则化率。

训练

#fundamentals

确定理想参数（权重和构建一个模型。在训练期间，系统会样本，然后逐步调整参数。训练使用从几倍到数十亿次不等。

训练损失

#fundamentals

一个指标，代表模型损失特定的训练迭代。例如，假设损失函数是均方误差。训练损失（平均平方误差），第 10 次迭代的训练损失为 2.2，则第 100 次迭代为 1.9。

损失曲线绘制了训练损失与迭代。损失曲线提供有关训练的以下提示：

下降斜率表示模型在改进。
斜率上升表示模型在变差。
斜率表示模型已达到收敛。

例如，下面的一些理想化的损失曲线 显示：

初始迭代期间出现急剧下降的斜坡，这意味着快速改进模型。
呈逐渐变平（但仍在向下）的斜坡，直至接近终点模型在某种程度上得到了持续改进，速度会比初始迭代慢慢一些。
接近训练结束的斜率，表示已收敛。

训练损失与迭代次数的曲线图。这条损失曲线始于
陡峭的斜坡斜坡逐渐变平，直到
斜率为零。

虽然训练损失很重要，另请参阅泛化。

训练-应用偏差

#fundamentals

模型在运行期间训练和同一模型的性能 serving。

训练集

#fundamentals

用于训练模型的数据集的子集。

按照传统，数据集中的样本分为以下三个不同的子集：

训练集
验证集
一个测试集

理想情况下，数据集中的每个样本都应仅属于前面的子集。例如，一个示例不应属于训练集和验证集。

真负例 (TN)

#fundamentals

在样本中，模型会正确预测出 负类别。例如，模型推断出特定电子邮件并非垃圾邮件，且该邮件确实是 这不是垃圾邮件。

真正例 (TP)

#fundamentals

在样本中，模型会正确预测出 正类别。例如，模型推断出某封电子邮件是垃圾邮件，而该邮件确实是垃圾邮件。

真正例率 (TPR)

#fundamentals

与召回率的含义相同。具体来说：

$$\text{true positive rate} = \frac{\text{true positives}} {\text{true positives} + \text{false negatives}}$$

真正例率是 ROC 曲线的 y 轴。

U

欠拟合

#fundamentals

生成预测能力较差的模型，因为模型未能完全体现训练数据的复杂性。有很多问题可能会导致欠拟合，包括：

使用错误的特征集进行训练。
训练的周期过少或训练时间过短 学习速率。
以过高的正则化率进行训练。
在深度神经网络。

无标签样本

#fundamentals

包含特征但没有标签的样本。例如，下表显示了来自某栋房屋的三个无标签样本评估模型，每个模型都具有三个特征，但没有房屋价值：

卧室数量	浴室数量	房龄
3	2	15
2	1	72
4	2	34

在监督式机器学习中，这些模型会基于有标签样本进行训练， 无标签样本。

在半监督式和 非监督式学习在训练期间使用无标签样本。

对比无标签样本与有标签样本。

非监督式机器学习

#clustering

#fundamentals

训练模型以找出数据集（通常是未加标签的数据集。

非监督式机器学习最常见的用途是 cluster 数据将多个相似的样本划归为一组。例如，无监督机器学习算法可以根据各种属性对歌曲进行聚类生成的集群可以作为其他机器的输入。学习算法（例如音乐推荐服务）。当有用标签稀缺或缺失时，聚类可能有所帮助。例如，在反滥用和反欺诈等领域，聚类分析法有助于能够更好地理解数据

与监督式机器学习相对。

点击该图标即可查看其他备注。

非监督式机器学习的另一个例子是主成分分析 (PCA)。例如，将 PCA 应用于一个包含数百万个购物车中物品的数据集，可能就会揭示

V

validation

#fundamentals

对模型质量的初始评估。验证工具会根据 验证集。

由于验证集与训练集不同，验证有助于防止出现过拟合。

您可能会认为根据验证集评估模型，根据实际数据， test set 作为第二轮测试。

验证损失

#fundamentals

一个指标，表示模型在预测时给出的损失在特定测试期间的验证集 训练的迭代。

另请参阅泛化曲线。

验证集

#fundamentals

在数据集中执行初始操作的子集根据经过训练的模型进行评估。通常，您需要评估根据验证集多次，然后才能根据测试集评估模型。

传统上，您需要将数据集中的样本分成以下三个样本：不同的子集：

训练集
验证集
一个测试集

理想情况下，数据集中的每个样本都应仅属于前面的子集。例如，一个示例不应属于训练集和验证集。

W

重量

#fundamentals

一个模型与另一个值相乘的值。训练是确定模型理想权重的过程；推理是使用这些学到的权重进行预测。

点击该图标即可查看线性模型中的权重示例。

假设某个线性模型有两个特征。假设训练确定以下权重（并且偏差）：

偏差 b 的值为 2.2
与一个特征关联的权重 w₁ 为 1.5。
与另一个特征关联的权重 w₂ 为 0.4。

现在，假设有一个示例具有以下特征值：

特征 x₁ 的值为 6。
另一个特征 x₂ 的值为 10。

该线性模型使用以下公式来生成预测结果： y'：

$$y' = b + w_1x_1 + w_2x_2$$

因此，预测结果为：

$$y' = 2.2 + (1.5)(6) + (0.4)(10) = 15.2$$

如果权重为 0，相应特征对模型。例如，如果 w₁ 为 0，则 x₁ 的值是不相关的。

加权和

#fundamentals

所有相关输入值的总和乘以对应的权重。例如，假设相关输入包含以下内容：

输入值	输入权重
2	-1.3
-1	0.6
3	0.4

因此，加权和为：

weighted sum = (2)(-1.3) + (-1)(0.6) + (3)(0.4) = -2.0

加权和是激活函数。

Z

Z 评分归一化

#fundamentals

一种缩放技术，用于替换原始图片 feature 值，其中的浮点值表示表示与该特征平均值相差的标准差数。例如，假设某个特征的平均值为 800，标准偏差为 100。下表显示了如何将 Z-score 归一化会将原始值映射到其 Z 得分：

原始值	Z 分数
800	0
950	+1.5
575	-2.25

然后，机器学习模型根据 Z 分数进行训练而不是原始值。

机器学习术语表：机器学习基础知识

A

准确性

点击该图标即可查看其他备注。

激活函数

点击该图标即可查看示例。

人工智能

AUC（ROC 曲线下的面积）

点击该图标即可了解曲线下面积与 ROC 曲线之间的关系。

点击该图标即可查看曲线下面积的更正式定义。

B

反向传播算法

批处理

批次大小

偏见（道德/公平性）

偏差（数学）或偏差项

二元分类

分桶

点击该图标即可查看其他备注。

C

分类数据

类别

分类模型

分类阈值

点击该图标即可查看其他备注。

分类不平衡的数据集

裁剪

混淆矩阵

连续特征

收敛

D

DataFrame

数据集或数据集

深度模型

密集特征

深度

离散特征

动态

动态模型

E

早停法

点击该图标即可查看其他备注。

嵌入层

周期数

示例

F

假负例 (FN)

假正例 (FP)

假正例率 (FPR)

功能

特征组合

特征工程

点击该图标可获取有关 TensorFlow 的其他说明。

特征集

特征向量

反馈环

G

泛化

点击该图标即可查看其他备注。

泛化曲线

梯度下降法

标准答案

点击该图标即可查看其他备注。

H

隐藏层

超参数

I

独立同分布 (i.i.d)

推理

输入层

可解释性

迭代

L

L0 正则化

点击该图标即可查看其他备注。

L1 损失

点击该图标即可查看正式数学计算。

L1 正则化

L2 损失

点击该图标即可查看正式数学计算。

L₀ 正则化

L₁ 损失

L₁ 正则化

L₂ 损失

L₂ 正则化