机器学习术语表:机器学习基础知识

本页面包含机器学习基础知识术语表。对于所有术语库术语 点击此处

A

准确性

#fundamentals

正确分类预测的数量除以 除以预测总数。具体来说:

$$\text{Accuracy} = \frac{\text{correct predictions}} {\text{correct predictions + incorrect predictions }}$$

例如,某个模型做出 40 次正确预测和 10 次错误预测 预测的准确率为:

$$\text{Accuracy} = \frac{\text{40}} {\text{40 + 10}} = \text{80%}$$

二元分类可提供具体名称 针对不同类别的正确预测错误预测。二元分类的准确率公式 如下所示:

$$\text{Accuracy} = \frac{\text{TP} + \text{TN}} {\text{TP} + \text{TN} + \text{FP} + \text{FN}}$$

其中:

  • TP 是真正例(正确预测)的数量。
  • TN 为真正例(正确预测)的数量。
  • FP 是指假正例(错误预测)的数量。
  • FN 为假负例(预测错误)的数量。

比较和对比准确性 精确率召回率

激活函数

#fundamentals

神经网络能够进行学习的函数 特征之间的非线性(复杂)关系nonlinear 和标签。

常用的激活函数包括:

激活函数的曲线图绝不是单条直线。 例如,ReLU 激活函数的曲线图包含 两条直线:

两条直线的笛卡尔图。第一行有一个常量,
          y 值为 0,沿 x 轴运行,范围为 -无穷大,0 到 0,-0。
          第二行从 0,0 开始。这条线的斜率为 +1,因此
          范围为 0,0 到 +无穷大,+无穷大。

S 型激活函数的曲线图如下所示:

x 值跨越网域的二维曲线图
          -无穷大到 +正,而 y 值的范围几乎是 0 到 +正
          几乎是 1。当 x 为 0 时,y 为 0.5。曲线的斜率始终为
          正值,最大斜率为 0,0.5,然后逐渐减少
          它们会随着 x 的绝对值增加而逐渐变化。

人工智能

#fundamentals

可以解决复杂任务的非人类程序或模型。 例如,翻译文本的程序或模型,或 通过放射图像识别疾病,均具有人工智能。

正式地说,机器学习是人工智能技术的 情报。然而,近年来,一些组织已开始采用 “人工智能”和“机器学习”这两个术语可以互换。

AUC(ROC 曲线下的面积)

#fundamentals

一个介于 0.0 和 1.0 之间的数字,表示 二元分类模型的 能够将正类别负类别。 AUC 越接近 1.0,模型区分 类。

例如,下图显示了一个分类器模型, 用于区分正类别(绿色椭圆形)与负类别 (紫色矩形)完美呈现。这种不切实际的完美模型 AUC 为 1.0:

数轴,一侧有 8 个正例,
          另一边有 9 个反例。

而下图则展示了分类器的 生成随机结果的模型。此模型的 AUC 为 0.5:

包含 6 个正例和 6 个负例的数轴。
          样本序列是正数、负数、
          正面, 负面, 正面, 负面, 正面, 负面, 正面
          否定、肯定、否定

是,上述模型的 AUC 为 0.5,而不是 0.0。

大多数模型都处于这两种极端之间。例如, 以下模型在一定程度上区分了正类别和负类别, 曲线下面积的曲线在 0.5 到 1.0 之间:

包含 6 个正例和 6 个负例的数轴。
          样本的序列不同,分别是负、负、负、负,
          正面, 负面, 正面, 正面, 负面, 正面, 正面,
          积极。

AUC 会忽略您针对其设置的任何值, 分类阈值。曲线下面积 会考虑所有可能的分类阈值。

B

反向传播算法

#fundamentals

用来实现 梯度下降法神经网络

训练神经网络涉及多次迭代 以下两步循环:

  1. 正向传递期间,系统会处理一批 用于生成预测结果的样本。系统会将每个 根据每个标签值进行预测。两者的区别在于 预测值,标签值是该样本的损失。 系统会汇总所有样本的损失,以计算总的 当前批次的损失。
  2. 反向传播(反向传播算法)期间,系统会通过以下方式减少损失: 调整所有神经元 隐藏层

神经网络通常包含跨多个隐藏层的多个神经元。 其中每个神经元以不同的方式影响整体损失。 反向传播算法确定是增加还是减少权重 应用于特定神经元。

学习速率是控制 每个反向传递每个权重增加或减少的程度。 较大的学习速率会使每个权重的增减幅度超过 学习速率很小。

用微积分学的术语来说,反向传播算法实现的是 链式法则。 也就是说,反向传播算法会计算 误差的偏导数 每个参数的延迟时间。

几年前,机器学习从业者必须编写代码来实现反向传播算法。 现在,TensorFlow 等现代机器学习 API 可以为您实现反向传播算法了。哎呀!

批处理

#fundamentals

一次训练中使用的一组样本 迭代批次大小决定了 。

请参阅周期,了解批次与 一个周期。

批次大小

#fundamentals

一个批次中的样本数量。 例如,如果批次大小为 100,则模型会处理 每次迭代 100 个样本。

下面是常用的批量大小策略:

  • 随机梯度下降法 (SGD),其中批次大小为 1。
  • 全批量,其中批次大小是整个样本中的样本数 训练集。例如,如果训练集 包含 100 万个样本,那么批次大小将为 100 万 示例。全批量策略通常是一种低效的策略。
  • 小批次,其中批次大小通常介于 10 和 1000。小批次策略通常是最有效的策略。

偏见(道德/公平性)

#fairness
#fundamentals

1. 对某些事物、人或事物有成见、偏见或偏爱 或群组的效果这些偏差会影响收集和 数据的解释、系统设计以及用户如何互动 与系统集成。此类偏差的形式包括:

2. 抽样或报告过程中引入的系统错误。 此类偏差的形式包括:

请勿与机器学习模型中的偏差项混淆。预测偏差

偏差(数学)或偏差项

#fundamentals

相对于原点的截距或偏移。偏差是 机器学习模型,由两个模型中的 以下:

  • b
  • w0

例如,在下面的公式中,偏差为 b:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

在简单的二维直线中,偏差仅表示“y 截距”。 例如,下图中线条的偏差为 2。

斜率为 0.5,偏差(y 截距)为 2 的曲线图。

存在偏差是因为并非所有模型都从原点 (0,0) 开始。例如: 假设一个游乐园的门票价格为 2 欧元, 客户入住每小时 0.5 欧元。因此,映射 总费用偏差为 2,因为最低成本为 2 欧元。

不要将偏见与道德和公平性中的偏见相混淆 或预测偏差

二元分类

#fundamentals

一种分类任务, 用于预测两个互斥类别之一:

例如,以下两个机器学习模型各自执行了 二元分类:

  • 一个模型,用于确定电子邮件是否 spam(正类别)或 非垃圾邮件(负类别)。
  • 一种评估医疗症状以确定是否 患有某种特定疾病(正类别)或没有该疾病 疾病(负类别)。

多类别分类相对。

另请参阅逻辑回归 分类阈值

分桶

#fundamentals

将单个特征转换为多个二进制特征 称为“buckets”或“bins”, 通常基于值范围。裁剪地图项通常为 连续特征

例如,不要将体温 连续浮点特征,您可以切断温度范围 离散分区,例如:

  • 小于等于 10 摄氏度就属于“冷”温度存储分区。
  • 11 - 24 摄氏度就是“温带”存储分区。
  • >= 25 摄氏度就属于“温暖”温度存储分区。

模型将以相同方式处理同一分桶中的每个值。对于 例如,值 1322 都位于温带分区中,因此 模型会以相同的方式处理这两个值。

C

分类数据

#fundamentals

特征,具有一组特定的可能值。例如: 假设有一个名为 traffic-light-state 的分类特征, 具有以下三种可能的值之一:

  • red
  • yellow
  • green

通过将 traffic-light-state 表示为分类特征, 模型可以学习 redgreenyellow 对驱动程序行为的不同影响。

分类特征有时也称为 离散特征

数值数据相对。

类别

#fundamentals

标签可以所属的类别。 例如:

  • 二元分类模型中, 垃圾邮件,这两类分别可能是垃圾邮件非垃圾邮件
  • 多类别分类模型中 可识别狗的品种,对应的类可能是贵宾犬小猎犬哈巴狗, 依此类推。

分类模型可预测类别。 相比之下,回归模型可预测出 而不是类。

分类模型

#fundamentals

一种模型,其预测结果是一个类别。 例如,以下都是分类模型:

  • 一个用于预测输入句子语言(法语?西班牙语? 意大利语?)。
  • 一个用于预测树种的模型(枫树?橡树?猴面包树?)。
  • 一种预测特定特征的正类别或负类别的模型 身体状况。

相比之下,回归模型则可预测数字, 而不是类。

两种常见的分类模型是:

分类阈值

#fundamentals

二元分类中, 将一个 0 到 1 之间的数字转换为 逻辑回归模型正类别预测 或负类别。 请注意,分类阈值是人类选择的值, 而不是模型训练选择的值。

逻辑回归模型会输出一个介于 0 到 1 之间的原始值。然后,执行以下操作:

  • 如果此原始值大于分类阈值,则 正类别被预测为正类别。
  • 如果此原始值小于分类阈值,则: 预测负类别。

例如,假设分类阈值为 0.8。如果原始值 为 0.9,则模型会预测为正类别。如果原始值为 0.7,则模型会预测负类别。

分类阈值的选择对 假正例假负例

分类不平衡的数据集

#fundamentals

分类问题的数据集,其中 每个类别的标签数量存在显著差异。 以一个二元分类数据集为例,该数据集包含两个标签 分为以下几类:

  • 100 万个排除标签
  • 10 个肯定标签

负例和正例标签的比率为 100,000:1,因此 属于分类不平衡的数据集。

相比之下,下面的数据集没有分类不平衡,因为 负例标签的比率相对接近于 1:

  • 517 个排除标签
  • 483 个肯定标签

多类别数据集也有可能是类别不平衡的。例如,以下 多类别分类数据集也有类别不平衡,这是因为一个标签 的样本数量远远多于另外两个:

  • 100 万个类别为“green”的标签
  • 200 个类别为“purple”的标签
  • 350 个类别为“orange”的标签

另请参阅大多数类别、 和少数类

裁剪

#fundamentals

一种通过执行下列方法处理离群值的方法: 以下两项或其中一项:

  • 减少大于最大值的 feature 值 降低到该最大阈值
  • 增加小于最小阈值的特征值,直至达到该值 最低阈值。

例如,假设特定特征的值小于 0.5% 不在 40–60 之间。在这种情况下,您可以执行以下操作:

  • 将超过 60(最大阈值)的所有值裁剪到正好 60。
  • 将小于 40(最小阈值)的所有值裁剪到正好 40。

离群值可能会损害模型,有时会导致权重 在训练期间溢出。一些离群值也会严重破坏 准确率等指标。裁剪是限制

渐变裁剪梯度值。

混淆矩阵

#fundamentals

NxN 表格,汇总了正确和错误预测的数量 分类模型所生成的图片。 以下面的混淆矩阵为例, 二元分类模型:

肿瘤(预测) 非肿瘤(预测)
肿瘤(标准答案) 18 (TP) 1(FN)
非肿瘤(标准答案) 6 (FP) 452(田纳西州)

上述混淆矩阵显示以下内容:

  • 标准答案为“肿瘤”的 19 个预测中, 模型正确分类为 18,而错误分类为 1。
  • 在 458 个预测(标准答案为非肿瘤)中,模型 正确分类的 452 和错误分类的 6。

多类别分类的混淆矩阵 有助于你发现错误模式 例如,请考虑以下关于 3 个类别的混淆矩阵, 对三种不同的鸢尾花类型进行分类的多类别分类模型 (维吉尼亚鸢尾、变色龙和山鸢尾)。当标准答案是维珍妮卡时, 混淆矩阵的概率更高, 我预测 Versicolor 与 Setosa 相比:

  山鸢尾(预测) 变色(预测) 维吉尼卡(预测)
山鸢尾(标准答案) 88 12 0
变色(标准答案) 6 141 7
维吉尼卡(标准答案) 2 27 109

再举一个例子,混淆矩阵可以揭示经过训练的模型 识别手写数字时,往往会将 4 错误地预测为 9, 或者错误地预测了 1 而非 7。

混淆矩阵包含计算 各种效果指标,包括精确率召回率

连续特征

#fundamentals

一种浮点特征,可能具有无限可能性 例如温度或重量。

离散特征相对。

收敛

#fundamentals

loss 值变化很小或 而不是每次迭代。例如,以下 损失曲线表明大约 700 次迭代会收敛:

笛卡尔图。X 轴表示损失。Y 轴代表训练时间
          迭代。在前几次迭代期间,损失非常高,
          急剧下降。经过大约 100 次迭代后,损失仍然
          但要慢得多。经过大约 700 次迭代后
          损失保持不变。

如果后续无法训练,则模型会收敛 改进模型。

深度学习中,损失值有时会保持不变或 在最终降序排列之前,在较长时间内 则您可能会暂时产生一种收敛的假象。

另请参阅早停法

D

DataFrame

#fundamentals

一种热门的 Pandas 数据类型,用于表示 内存中的数据集

DataFrame 类似于表格或电子表格。数据中的每一列 DataFrame 有一个名称(标题),每一行都由一个 唯一编号。

DataFrame 中的每一列都采用类似于二维数组的结构,只是 您可以为每个列分配自己的数据类型。

另请参阅官方 pandas.DataFrame 参考 页面

数据集或数据集

#fundamentals

原始数据的集合,通常(但并非专门)整理到一个 以下格式:

  • 电子表格
  • CSV(逗号分隔值)格式的文件

深度模型

#fundamentals

包含多个神经网络的神经网络 隐藏层

深度模型也称为“深度神经网络”。

宽度模型相对。

密集特征

#fundamentals

一种特征,其中大部分或所有值都是非零值,通常 浮点值的张量Tensor。例如,以下 10 元素张量是密集的,因为它的 9 个值是非零值:

8 3 7 5 2 4 0 4 9 6

稀疏特征相对。

深度

#fundamentals

神经网络中的以下各项的总和:

例如,具有五个隐藏层和一个输出层的神经网络 深度为 6。

请注意,输入层 影响深度。

离散特征

#fundamentals

一种特征,包含有限个可能值。例如: 值只能是动物蔬菜矿物的特征是 离散(或分类)特征。

连续特征相对。

动态

#fundamentals

频繁或不断地处理某件事。 术语“动态”和“在线”是机器学习中的同义词。 以下是动态在线在机器中的常见用法 正在学习:

  • 动态模型(或在线模型)是一种模型, 。
  • 动态训练(或在线训练)是训练 频繁或持续不断
  • 动态推理(即在线推理)是 根据需求生成预测。

动态模型

#fundamentals

一个模型经常出现(甚至可能会持续) 重新训练。动态模型是一个“终身学习者”那个 适应不断演变的数据。动态模型也称为 在线模型

静态模型相对。

E

早停法

#fundamentals

一种正则化方法,它涉及 training 训练损失结束之前 下降。在早停法中,您有意停止训练模型, 当验证数据集的损失开始增加到 increase;也就是 泛化效果变差。

嵌入层

#language
#fundamentals

一种特殊的隐藏层,用于基于 高维分类特征来 逐渐学习低维度嵌入向量。一个 嵌入层让神经网络能够训练更多 这比只使用高维分类特征进行训练更高效。

例如,Google 地球目前支持约 73,000 种树种。假设 树种是模型中的特征,所以模型的 输入层包含一个独热矢量,即 73000 元素。 例如,baobab 的表示形式如下:

包含 73,000 个元素的数组。前 6,232 个元素包含
     0.下一个元素的值是 1。最后的 66,767 个元素
     值为零。

包含 73,000 个元素的数组非常长。如果没有添加嵌入层 训练将非常耗时, 72,999 个零相乘。也许您会选择嵌入层, 共 12 个维度因此,嵌入层会逐渐学习 每个树种的新嵌入向量。

在某些情况下,哈希处理是一种合理的替代方案 嵌入层。

周期数

#fundamentals

对整个训练集的完整训练遍历 以便每个样本都处理一次。

一个周期表示 N/批次大小 训练迭代,其中 N 是 样本总数。

例如,假设存在以下情况:

  • 该数据集包含 1000 个样本。
  • 批次大小为 50 个样本。

因此,一个周期需要 20 次迭代:

1 epoch = (N/batch size) = (1,000 / 50) = 20 iterations

示例

#fundamentals

一行 features 的值,可能 一个标签。中的示例 监督式学习可分为两类 常规类别:

  • 有标签样本由一个或多个特征组成 和标签。有标签样本会在训练期间使用。
  • 无标签样本包含一个或 但没有标签。推理期间会使用无标签样本。

例如,假设您正在训练模型来确定 天气状况对学生考试分数的影响。以下是三个有标签的示例:

功能 标签
温度 湿度 压力 测试分数
15 47 998 良好
19 34 1020 极佳
18 92 1012

下面是三个无标签样本:

温度 湿度 压力  
12 62 1014  
21 47 1017  
19 41 1021  

数据集所在的行通常是样本的原始来源。 也就是说,一个样本通常包含 数据集。此外,样本中的特征还可以 合成特征,例如 特征组合

F

假负例 (FN)

#fundamentals

在一个示例中,模型错误地预测了 负类别。例如,模型 预测某封电子邮件不是垃圾邮件 (负类别),但该电子邮件实际上是垃圾邮件。

假正例 (FP)

#fundamentals

在一个示例中,模型错误地预测了 正类别。例如,模型 某封电子邮件是垃圾邮件(正值),但是 电子邮件实际上不是垃圾邮件

假正例率 (FPR)

#fundamentals

模型错误的实际负例所占的比例 预测了正类别。以下公式计算的是 正面率:

$$\text{false positive rate} = \frac{\text{false positives}}{\text{false positives} + \text{true negatives}}$$

假正例率是 ROC 曲线的 x 轴。

功能

#fundamentals

机器学习模型的输入变量。示例 包含一个或多个特征例如,假设您在训练一个 以确定天气状况对学生考试分数的影响。 下表显示了三个示例,每个示例都包含 一个标签:

功能 标签
温度 湿度 压力 测试分数
15 47 998 92
19 34 1020 84
18 92 1012 87

标签相对。

特征组合

#fundamentals

由“组合”形成的合成特征 分类分桶特征。

例如,请考虑使用“情绪预测”该模型 以下 4 个存储分区中的其中一个:

  • freezing
  • chilly
  • temperate
  • warm

并表示以下三个分区之一中的风速:

  • still
  • light
  • windy

如果没有特征组合,线性模型会根据每个特征 前面七个不同的存储分区例如,模型会使用 freezing,而不依赖于训练,例如, windy

或者,您也可以创建一个包含温度和 风速。此合成特征有以下 12 种可能: 值:

  • freezing-still
  • freezing-light
  • freezing-windy
  • chilly-still
  • chilly-light
  • chilly-windy
  • temperate-still
  • temperate-light
  • temperate-windy
  • warm-still
  • warm-light
  • warm-windy

得益于特征组合,模型可以学习情绪差异 介于 freezing-windy 天到 freezing-still 天之间。

如果您通过两个地图项创建合成地图项,而这两个地图项都包含大量 产生的特征组合将有大量 可能的组合。例如,如果一个特征有 1,000 个分桶, 另一个特征有 2,000 个分桶,生成的特征组合有 2,000,000 个 存储分区。

正式地说,交叉是一种 笛卡尔积

特征组合主要用于线性模型,很少使用 和神经网络。

特征工程

#fundamentals
#TensorFlow

此过程涉及以下步骤:

  1. 确定哪些特征可能有用 学习到的知识。
  2. 将数据集中的原始数据转换为 这些功能。

例如,您可以认为 temperature 可能是一个有用的 功能。然后,您可以尝试进行分桶。 优化模型可以从不同 temperature 范围学习到的内容。

特征工程有时称为 特征提取特征化

特征集

#fundamentals

您的机器学习的特征model 进行训练。 例如,邮政编码、房源大小和房源使用情况可能 为预测房价的模型包含一个简单的特征集。

特征向量

#fundamentals

feature 值数组,包含 示例。特征向量是输入的 训练推理期间。 例如,一个具有两个离散特征的模型的特征向量 可能是:

[0.92, 0.56]

四个层:一个输入层、两个隐藏层和一个输出层。
          输入层包含两个节点,
          另一个是 0.92,另一个是 0.56。

每个样本都为特征向量提供不同的值,因此 下一个示例的特征向量可能如下所示:

[0.73, 0.49]

特征工程决定了如何表示 特征向量中的特征。例如,一个二元分类特征 五个可能的值可以用 独热编码。在这种情况下, 特定样本的特征向量将包含四个零, 一个 1.0 放在第三个位置,如下所示:

[0.0, 0.0, 1.0, 0.0, 0.0]

再举一个例子,假设您的模型由三个特征组成:

  • 一个二元分类特征,具有五个可能的值,以 独热编码;例如:[0.0, 1.0, 0.0, 0.0, 0.0]
  • 另一个二元分类特征,其中有三个可能的值表示 采用独热编码;例如:[0.0, 0.0, 1.0]
  • 浮点特征;例如:8.3

在这种情况下,每个样本的特征向量将用 乘以 9 的值。根据上述列表中的示例值, 则特征向量为:

0.0
1.0
0.0
0.0
0.0
0.0
0.0
1.0
8.3

反馈环

#fundamentals

在机器学习中,模型的预测会影响 同一模型或其他模型的训练数据。例如,一个模型 推荐的电影会影响用户观看的电影 影响后续的电影推荐模型。

G

泛化

#fundamentals

模型能够根据新数据 之前未见过的数据。相反,可以泛化的模型

泛化曲线

#fundamentals

训练损失验证损失 迭代

泛化曲线可以帮助您检测 过拟合。例如,以下 泛化曲线表明出现过拟合, 最终明显高于训练损失。

笛卡尔图,其中 y 轴标记为损失,x 轴
          标注的迭代。系统会显示两个图表。一个曲线图显示的是
          另一个显示的是验证损失。
          两个曲线的起点类似,但训练损失最终
          则远低于验证损失。

梯度下降法

#fundamentals

一种最小化损失的数学技术。 梯度下降法以迭代方式 权重偏差, 逐渐找到最佳组合,以最大限度降低损失。

梯度下降法的年代比机器学习晚得多。

标准答案

#fundamentals

真人秀。

实际发生的事情。

例如,假设有一种二元分类 该模型会预测学生在大学的第一年 将在六年内升级此模型的标准答案是 并不是说毕业的学生在六年内就毕业了

H

隐藏层

#fundamentals

神经网络中的一层 输入层(特征)和 输出层(预测)。 每个隐藏层都包含一个或多个神经元 例如,下面的神经网络包含两个隐藏层, 第一个有三个神经元,第二个有两个神经元:

四层。第一层是输入层,包含两个
          功能。第二层是隐藏层,
          神经元。第三层是隐藏层,
          神经元。第四层是输出层。每项功能
          包含三条边,每条边指向不同的神经元
          数据模型。第二层中的每个神经元
          包含两个边,每条边指向不同的神经元
          第三层。第三层中的每个神经元都包含
          每条边都指向输出层。

深度神经网络包含多个 隐藏层。例如,上图展示了深度神经元, 因为模型包含两个隐藏层。

超参数

#fundamentals

您或超参数调节服务的变量 在模型连续运行期间进行调整。例如: 学习速率是一种超参数。您可以 将学习速率设置为 0.01。如果您 0.01 过高,可以将学习 下一个训练课程的预测比率为 0.003。

相反,参数则是各种不同的 模型的权重偏差 在训练期间学习

I

独立同分布 (i.i.d)

#fundamentals

数据来自不会变化的分布,其中每个值 绘制不依赖于之前绘制的值。i.i.d. 是理想气体 机器 学习 - 一种实用的数学结构,但几乎从未发现过 真实世界。例如,某个网页的访问者分布情况 可能是 i.i.d.短时间内;也就是说,分布 但通常只有一次人光顾 而不受他人访问的影响。不过,如果您延长该时间范围 网页访问者的季节性差异就可能表现出来。

另请参阅非平稳性

推理

#fundamentals

在机器学习中, 将经过训练的模型应用于无标签样本

推理在统计学中具有不同的含义。 请参阅 <ph type="x-smartling-placeholder"></ph> 维基百科中有关统计推断的文章

输入层

#fundamentals

神经网络的神经网络 存储的是特征向量。也就是说,输入层 为训练或提供示例 推理。例如,下面的输入层 包含两个特征:

四个层:一个输入层、两个隐藏层和一个输出层。

可解释性

#fundamentals

能够解释或呈现机器学习模型的推理过程 简单易懂的词汇

例如,大多数线性回归模型的性能高度 可解释。(您只需看一看每项训练的 feature.)决策森林也具有高度可解释性。然而,有些模型 需要进行复杂的可视化处理才能变得可解释。

您可以使用 Learning Interpretability Tool (LIT) 来解读机器学习模型。

迭代

#fundamentals

模型参数的一次更新,即模型的 权重偏差 - 期间 训练批次大小决定 模型在单次迭代中处理的样本数。例如, 如果批次大小为 20,则模型会先处理 20 个样本, 调整参数。

在训练神经网络时,单次迭代 涉及以下两个卡券:

  1. 用于评估单个批次的损失的前向传播。
  2. 反向传播(反向传播),用于调整 根据损失和学习速率调整模型参数。

L

L0 正则化

#fundamentals

一种正则化, 会降低非零权重总数 模型中。例如,一个具有 11 个非零权重的模型 会比具有 10 个非零权重的类似模型受到的惩罚更多。

L0 正则化有时称为 L0 正则化

L1 损失

#fundamentals

用于计算绝对值的损失函数 实际标签值和 由模型预测的值。例如,以下是 在 5 的 batch 中计算 L1 损失 示例

样本的实际值 模型的预测值 增量的绝对值
7 6 1
5 4 1
8 11 3
4 6 2
9 8 1
  8 = L1 损失

L1 损失对离群值不太敏感 与 L2 损失相比。

平均绝对误差是 每个样本的 L1 损失。

L1 正则化

#fundamentals

一种正则化,用于执行惩罚 权重, 权重。L1 正则化有助于提升不相关的 或几乎不相关特征设为 0。一项具有以下特征的功能: 权重为 0 就相当于从模型中移除了权重。

L2 正则化相对。

L2 损失

#fundamentals

损失函数,用于计算平方 实际标签值和 由模型预测的值。例如,以下是 在 5 的 batch 中计算 L2 损失 示例

样本的实际值 模型的预测值 增量平方
7 6 1
5 4 1
8 11 9
4 6 4
9 8 1
  16 = L2 损失

由于平方,L2 损失放大了 离群值。 也就是说,L2 损失对不良预测的反应比 L1 损失。例如,L1 损失函数 应为 8,而不是 16。请注意, 16 个模型中有 9 个来自离群值。

回归模型通常使用 L2 损失函数 作为损失函数。

均方误差是 每个样本的 L2 损失。 平方损失是 L2 损失的别名。

L2 正则化

#fundamentals

一种正则化,用于执行惩罚 权重,与权重的平方和成比例。 L2 正则化有助于增加离群值权重( 具有较大正值或较小负值)且接近于 0,但并非正好为 0。 值非常接近 0 的特征将保留在模型中 但对模型的预测没有太大影响。

L2 正则化始终可以改进泛化, 线性模型

L1 正则化相对。

标签

#fundamentals

监督式机器学习中, “接听”或“result”部分(位于示例中)。

每个有标签样本包含一个或多个 特征和标签。例如,在“垃圾内容”文件夹中 则标签可能为“spam”或 “这不是垃圾邮件”在雨量数据集中,标签可能是 在特定时期落下的雨

有标签样本

#fundamentals

一个示例包含一个或多个特征和一个 label。例如,下表显示了 房屋估价模型中的有标签样本,每个样本都有三个特征 和一个标签:

卧室数量 浴室数量 房龄 房价(标签)
3 2 15 345,000 美元
2 1 72 179,000 美元
4 2 34 392,000 美元

监督式机器学习中, 这些模型会基于有标签样本进行训练, 无标签样本

对比有标签样本与无标签样本。

lambda

#fundamentals

正则化率的含义相同。

lambda 是一个多含义术语。我们在此重点介绍 正则化中的定义。

图层

#fundamentals

一组神经元 神经网络。三种常见的图层类型 如下:

例如,下图显示了 一个输入层、两个隐藏层和一个输出层:

具有一个输入层、两个隐藏层和一个
          输出层。输入层包含两个特征。第一个
          由三个神经元和第二个隐藏层组成,
          由两个神经元组成。输出层由单个节点组成。

TensorFlow 中,也是 Python 函数, 张量和配置选项作为输入和 生成其他张量作为输出。

学习速率

#fundamentals

一个告知梯度下降法的浮点数 算法调整权重和偏差的幅度, 迭代。例如,如果学习速率为 0.3, 权重和偏差的调整幅度是学习速率的三倍 为 0.1。

学习速率是一个重要的超参数。如果您将 学习速率太低,训练所需的时间会太长。如果 因为如果将学习速率设置得过高,梯度下降法通常 实现收敛

线性

#fundamentals

两个或多个变量之间的关系,这些变量可以单独表示 通过加法和乘法得出的结果。

线性关系的曲线图是一条直线。

nonlinear相对。

线性模型

#fundamentals

一种模型,为每个模型分配一个权重 feature,用于进行预测。 (线性模型也包含偏差。)相比之下, 深度模型中特征与预测的关系 通常是非线性的。nonlinear

线性模型通常更容易训练,而且 可解释性。不过, 深度模型可以学习特征之间的复杂关系。

线性回归逻辑回归是两种类型的线性模型。

线性回归

#fundamentals

一种同时满足以下两个条件的机器学习模型:

  • 该模型是一个线性模型
  • 预测结果为浮点值。(这是 fallback线性回归的一部分。)

对比线性回归与逻辑回归 此外,请将回归与分类进行比较。

逻辑回归

#fundamentals

一种可预测概率的回归模型。 逻辑回归模型具有以下特征:

  • 此标签是分类标签。术语“逻辑” 回归通常是指二元逻辑回归,即 一个模型,该模型计算具有两个可能值的标签的概率。 不太常见的变体是多项逻辑回归,用于计算 标签概率。
  • 训练期间的损失函数为对数损失函数 (对于标签,可以并行放置多个对数损失单元 可能的值超过两个)。
  • 该模型具有线性架构,而不是深度神经网络。 不过,该定义的其余部分也适用于 深度模型,用于预测概率, 。

例如,假设某个逻辑回归模型计算 垃圾邮件或非垃圾邮件的概率。 在推理期间,假设模型预测值为 0.72。因此, 模型正在估算:

  • 有 72% 的电子邮件是垃圾邮件。
  • 电子邮件不是垃圾邮件的可能性为 28%。

逻辑回归模型使用以下两步式架构:

  1. 模型通过应用线性函数生成原始预测 (y') 输出特征。
  2. 模型将该原始预测用作输入, S 型函数,将原始 预测为 0 到 1 之间的值(不含 0 和 1)。

与任何回归模型一样,逻辑回归模型可以预测数字。 然而,这个数字通常成为二元分类的一部分。 如下所示:

  • 如果预测数字大于 分类阈值、 二元分类模型可预测正类别。
  • 如果预测数量小于分类阈值, 二元分类模型会预测负类别。

对数损失函数

#fundamentals

二进制程序中使用的损失函数 逻辑回归

对数几率

#fundamentals

某些事件的发生几率的对数。

#fundamentals

监督式模型,用于衡量 模型的预测结果源自其标签

损失函数计算损失。

损失曲线

#fundamentals

损失作为训练次数的函数图 迭代。以下曲线图显示了典型的损失 曲线:

损失与训练迭代的笛卡尔图,显示了
          初始迭代的损失迅速下降,然后逐渐下降
          在最后一次迭代期间,下降,然后呈现平缓的趋势。

损失曲线可以帮助您确定模型 收敛过拟合

损失曲线可以绘制以下所有类型的损失:

另请参阅泛化曲线

损失函数

#fundamentals

训练或测试期间, 数学函数,用于计算 一批样本的损失。损失函数返回的损失较低, 较之准确预测模型, 预测不佳。

训练的目标是尽可能减小损失函数的 回车。

存在许多不同类型的损失函数。选择合适的损失 函数。例如:

M

机器学习

#fundamentals

用于训练 model。经过训练的模型 根据从以下数据中抽取的新(以前从未见过)数据做出有用的预测: 与用于训练模型的分布相同。

机器学习也指 程序或系统。

多数类

#fundamentals

视频中更常见的标签 分类不平衡的数据集。例如: 假设一个数据集包含 99% 负类别标签和 1% 正类别标签, 负类别标签是多数类别。

少数类相对。

小批次

#fundamentals

在一个集中处理的批次中随机选择的一小部分 迭代。 小批次的批次大小通常是 10 到 1,000 个样本。

例如,假设整个训练集(全批量) 包含 1000 个样本。进一步假设您将 将每个小批次的批次大小设置为 20。因此,每个 从 1000 个样本中随机选择 20 个样本确定损失,然后 会相应地调整权重偏差

相较于基于模型的预测, 损失。

少数类

#fundamentals

中不常见的标签 分类不平衡的数据集。例如: 假设一个数据集包含 99% 负类别标签和 1% 正类别标签, 正类别标签是少数类。

大多数类别相对。

模型

#fundamentals

一般来说,任何处理输入数据并返回数据的数学结构 输出。换句话说,模型是一系列参数和结构, 是系统进行预测所需的。 在监督式机器学习中, 模型将样本作为输入,并推断出 predict 作为输出。在监督式机器学习中, 模型有所不同。例如:

  • 线性回归模型由一组权重组成 和偏差
  • 神经网络模型由以下部分组成:
    • 一组隐藏层,每个隐藏层包含一个或多个隐藏层, 更多神经元
    • 与每个神经元相关的权重和偏差。
  • 决策树模型由以下部分组成:
    • 树木的形状;即条件模式 和叶子相连。
    • 条件开,叶子。

您可以保存、恢复模型或制作模型副本。

非监督式机器学习 生成模型,通常是一个函数,可将输入样本 最合适的集群

多类别分类

#fundamentals

在监督式学习中,分类问题 其中数据集包含两个以上的 。 例如,Iris 数据集中的标签必须是下列其中一项 三个类:

  • 山鸢尾
  • 维吉尼亚鸢尾
  • 变色鸢尾

一个根据 Iris 数据集训练的模型,用于根据新示例预测鸢尾花类型 执行多类别分类。

相比之下,区分两种问题的分类问题则是 类别是二元分类模型 例如,预测“垃圾邮件”或“非垃圾邮件”的电子邮件模型 是一种二元分类模型。

在聚类问题中,多类别分类是指 两个集群中。

负类别

#fundamentals

二元分类中,一个类别是 另一个称为正面,另一个称为否定。正类别为 模型要测试的事物或事件,负类别 例如:

  • 在医学检查中,负类别可以是“非肿瘤”。
  • 电子邮件分类器中的负类别可能是“非垃圾邮件”。

正类别相对。

输出表示

#fundamentals

至少包含一个模型 隐藏层深度神经网络 包含多个隐藏层。例如,下图中的 显示了包含两个隐藏层的深度神经网络。

一个神经网络,具有一个输入层、两个隐藏层和一个
          输出层。

神经网络中的每个神经元都连接到下一层中的所有节点。 例如,在上图中,请注意三个神经元 在第一个隐藏层中, 分别与 Transformer 模型中的两个神经元 第二个隐藏层。

在计算机上实现的神经网络有时称为 人工神经网络, 大脑和其他神经系统中存在的神经网络。

一些神经网络可以模拟极其复杂的非线性关系 不同特征和标签之间的差异。

另请参阅卷积神经网络循环神经网络

神经元

#fundamentals

在机器学习中,隐藏层中的一个不同单元 属于神经网络的一部分。每个神经元执行以下任务: 以下两步操作:

  1. 计算输入值相乘的加权和 权重。
  2. 将加权和作为输入传递给 激活函数

第一个隐藏层中的神经元接受来自特征值的输入。 在输入层中。之后的任何隐藏层中的神经元, 第一个隐藏层接受来自前一个隐藏层中神经元的输入。 例如,第二个隐藏层中的神经元接受来自 神经元。

下图突出显示了两个神经元及其 输入。

一个神经网络,具有一个输入层、两个隐藏层和一个
          输出层。突出显示两个神经元:第一个神经元
          一个隐藏层,另一个位于第二个隐藏层。突出显示的
          第一个隐藏层中的神经元可接收来自两个特征的输入。
          输入层中。第二个隐藏层中突出显示的神经元
          从第一个隐藏层中的三个神经元中分别接收输入,
          层。

神经网络中的神经元会模仿大脑中神经元的行为, 神经系统的其他部分。

节点(神经网络)

#fundamentals

隐藏层中的神经元

nonlinear

#fundamentals

无法只表示两个或多个变量之间的关系 通过加法和乘法得出的结果。线性关系 可以用一条线来表示nonlinear关系 以一条线表示例如,假设有两个模型 映射到单个标签。左侧的模型是线性模型 而右侧的模型为非线性模型:

两个曲线图。一个曲线图是一条直线,因此这是线性关系。
          另一个曲线图是曲线,因此这是非线性关系。

非平稳性

#fundamentals

其值在一个或多个维度(通常是时间)会发生变化的特征。 以下面的非平稳性示例为例:

  • 特定商店销售的泳衣数量因季节而异。
  • 特定地区特定水果收获的数量 在一年的大部分时间里都是零,但在短期内较大。
  • 由于气候变化,年度平均气温正在发生变化。

平稳性相对。

归一化

#fundamentals

从广义上讲,转换变量实际范围的过程 转换为标准的值范围,例如:

  • -1 至 +1
  • 0 至 1
  • 正态分布

例如,假设某个特征的值的实际范围是 800 至 2,400。在特征工程中, 您可以将实际值归一化为一个标准范围,例如 以 -1 为 +1。

归一化是 特征工程。模型的训练速度通常更快 模型中的每个数值特征, 特征向量的范围大致相同。

数值数据

#fundamentals

用整数或实数表示的特征。 例如,房屋估价模型可能会将房屋估价 (以平方英尺或平方米为单位)。表示 一种数值数据,表示该特征的值 与标签的数学关系。 也就是说,房屋的平方米数 与房屋价值的数学关系。

并非所有整数数据都应表示为数值数据。例如: 世界上某些地区的邮政编码是整数;但是,整数邮政 在模型中不应表示为数值数据。这是因为 邮政编码 20000 的效果不是邮政编码的两倍(或一半) 10,000。此外,虽然不同的邮政编码确实对应不同的 则我们无法假设邮政编码的房地产价值 在邮政编码为 10000 时,20000 的价值是房地产价值的两倍。 邮政编码应表示为分类数据

数值特征有时也称为 连续特征

O

离线

#fundamentals

相当于 static

离线推理

#fundamentals

模型生成一批预测的过程 然后缓存(保存)这些预测。然后,应用便可以访问 从缓存中进行预测,而不是重新运行模型。

例如,假设一个模型生成本地天气预报 (预测)。每个模型运行后,系统会 缓存所有本地天气预报。天气应用会检索天气预报 从缓存中移除

离线推理也称为静态推理

在线推理相对。

独热编码

#fundamentals

将分类数据表示为向量,其中:

  • 一个元素设置为 1。
  • 所有其他元素均设为 0。

独热编码通常用于表示字符串或标识符, 具有一组有限的可能值。 例如,假设某个分类特征名为 Scandinavia 有五个可能的值:

  • “丹麦”
  • “瑞典”
  • “挪威”
  • “芬兰”
  • “冰岛”

独热编码可以表示这五个值中的每个值,如下所示:

country 矢量
“丹麦” 1 0 0 0 0
“瑞典” 0 1 0 0 0
“挪威” 0 0 1 0 0
“芬兰” 0 0 0 1 0
“冰岛” 0 0 0 0 1

得益于独热编码,模型可以学习 。

将特征表示为数值数据是一种 是独热编码的替代方案。遗憾的是,代表 从数量来看,斯堪的纳维亚国家并不是一个好的选择。例如: 请考虑以下数字表示形式:

  • “丹麦”为 0
  • “瑞典”为 1
  • “挪威”是 2
  • “芬兰”是 3
  • “冰岛”是 4

通过数字编码,模型可以解读原始数字 并尝试利用这些数字进行训练。 然而,冰岛实际上并不是 因此模型会得出一些奇怪的结论。

一对多

#fundamentals

假设存在一个 N 类别的分类问题, 由 N 个单独的 二元分类器 - 一个二元分类器, 可能的结果。例如,假设有一个对样本进行分类的模型 一对多解决方案,可以提供 三个独立的二元分类器:

  • 动物和非动物
  • 蔬菜和非蔬菜
  • 矿物和非矿物

在线

#fundamentals

动态的含义相同。

在线推理

#fundamentals

根据需求生成预测。例如: 假设某个应用将输入传递给模型,并针对 预测。 使用在线推理的系统通过运行 模型(并将预测结果返回给应用)。

离线推理相对。

输出层

#fundamentals

“最终版本”是神经网络的一层。输出层包含预测结果。

下图显示了一个带输入的小型深度神经网络, 、两个隐藏层和一个输出层:

具有一个输入层、两个隐藏层和一个
          输出层。输入层包含两个特征。第一个
          由三个神经元和第二个隐藏层组成,
          由两个神经元组成。输出层由单个节点组成。

过拟合

#fundamentals

创建与所选模型匹配的 训练数据过于紧密,以致于模型无法 根据新数据做出正确的预测。

正则化可以减少过拟合。 使用庞大而多样的训练集进行训练也可以减少过拟合。

P

pandas

#fundamentals

基于 numpy 构建的面向列的数据分析 API。 许多机器学习框架 包括 TensorFlow,支持将 Pandas 数据结构作为输入。请参阅 Pandas 文档 了解详情。

参数

#fundamentals

模型学习的权重偏差 training. 的。例如,在 线性回归模型,其参数包括 偏差 (b) 和所有权重(w1w2、 等)。

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

相比之下,超参数(或超参数转换服务)提供给模型。 例如,学习速率就是一种超参数。

正类别

#fundamentals

要测试的类。

例如,癌症模型中的正类别可以是“肿瘤”。 在电子邮件分类器中,正类别可以是“垃圾邮件”。

负类别相对。

后处理

#fairness
#fundamentals

运行模型后调整模型的输出。 后处理可用于强制执行公平性约束, 自己修改模型的过程。

例如,可以将后处理应用于二元分类器 方法是设置分类阈值, 保持机会平等 检查真正例率 都是相同的。

预测

#fundamentals

模型的输出。例如:

  • 二元分类模型的预测结果要么是正例, 类别或负类别。
  • 多类别分类模型的预测是一个类别。
  • 线性回归模型的预测结果是一个数字。

代理标签

#fundamentals

用于粗略在数据集内无法直接提供的标签的数据。

例如,假设您必须训练模型来预测员工 压力水平。您的数据集包含很多预测特征, 未包含名为压力水平的标签。 信心十足,拿出“工作场所事故”用作 压力水平。毕竟,承受高压力的员工会 而不是让员工平静下来真的吗?可能是工作场所事故 实际上是出于多种原因的。

再举个例子,假设您要将 is it raining? 设为布尔值标签。 但您的数据集不包含雨水数据。如果 您就可以创建一些人物照片 遮阳伞作为“在下雨吗?”的代理标签。你说的是不是 一个合适的代理标签?有可能,但某些文化背景的人 相比下雨,人们更有可能带伞防晒。

代理标签通常并不完善。请尽可能选择实际标签, 代理标签。也就是说,如果没有实际标签,请选择代理 标签,选择最不严重的候选代理标签。

R

RAG

#fundamentals

缩写 检索增强生成

标注者

#fundamentals

样本提供标签的人员。 “注释者”是标注者的别称。

修正线性单元 (ReLU)

#fundamentals

一个具有以下行为的激活函数

  • 如果输入为负或 0,则输出为 0。
  • 如果输入为正数,则输出等于输入。

例如:

  • 如果输入为 -3,则输出为 0。
  • 如果输入为 +3,则输出为 3.0。

以下是 ReLU 的一个曲线图:

两条直线的笛卡尔图。第一行有一个常量,
          y 值为 0,沿 x 轴运行,范围为 -无穷大,0 到 0,-0。
          第二行从 0,0 开始。这条线的斜率为 +1,因此
          范围为 0,0 到 +无穷大,+无穷大。

ReLU 是一种非常流行的激活函数。虽然行为简单, ReLU 仍然能让神经网络学习非线性函数nonlinear 特征标签之间的关系。

回归模型

#fundamentals

通俗地说,是指生成数值预测的模型。(相比之下, 分类模型会生成一个类, prediction.)例如,以下都是回归模型:

  • 用于预测某个房屋价值(例如 423,000 欧元)的模型。
  • 用于预测某棵树的预期寿命(如 23.2 年)的模型。
  • 一个用于预测某个城市降雨量的模型 例如“0.18 英寸”

两种常见的回归模型类型是:

  • 线性回归,用于找出最接近 使标签值适合特征。
  • 逻辑回归,生成 之后系统映射到某个类别的概率, 预测。

并非所有输出数值预测结果的模型都是回归模型。 在某些情况下,数字预测实际上只是一种分类模型 恰好具有数字类名称的事件。例如,预测 数字邮政编码属于分类模型,而不是回归模型。

正则化

#fundamentals

任何可减少过拟合的机制。 常见的正则化类型包括:

正则化还可以定义为对模型复杂度的惩罚。

正则化率

#fundamentals

一个数字,用于指定 正则化。提升 正则化率可以降低过拟合,但 降低模型的预测能力。相反,减少或省略 正则化率会增加过拟合。

ReLU

#fundamentals

校正线性单元的缩写。

检索增强生成 (RAG)

#fundamentals

提高网页质量的 大语言模型 (LLM) 输出 将模型与在模型训练完成后检索到的知识来源结合起来进行分析。 RAG 通过为训练好的 LLM 提供 访问从可信知识库或文档中检索到的信息。

使用检索增强生成的常见动机包括:

  • 提高模型所生成回答的事实准确性。
  • 让模型可以访问未用于训练的知识。
  • 改变模型使用的知识。
  • 启用模型以引用来源。

例如,假设化学应用使用 PaLM API,用于生成摘要。 与用户查询的内容相关当应用后端收到查询时,会执行以下操作:

  1. 搜索(“检索”)与用户查询相关的数据。
  2. 将相关化学数据附加(“增强功能”)到用户的查询中。
  3. 指示 LLM 根据附加的数据创建摘要。

ROC(接收者操作特征)曲线

#fundamentals

真正例率与 不同指标的假正例率 分类阈值(以二进制形式) 分类。

ROC 曲线的形状表明二元分类模型的能力 来区分正类别和负类别。例如,假设 二元分类模型完全 全部正类别中的权重:

一个数轴,右侧是 8 个正例;
          左侧为 7 个反例。

上述模型的 ROC 曲线如下所示:

ROC 曲线。x 轴表示假正例率,y 轴表示
          是真正例率。曲线为反转的 L 形。曲线
          从 (0.0,0.0) 开始,一直向上延伸到 (0.0,1.0)。然后曲线
          从 (0.0,1.0) 到 (1.0,1.0)。

相比之下,下图则显示了原始逻辑回归 也就是无法区分负类别和负类别的 正类别:

包含正例和负类别的数轴

此模型的 ROC 曲线如下所示:

ROC 曲线,实际上是 (0.0,0.0) 的直线
          到 (1.0,1.0)。

与此同时,在现实世界中,大多数二元分类模型 正类别和负类别都在一定程度上,但通常并不完美。因此, 典型的 ROC 曲线介于以下两个极端之间:

ROC 曲线。x 轴表示假正例率,y 轴表示
          是真正例率。ROC 曲线近似于摇动的弧形
          从西向北遍历罗盘点

理论上,ROC 曲线上最接近 (0.0,1.0) 的点可识别 理想的分类阈值。不过,现实生活中的一些其他问题 影响对理想分类阈值的选择。例如: 假负例比假正例更能带来痛苦。

一种称为AUC的数值指标将 ROC 曲线总结为 单个浮点值。

均方根误差 (RMSE)

#fundamentals

均方误差的平方根。

S

S 型函数

#fundamentals

一个数学函数,将输入值限制在受限范围内, 通常为 0 到 1 或 -1 到 +1。也就是说,您可以将任意数字(二、一百万、 负十亿)加 S 型函数,则输出值仍然会 限制范围。 S 型激活函数的曲线图如下所示:

x 值跨越网域的二维曲线图
          -无穷大到 +正,而 y 值的范围几乎是 0 到 +正
          几乎是 1。当 x 为 0 时,y 为 0.5。曲线的斜率始终为
          正值,最大斜率为 0,0.5,然后逐渐减少
          它们会随着 x 的绝对值增加而逐渐变化。

S 型函数在机器学习中有多种用途,包括:

softmax

#fundamentals

这个函数用于确定 多类别分类模型。概率相加 精确到 1.0。例如,下表显示了 softmax 的 概率:

图片是... Probability
0.85
0.13
0.02

Softmax 也称为完整 softmax。

候选采样相对。

稀疏特征

#language
#fundamentals

一种特征,其值主要为零或为空。 例如,包含单个 1 值和一百万个 0 值的特征 即 Sparse。相比之下,密集特征则具有 则不为零或为空。

在机器学习中,数量惊人的特征是稀疏特征。 分类特征通常是稀疏特征。 例如,某森林内有 300 种可能的树种, 可能只是“枫树”。或者,在数以百万计的 视频库中可能存在的视频,那么可能只用一个示例 只有“Casablanca”

在模型中,您通常使用 独热编码。如果独热编码很大, 就可以将嵌入层 进行独热编码,以提高效率。

稀疏表示法

#language
#fundamentals

仅存储稀疏特征中非零元素的位置

例如,假设名为 species 的分类特征标识了 36 特定森林中的树木品种。进一步假设每个 example 仅标识一个物种。

您可以使用独热矢量来表示每个样本中的树种。 独热矢量将包含一个 1(用来表示 以及 35 个 0(表示 有 35 个树种,因此,独热表示法 的 maple 可能如下所示:

一个矢量,其中位置 0 到 23 存储值 0,即位置
          24 存储值 1,位置 25 到 35 存储值 0。

或者,稀疏表示法则直接确定 特定物种。如果 maple 位于位置 24,则使用稀疏表示法 的 maple 可能只是:

24

请注意,稀疏表示法比独热表示法更紧凑 表示。

稀疏向量 (sparse vector)

#fundamentals

一个值大部分为零的向量。另请参阅稀疏 特征稀疏性

平方损失

#fundamentals

L2 损失的含义相同。

静态

#fundamentals

某件事只执行一次,而不是一直进行。 术语“静态”和“离线”是同义词。 以下是静态离线在机器中的常见用法 正在学习:

  • 静态模型(也称为“离线模型”)是指训练一次、然后 一段时间。
  • 静态训练(即离线训练)是训练 静态模型。
  • 静态推理(也称作离线推理)是一种 模型一次生成一批预测的过程。

动态相对。

静态推理

#fundamentals

离线推理的含义相同。

平稳性

#fundamentals

一种特征,其值在一个或多个维度内(通常是时间)不会改变。 例如,某个特征在 2021 年值看起来大致相同, 2023 年展现出平稳性。

在现实世界中,很少有特征展现平稳性。均匀分配功能 “稳定性”(如海平面)随时间变化的同义词。

不平稳相对。

随机梯度下降法 (SGD)

#fundamentals

梯度下降法,其中 batch size 为 1。换句话说,SGD 在 随机选择了一个样本, 从训练集中随机选择。

监督式机器学习

#fundamentals

利用特征及其学习特征来训练模型 相应的标签。监督式机器学习 也就是研究一系列问题及其对应的 相应的回答。在掌握了问题和 这样,学生就可以针对未曾见过的新问题 就同一主题提出问题。

比较对象 非监督式机器学习

合成特征

#fundamentals

某个特征不在输入特征中,但 由其中一项或多项组合而成创建合成特征的方法 包括:

  • 对连续特征进行分桶,将其拆分为多个范围分箱。
  • 创建一个特征组合
  • 将一个特征值与其他特征值相乘(或相除) 或单独使用。例如,如果 ab 是输入特征,则 以下是合成特征的示例: <ph type="x-smartling-placeholder">
      </ph>
    • ab
    • a2
  • 对特征值应用先验函数。例如,如果 c 是输入特征,那么以下是合成特征的示例: <ph type="x-smartling-placeholder">
      </ph>
    • sin(c)
    • ln(c)

通过归一化缩放创建的特征 不会被视为合成特征。

T

测试损失

#fundamentals

一个指标,表示模型相对于损失 测试集。构建模型时,您需要 通常会尽量减小测试损失。这是因为低测试损失 与低训练损失相比,信号质量更强;或者 验证损失低。

测试损失与训练损失或验证损失之间有时会有很大的差距 建议您增加 正则化率

训练

#fundamentals

确定理想参数(权重和 构建一个模型。在训练期间,系统会 样本,然后逐步调整参数。训练使用 从几倍到数十亿次不等。

训练损失

#fundamentals

一个指标,代表模型损失 特定的训练迭代。例如,假设损失函数 是均方误差。训练损失(平均 平方误差),第 10 次迭代的训练损失为 2.2, 则第 100 次迭代为 1.9。

损失曲线绘制了训练损失与 迭代。损失曲线提供有关训练的以下提示:

  • 下降斜率表示模型在改进。
  • 斜率上升表示模型在变差。
  • 斜率表示模型已达到 收敛

例如,下面的一些理想化的损失曲线 显示:

  • 初始迭代期间出现急剧下降的斜坡,这意味着 快速改进模型。
  • 呈逐渐变平(但仍在向下)的斜坡,直至接近终点 模型在某种程度上得到了持续改进, 速度会比初始迭代慢慢一些。
  • 接近训练结束的斜率,表示已收敛。

训练损失与迭代次数的曲线图。这条损失曲线始于
     陡峭的斜坡斜坡逐渐变平,直到
     斜率为零。

虽然训练损失很重要,另请参阅 泛化

训练-应用偏差

#fundamentals

模型在运行期间 训练和同一模型的性能 serving

训练集

#fundamentals

用于训练模型数据集的子集。

按照传统,数据集中的样本分为以下三个 不同的子集:

理想情况下,数据集中的每个样本都应仅属于 前面的子集。例如,一个示例不应属于 训练集和验证集。

真负例 (TN)

#fundamentals

在样本中,模型会正确预测出 负类别。例如,模型推断出 特定电子邮件并非垃圾邮件,且该邮件确实是 这不是垃圾邮件

真正例 (TP)

#fundamentals

在样本中,模型会正确预测出 正类别。例如,模型推断出 某封电子邮件是垃圾邮件,而该邮件确实是垃圾邮件。

真正例率 (TPR)

#fundamentals

召回率的含义相同。具体来说:

$$\text{true positive rate} = \frac{\text{true positives}} {\text{true positives} + \text{false negatives}}$$

真正例率是 ROC 曲线的 y 轴。

U

欠拟合

#fundamentals

生成预测能力较差的模型,因为模型 未能完全体现训练数据的复杂性。有很多问题 可能会导致欠拟合,包括:

无标签样本

#fundamentals

包含特征但没有标签的样本。 例如,下表显示了来自某栋房屋的三个无标签样本 评估模型,每个模型都具有三个特征,但没有房屋价值:

卧室数量 浴室数量 房龄
3 2 15
2 1 72
4 2 34

监督式机器学习中, 这些模型会基于有标签样本进行训练, 无标签样本

半监督式非监督式学习 在训练期间使用无标签样本。

对比无标签样本与有标签样本

非监督式机器学习

#clustering
#fundamentals

训练模型以找出数据集(通常是 未加标签的数据集。

非监督式机器学习最常见的用途是 cluster 数据 将多个相似的样本划归为一组。例如,无监督机器 学习算法可以根据各种属性对歌曲进行聚类 生成的集群可以作为其他机器的输入。 学习算法(例如音乐推荐服务)。 当有用标签稀缺或缺失时,聚类可能有所帮助。 例如,在反滥用和反欺诈等领域,聚类分析法有助于 能够更好地理解数据

监督式机器学习相对。

V

validation

#fundamentals

对模型质量的初始评估。 验证工具会根据 验证集

由于验证集与训练集不同, 验证有助于防止出现过拟合

您可能会认为根据验证集评估模型, 根据实际数据, test set 作为第二轮测试。

验证损失

#fundamentals

一个指标,表示模型在预测时给出的损失 在特定测试期间的验证集 训练的迭代

另请参阅泛化曲线

验证集

#fundamentals

数据集中执行初始操作的子集 根据经过训练的模型进行评估。通常,您需要评估 根据验证集 多次,然后才能根据测试集评估模型。

传统上,您需要将数据集中的样本分成以下三个样本: 不同的子集:

理想情况下,数据集中的每个样本都应仅属于 前面的子集。例如,一个示例不应属于 训练集和验证集。

W

重量

#fundamentals

一个模型与另一个值相乘的值。 训练是确定模型理想权重的过程; 推理是使用这些学到的权重 进行预测。

加权和

#fundamentals

所有相关输入值的总和乘以对应的 权重。例如,假设相关输入包含以下内容:

输入值 输入权重
2 -1.3
-1 0.6
3 0.4

因此,加权和为:

weighted sum = (2)(-1.3) + (-1)(0.6) + (3)(0.4) = -2.0

加权和是 激活函数

Z

Z 评分归一化

#fundamentals

一种缩放技术,用于替换原始图片 feature 值,其中的浮点值表示 表示与该特征平均值相差的标准差数。 例如,假设某个特征的平均值为 800,标准 偏差为 100。下表显示了如何将 Z-score 归一化 会将原始值映射到其 Z 得分:

原始值 Z 分数
800 0
950 +1.5
575 -2.25

然后,机器学习模型根据 Z 分数进行训练 而不是原始值。