อภิธานศัพท์เกี่ยวกับแมชชีนเลิร์นนิง

本术语表定义了常见的机器学习术语, TensorFlow 专用术语。

A

消融

一种评估特征或组件重要性的技术,具体方法是将其从模型中暂时移除。然后,在不使用该特征或组件的情况下重新训练模型,如果重新训练后的模型性能明显下降,则表明移除的特征或组件可能很重要。

例如,假设您训练了一个 分类模型 并在 10 项特征上实现 88% 的精确率 测试集。如需查看重要性 您可以只使用另一个特征的 功能。如果重新训练后的模型性能明显下降(例如,准确率为 55%),则表明移除的特征可能很重要。反之,如果经过重新训练的模型表现同样出色,则该特征可能不是那么重要。

消融术还有助于确定以下事项的重要性:

  • 较大的组件,例如大型机器学习系统的整个子系统
  • 流程或技术,例如数据预处理步骤

在这两种情况下,您都会观察系统性能如何变化(或 不会改变)。

A/B 测试

一种统计方法,用于比较两种(或多种)分析法 - AB。通常,A 是现有技术,B 是新技术。A/B 测试不仅可以确定哪种技术的效果更好, 以及差异是否具有统计显著性。

A/B 测试通常会针对两种方法比较单个指标 例如,对于两个类别,模型的准确率 技术?然而,A/B 测试也可以 指标。

加速器芯片

#GoogleCloud

一类专门用于执行关键任务的硬件组件, 深度学习算法所需的计算。

与通用 CPU 相比,加速器芯片(简称加速器)可以显著提高训练和推理任务的速度和效率。它们非常适合训练神经网络和执行类似的计算密集型任务。

加速器芯片的示例包括:

  • Google 的张量处理单元 (TPU),配备专用于深度学习的硬件。
  • NVIDIA 的 GPU 虽然最初是为图形处理而设计的,但其设计支持并行处理,这可以显著提高处理速度。

准确性

#fundamentals

正确分类预测的数量除以 除以预测总数。具体来说:

$$\text{Accuracy} = \frac{\text{correct predictions}} {\text{correct predictions + incorrect predictions }}$$

例如,如果模型做出了 40 次正确预测和 10 次错误预测,则其准确性为:

$$\text{Accuracy} = \frac{\text{40}} {\text{40 + 10}} = \text{80%}$$

二元分类为不同类别的正确预测错误预测提供了特定名称。因此,二元分类的准确率公式如下:

$$\text{Accuracy} = \frac{\text{TP} + \text{TN}} {\text{TP} + \text{TN} + \text{FP} + \text{FN}}$$

其中:

  • TP 是真正例(正确预测)的数量。
  • TN 为真正例(正确预测)的数量。
  • FP 是指假正例(错误预测)的数量。
  • FN 为假负例(预测错误)的数量。

比较和对比准确性 精确率召回率

请参阅分类:准确率、召回率、精确率和相关度 指标 机器学习速成课程。

action

#rl

强化学习中, 代理 状态的状态转换 环境。代理使用 policy

激活函数

#fundamentals

一种函数,可让神经网络学习特征与标签之间的非线性(复杂)关系。

常用的激活函数包括:

激活函数的曲线图绝不是单条直线。 例如,ReLU 激活函数的曲线图包含 两条直线:

两条直线的笛卡尔图。第一行有一个常量,
          y 值为 0,沿 x 轴运行,范围为 -无穷大,0 到 0,-0。
          第二行从 0,0 开始。此线条的斜率为 +1,因此其范围为 0,0 到 +infinity,+infinity。

sigmoid 激活函数的图形如下所示:

二维曲线图,x 值介于 -∞ 到 +∞ 之间,而 y 值介于 0 到 1 之间。当 x 为 0 时,y 为 0.5。曲线的斜率始终为
          正值,最大斜率为 0,0.5,然后逐渐减少
          它们会随着 x 的绝对值增加而逐渐变化。

如需了解详情,请参阅机器学习速成课程中的神经网络:激活函数

主动学习

一种训练方法,其中 算法会选择从中学习的部分数据。有标签样本稀缺或获取成本高昂时,主动学习尤其有用。不要盲目地寻求多元化 一系列带标签样本,主动学习算法有选择地寻找 学习所需的特定范围的样本。

AdaGrad

一种先进的梯度下降法,用于重新调整 每个参数的梯度值,从而有效地为每个参数赋予 独立的学习速率。有关完整说明,请参阅 这篇 AdaGrad 论文

代理

#rl

增强学习中,使用策略来最大限度地提高从环境状态之间转换所获得的预期回报的实体。

更广泛地说,代理是指为了实现某个目标而自主规划和执行一系列操作的软件,并且能够适应环境变化。例如,基于 LLM 的代理可能会使用 LLM 生成方案,而不是应用强化学习政策。

凝聚式层次聚类

#clustering

请参阅层次聚类

异常检测

确定离群值的过程。例如,如果均值 特定特征的值为 100,标准差为 10; 那么异常值检测应将 200 值标记为可疑值

AR

增强现实的缩写。

PR 曲线下的面积

请参阅 PR AUC(PR 曲线下面积)

ROC 曲线下的面积

请参阅 AUC(ROC 曲线下面积)

人工通用智能

一种非人类机制,能够展示广泛的问题解决能力、创造力和适应能力。例如,演示通用人工智能的程序可以翻译文本、谱写交响曲,并且擅长玩尚未发明的游戏。

人工智能

#fundamentals

能够解决复杂任务的非人类程序或模型。例如,用于翻译文本的程序或模型,或者用于从放射学图像中识别疾病的程序或模型,都具有人工智能特征。

正式地说,机器学习是人工智能技术的 情报。然而,近年来,一些组织已开始采用 “人工智能”和“机器学习”这两个术语可以互换。

注意力层、

#language

神经网络中使用的一种机制,用于指示特定字词或字词的某个部分的重要性。注意机制会压缩模型预测下一个令牌/单词所需的信息量。典型的注意力机制可能包含 一组输入的加权和,其中 每个输入的权重由 神经网络。

另请参阅自注意力多头自注意力,它们是Transformer 的构成要素。

如需详细了解自注意机制,请参阅机器学习速成课程中的 LLM:什么是大语言模型?

属性

#fairness

特征的含义相同。

在机器学习公平性中,属性通常是指与个人相关的特征。

属性抽样

#df

一种训练决策森林的策略,其中每个 决策树只会考虑 特征(在学习条件时使用)。 通常,系统会为每个节点采样不同的特征子集。相比之下,在训练不进行属性采样的决策树时,系统会考虑每个节点的所有可能特征。

AUC(ROC 曲线下的面积)

#fundamentals

介于 0.0 和 1.0 之间的数值,表示二元分类模型将正类别负类别区分开的能力。AUC 越接近 1.0,模型区分 类。

例如,下图显示了一个分类器模型, 用于区分正类别(绿色椭圆形)与负类别 (紫色矩形)完美呈现。这个不切实际的完美模型的 AUC 为 1.0:

一个数轴,一侧有 8 个正例,另一侧有 9 个负例。

相反,下图显示了生成随机结果的分类器模型的结果。此模型的 AUC 为 0.5:

包含 6 个正例和 6 个负例的数轴。
          样本序列是正数、负数、
          正面, 负面, 正面, 负面, 正面, 负面, 正面
          否定、肯定、否定

是的,上一个模型的 AUC 为 0.5,而非 0.0。

大多数模型介于这两种极端情况之间。例如,以下模型可以将正例与负例区分开来,因此其 AUC 介于 0.5 到 1.0 之间:

包含 6 个正例和 6 个负例的数轴。
          示例序列为负例、负例、负例、负例、正例、负例、正例、正例、负例、正例、正例、正例。

AUC 会忽略您为分类阈值设置的任何值。曲线下面积 会考虑所有可能的分类阈值。

请参阅分类:ROC 和 AUC 机器学习速成课程。

增强现实

#image

一种将计算机生成的图像叠加在用户视角上的技术 从而提供综合视图

自编码器

#language
#image

一种系统,可学习从输入中提取最重要的信息。自动编码器是编码器解码器的组合。自动编码器依赖于以下两个步骤:

  1. 编码器将输入映射到(通常)有损低维 (中级)格式。
  2. 解码器通过映射关系来构建原始输入的有损版本, 将低维格式转换为原始的高维格式 输入格式。

自编码器进行端到端训练,方法是让解码器尝试 根据编码器的中间格式重建原始输入。 尽可能接近由于中间格式较小 (低维度),则强制自动编码器 了解输入中的哪些信息是必要的, 与输入完全相同。

例如:

  • 如果输入数据是图形,则非精确副本将类似于 原始图片,只是有所修改。非完全一致的副本可能移除了原始图形中的噪点,或者填充了一些缺失的像素。
  • 如果输入数据是文本,则自动编码器会生成模仿(但不完全相同)原始文本的新文本。

另请参阅变体自动编码器

自动化偏差

#fairness

是指针对自动化决策系统所给出的建议的偏差,在此偏差范围内,即使系统出现错误,决策者也会优先考虑自动化决策系统给出的建议,而不是非自动化系统给出的建议。

如需了解详情,请参阅机器学习速成课程中的公平性:偏差类型

AutoML

用于构建机器学习的任何自动化流程 模型。AutoML 可以自动执行以下任务:

  • 搜索最合适的模型。
  • 调整超参数
  • 准备数据(包括执行 特征工程)。
  • 部署生成的模型。

AutoML 对数据科学家非常有用,因为它可以帮助他们节省时间 致力于开发机器学习流水线并改进预测功能 准确率。它还可以帮助非专家更轻松地完成复杂的机器学习任务。

请参阅自动化机器 学习 (AutoML) 机器学习速成课程。

自回归模型

#language
#image
#generativeAI

一种模型,可根据自身的先前模型推断出预测结果 预测。例如,自回归语言模型可根据之前预测的令牌预测下一个令牌。所有基于 Transformer大语言模型都是自动回归模型。

相比之下,基于 GAN 的图像模型通常不是自回归模型,因为它们会在单次正向传递中生成图像,而不是分步迭代生成。不过,某些图片生成模型是自动回归模型,这是因为 它们逐步生成图像。

辅助损失

损失函数 - 与 神经网络 模型的主要 损失函数,这有助于加快训练过程的训练速度。 在权重随机初始化时的早期迭代。

辅助损失函数可推送有效梯度 映射到之前的。这有助于 训练期间的收敛 以解决梯度消失问题

平均精确率

用于对一系列已排序结果的效果进行汇总的指标。 平均精确率的计算方法为:每个相关结果(排名列表中相对于上一个结果召回率提高的每个结果)的精确率值的平均值。

另请参阅 PR 曲线下的面积

轴对齐条件

#df

决策树中,仅涉及单个特征条件。例如,如果 area 是地图项,则以下是轴对齐条件:

area > 200

倾斜条件相对。

B

反向传播算法

#fundamentals

神经网络中实现梯度下降的算法。

训练神经网络涉及对以下两次传递周期进行多次迭代

  1. 正向传递期间,系统会处理一批 用于生成预测结果的样本。系统会将每个预测结果与每个标签值进行比较。预测值与标签值之间的差异就是该示例的损失。系统会汇总所有示例的损失,以计算当前批次的总损失。
  2. 反向传播(反向传播算法)期间,系统会通过以下方式减少损失: 调整所有神经元 隐藏层

神经网络通常包含许多隐藏层中的许多神经元。这些神经元对总损失的贡献方式各不相同。反向传播可确定是增加还是减少应用于特定神经元的权重。

学习速率是控制 每个反向传递每个权重增加或减少的程度。 较大的学习速率会使每个权重的增减幅度超过 学习速率很小。

用微积分术语来说,反向传播实现了微积分中的链式求导法。也就是说,反向传播算法会计算 误差的偏导数 每个参数的延迟时间。

几年前,机器学习从业者必须编写代码来实现反向传播算法。 Keras 等现代机器学习 API 现在可为您实现反向传播。呼!

请参阅神经网络 机器学习速成课程。

bagging

#df

一种训练集成学习的方法,其中每个组成部分模型都针对按替换抽样的训练示例的随机子集进行训练。例如,随机森林是使用抽样法训练的决策树的集合。

术语“bagging”是“bootstrap aggregating”(自举例集成)的简称。

请参阅随机森林 “决策森林”课程。

词袋

#language

词组或段落中的字词的表示法,不考虑字词顺序。例如,以下三个词组的词袋完全一样:

  • the dog jumps
  • jumps the dog
  • 小狗跳跃

每个字词都映射到稀疏向量中的一个索引,其中词汇表中的每个字词都在该向量中有一个索引。例如: 短语“the dog jumps”会映射到一个非零特征向量 对应于字词 thedogjumps。非零值可以是以下任一值:

  • 1,表示某个字词存在。
  • 某个字词在词袋中出现的次数。例如: 假设词组是“the maroon dog is a dog with maroon fur”,那么 maroondog 将表示为 2,而其他字词 表示为 1。
  • 一些其他值,例如 词包中出现的次数。

baseline

一种模型,用作比较另一个模型(通常是更复杂的模型)效果时的参考点。例如,逻辑回归模型可以作为深度模型的良好基准。

对于某个特定问题,基准可以帮助模型开发者量化 新模型必须达到的最低预期性能, 模型非常有用。

批处理

#fundamentals

一次训练中使用的一组样本 迭代批量大小决定了批量中的示例数量。

如需了解批次与时段之间的关系,请参阅时段

请参阅线性回归: 超参数 机器学习速成课程。

批量推理

#TensorFlow
#GoogleCloud

对分为较小子集(“批次”)的多个未标记示例进行推理预测的过程。

批量推理可以利用加速器芯片的并行处理功能。也就是说, 可以同时对不同批次的无标签数据 极大地增加了每秒的推理次数。

请参阅生产机器学习系统:静态与动态 推理 机器学习速成课程。

批次归一化

隐藏层中的激活函数的输入或输出进行归一化。批量归一化可以 具有以下优势:

批次大小

#fundamentals

批次中的示例数。 例如,如果批量大小为 100,则模型会在每次迭代中处理 100 个示例。

下面是常用的批量大小策略:

  • 随机梯度下降法 (SGD),其中批次大小为 1。
  • 全批量,其中批次大小是整个样本中的样本数 训练集。例如,如果训练集包含 100 万个示例,则批处理大小为 100 万个示例。完整批处理通常是一种低效的策略。
  • 小批次,其中批次大小通常介于 10 到 1000 之间。小批量通常是最有效的策略。

请参阅以下内容了解详细信息:

贝叶斯神经网络

一种概率神经网络,用于解释权重和输出的不确定性。标准神经网络 回归模型通常会预测标量值; 例如,一个标准模型 85.3 万。相比之下,贝叶斯神经网络可预测 values;例如,一个贝叶斯模型预测房价为 85.3 万, 标准偏差为 67,200。

贝叶斯神经网络依赖于 <ph type="x-smartling-placeholder"></ph> 贝叶斯Theorem 计算权重和预测的不确定性。贝叶斯神经 网络在量化不确定性时非常有用, 与药物相关。贝叶斯神经网络还有助于防止过拟合

贝叶斯优化

一种概率回归模型技术,通过优化使用贝叶斯学习技术量化不确定性的替代函数,来优化计算成本高昂的目标函数。由于贝叶斯优化本身非常耗费资源,因此通常用于优化参数数量较少且评估成本较高的任务,例如选择超参数

贝尔曼方程

#rl

在强化学习中, Q 函数

\[Q(s, a) = r(s, a) + \gamma \mathbb{E}_{s'|s,a} \max_{a'} Q(s', a')\]

强化学习算法将这一点应用于训练 身份,通过以下更新规则创建 Q-learning

\[Q(s,a) \gets Q(s,a) + \alpha \left[r(s,a) + \gamma \displaystyle\max_{\substack{a_1}} Q(s',a') - Q(s,a) \right] \]

除了强化学习之外,贝尔曼方程还可应用于 动态规划。请参阅 Wikipedia 中关于贝尔曼方程的条目

BERT(双向编码器) 基于 Transformer 的表示法)

#language

文本表示的模型架构。一个训练有素的 BERT 模型可以充当大型文本分类模型的一部分, 其他机器学习任务。

BERT 具有以下特征:

BERT 的变体包括:

  • ALBERT、 是 ALight BERT 的首字母缩写。
  • LaBSE

如需简要了解 BERT,请参阅开源 BERT:最先进的自然语言处理预训练

偏见(道德/公平性)

#fairness
#fundamentals

1. 对某些事物、人或群体有刻板印象、偏见或偏袒。这些偏差会影响数据的收集和解读、系统设计以及用户与系统的互动方式。此类偏差的形式包括:

2. 抽样或报告过程中引入的系统错误。 此类偏差的形式包括:

请勿与机器学习模型中的偏差项混淆。预测偏差

如需了解详情,请参阅机器学习速成课程中的公平性:偏差类型

偏差(数学)或偏差项

#fundamentals

距离原点的截距或偏移。偏差是机器学习模型中的参数,用以下任一符号表示:

  • b
  • w0

例如,在下面的公式中,偏差为 b:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

在简单的二维直线中,偏差仅表示“y 截距”。 例如,下图中线条的偏差为 2。

斜率为 0.5,偏差(y 截距)为 2 的曲线图。

存在偏差是因为并非所有模型都从原点 (0,0) 开始。例如,假设某个游乐园的入园费用为 2 欧元,每位客户每待一小时需额外支付 0.5 欧元。因此,映射总费用的模型的偏差为 2,因为最低费用为 2 欧元。

请勿将偏见与道德和公平性方面的偏见相混淆 或预测偏差

如需了解详情,请参阅机器学习速成课程中的线性回归

双向

#language

用于描述一种系统,该系统会评估目标文本部分的前文后文。相比之下, 仅限单向系统 评估文本目标部分之前的文本。

以一个掩码语言模型为例,该模型 必须确定代表 以下问题:

您有什么问题吗?

单向语言模型只能基于其概率 根据“内容”“是”和“此”字词提供的上下文进行微调。相比之下, 双向语言模型也可以和“您” 这可能有助于模型生成更好的预测。

双向语言模型

#language

一种语言模型,用于确定 给定词元是否出现在给定位置的文本摘录中, 文本。

二元语法

#seq
#language

一种 N 元语法,其中 N=2。

二元分类

#fundamentals

一种分类任务, 用于预测两个互斥类别之一:

例如,以下两个机器学习模型分别执行二元分类:

  • 一个模型,用于确定电子邮件是否 spam(正类别)或 非垃圾邮件(负类别)。
  • 一种评估医疗症状以确定是否 患有某种特定疾病(正类别)或没有该疾病 疾病(负类别)。

多类别分类相对。

另请参阅逻辑回归 分类阈值

请参阅分类 机器学习速成课程。

二元条件

#df

决策树中,只有两种可能结果(通常为“是”或“否”)的条件。例如,以下是二元条件:

temperature >= 100

非二元条件相对。

请参阅条件类型 “决策森林”课程。

分箱

分桶的含义相同。

BLEU(双语评估研究)

#language

介于 0.0 和 1.0(含)之间的分数,表示翻译的质量 两种人类语言之间的差异。BLEU 得分为 1.0 表示译文完美无缺;BLEU 得分为 0.0 表示译文极差。

增强学习

一种以迭代方式将一组简单和 将不太准确的分类器(称为“弱”分类器)转换为 高准确率分类器(即“强”分类器), 上调模型当前 分类错误。

请参阅梯度提升决策 树木? “决策森林”课程。

边界框

#image

在图像中,(x, y) 坐标系一个围绕x 例如下图中的狗。

一只狗坐在沙发上的照片。一个绿色的边界框,左上角坐标为 (275, 1271),右下角坐标为 (2954, 2761),框住了狗的身体

广播

将矩阵数学运算中运算数的形状扩展为 维度。例如: 线性代数要求矩阵加法运算中的两个运算数 必须具有相同的尺寸因此,您不能添加形状为 (m, n) 映射到长度为 n 的向量。广播功能通过以下方式实现这一操作: 通过虚拟方式将长度为 n 的向量扩展为形状为 (m, n) 的矩阵 在每一列中复制相同的值。

例如,给定以下定义,线性代数禁止 A+B,因为 A 和 B 的维度不同:

A = [[7, 10, 4],
     [13, 5, 9]]
B = [2]

不过,广播会将 B 扩展为以下矩阵,从而使 A+B 运算变得有效:

 [[2, 2, 2],
  [2, 2, 2]]

因此,A+B 现为有效运算:

[[7, 10, 4],  +  [[2, 2, 2],  =  [[ 9, 12, 6],
 [13, 5, 9]]      [2, 2, 2]]      [15, 7, 11]]

请参阅 NumPy 中的广播

分桶

#fundamentals

将单个特征转换成多个二元特征(称为),通常根据值范围进行转换。经过分块处理的特征通常是连续特征

例如,您可以将温度范围划分为离散的分桶,而不是将温度表示为单个连续的浮点特征,例如:

  • 低于 10 摄氏度属于“冷”分桶。
  • 11 - 24 摄氏度就是“温带”存储桶。
  • >= 25 摄氏度就属于“温暖”温度存储桶。

模型将以相同方式处理同一分桶中的每个值。对于 例如,值 1322 都位于温带分区中,因此 模型会以相同的方式处理这两个值。

如需了解详情,请参阅机器学习速成课程中的数值数据:分箱

C

校准层

一种预测后调整,通常是为了降低预测偏差的影响。调整后的预测结果和 概率应与观察到的标签集的分布一致。

候选集生成

#recsystems

推荐系统选择的初始推荐集。例如,假设 销售 10 万册图书的书店。候选集生成阶段 列出很小的适合特定用户的图书,比如 500 本。但即使 推荐给用户的 500 本图书实在太多了。随后价格更高 推荐系统的各个阶段(例如评分重新排名)将这 500 名减少到更小, 更实用的建议。

请参阅候选集生成 概览

候选采样

一种训练时进行的优化,会使用某种函数(例如 softmax)针对所有正类别标签计算概率,但仅随机抽取一部分负类别标签样本并计算概率。例如,假设某个标签为 beagledog,候选采样会计算预测的概率 以及对应的损失术语,

  • beagle
  • dog
  • 其余负类别的随机子集(例如 catlollipopfence)。

其理念是, 负类别 只要达到目标, 正类别始终会得到适当的正类别 这确实是实验观察到的。

与针对所有负类别计算预测结果的训练算法相比,候选采样在计算效率方面更胜一筹,尤其是在负类别数量非常大的情况下。

分类数据

#fundamentals

特征,具有一组特定的可能值。例如: 假设有一个名为 traffic-light-state 的分类特征, 具有以下三个可能值之一:

  • red
  • yellow
  • green

通过将 traffic-light-state 表示为分类特征,模型可以学习 redgreenyellow 对驾驶员行为的不同影响。

分类特征有时也称为 离散特征

数值数据相对。

如需了解详情,请参阅机器学习速成课程中的处理分类数据

因果语言模型

#language

单向语言模型的含义相同。

请参阅双向语言模型 比较语言建模中不同的方向性方法。

形心

#clustering

聚类的中心,由 k-meansk-median 算法。例如,如果 k 为 3, 则 k-means 或 k-median 算法会找出 3 个形心。

如需了解详情,请参阅“聚类”课程中的聚类算法

形心聚类

#clustering

一类聚类算法,用于将数据整理为非分层聚类。k-means 是使用最广泛的基于质心的聚类算法。

层次聚类算法相对。

请参阅聚类算法。 。

思维链提示

#language
#generativeAI

一种提示工程技术,可鼓励大语言模型 (LLM) 逐步解释其推理过程。例如,请考虑以下提示: 特别要注意第二句话:

如果一辆汽车在 7 秒内从 0 加速到每小时 60 英里,驾驶员会感受到多少 g 力?在答案中显示所有相关计算。

LLM 的回答可能:

  • 插入值 0、60 和 7,显示一系列物理公式 放置在适当的位置。
  • 说明系统为何选择这些公式,以及各种变量的含义。

思维链提示会强制 LLM 执行所有计算,这可能会导致更准确的回答。此外,借助思维链提示,用户可以检查 LLM 的步骤,以确定答案是否合理。

聊天

#language
#generativeAI

与机器学习系统(通常是大语言模型)进行的来回对话内容。聊天中的前一次互动(您输入的内容以及大语言模型的回复方式)会成为后续对话内容的背景信息。

聊天机器人是大语言模型的一种应用。

检查点

在训练期间或训练完成后捕获模型参数状态的数据。例如,在训练期间,您可以:

  1. 停止训练,可能是有意或由于 某些错误。
  2. 捕获检查点。
  3. 稍后,在可能的其他硬件上重新加载检查点。
  4. 重新开始训练。

类别

#fundamentals

标签可属的类别。 例如:

  • 二元分类模型中, 垃圾邮件,这两类分别可能是垃圾邮件非垃圾邮件
  • 多类别分类模型中 可识别狗的品种,对应的类可能是贵宾犬小猎犬哈巴狗, 依此类推。

分类模型可预测类别。 相比之下,回归模型可预测出 而不是类。

如需了解详情,请参阅机器学习速成课程中的分类

分类模型

#fundamentals

一种模型,其预测结果是一个类别。 例如,以下都是分类模型:

  • 一个用于预测输入句子语言(法语?西班牙语? 意大利语?)。
  • 一个用于预测树种的模型(枫树?橡树?Baobab?)。
  • 用于预测特定疾病的正类别或负类别的模型。

相比之下,回归模型预测的是数字,而不是类别。

分类模型有两种常见类型:

分类阈值

#fundamentals

二元分类中,一个介于 0 到 1 之间的数字,用于将逻辑回归模型的原始输出转换为正类别负类别的预测结果。请注意,分类阈值是人类选择的值, 不是模型训练选择的值。

逻辑回归模型会输出介于 0 到 1 之间的原始值。然后,执行以下操作:

  • 如果此原始值大于分类阈值,则系统会预测正类别。
  • 如果此原始值低于分类阈值,则系统会预测负类。

例如,假设分类阈值为 0.8。如果原始值 为 0.9,则模型会预测为正类别。如果原始值为 0.7,则模型会预测负类别。

分类阈值的选择对 假正例假负例

如需了解详情,请参阅机器学习速成课程中的阈值和混淆矩阵

分类不平衡的数据集

#fundamentals

分类问题的数据集,其中 每个类别的标签数量存在显著差异。 例如,假设一个二元分类数据集,其两个标签的划分如下所示:

  • 100 万个排除标签
  • 10 个正例标签

负标签与正标签的比率为 10 万比 1,因此这是一个分类不平衡的数据集。

相比之下,下面的数据集没有分类不平衡,因为 负例标签的比率相对接近于 1:

  • 517 个排除标签
  • 483 个肯定标签

多类别数据集也有可能是类别不平衡的。例如,以下多类分类数据集也存在类不平衡问题,因为其中一个标签的示例数量远远多于另外两个标签:

  • 1,000,000 个类别为“green”的标签
  • 200 个类别为“purple”的标签
  • 350 个类别为“orange”的标签

另请参阅多数类少数类

裁剪

#fundamentals

一种处理离群值的方法,具体方法是执行以下一项或两项操作:

  • 减少大于最大值的 feature 值 降低到该最大阈值
  • 将小于最小阈值的特征值增加到该最小阈值。

例如,假设特定特征的 <0.5% 的值不在 40-60 的范围内。在这种情况下,您可以执行以下操作:

  • 将超过 60(最大阈值)的所有值裁剪到正好 60。
  • 将小于 40(最小阈值)的所有值裁剪到正好 40。

离群值可能会损害模型,有时会导致权重 在训练期间溢出。一些离群值也会严重破坏 准确率等指标。剪裁是限制损害的常用技术。

梯度剪裁会在训练期间强制使梯度值位于指定范围内。

如需了解详情,请参阅机器学习速成课程中的数值数据:归一化

Cloud TPU

#TensorFlow
#GoogleCloud

专为提升机器性能而设计的专用硬件加速器 Google Cloud 上的学习工作负载。

聚类

#clustering

对相关的示例进行分组,尤其是在非监督式学习期间。所有 对样本进行分组,用户可以选择性地为每个聚类赋予意义。

聚类算法有很多。例如,k-means 算法会根据样本与样本之间的距离 形心,如下图所示:

一个二维图表,其中 x 轴标有树宽,
          y 轴标有树高。该图表包含两个重心和几十个数据点。系统会根据数据点之间的距离对其进行分类。也就是说,
          离一个形心最近的一次被归类为聚类 1,而那些
          离另一形心最近的被归类为聚类 2。

然后,人类研究人员就可以查看这些聚类,例如, 将聚类 1 标记为“矮树”将聚类 2 视为“全尺寸树”。

再举一个例子,例如基于样本与中心点距离的聚类算法,如下所示:

数十个数据点排列在同心圆上,几乎
          就像飞镖盘中央周围的小孔一样最内层的数据点环被归类为集群 1,中间环被归类为集群 2,最外层环被归类为集群 3。

如需了解详情,请参阅“聚类”课程

协同适应

神经元通过依赖算法预测训练数据中的模式时 几乎完全依赖于其他特定神经元的输出,而不是依赖于 整个网络的行为。如果验证数据中未呈现会导致协同适应的模式,则协同适应会导致过拟合。Dropout 正规化可减少协同自适应 因为丢弃可确保神经元不能仅依赖于特定的其他神经元。

协同过滤

#recsystems

基于许多其他用户的兴趣,对某个用户的兴趣进行预测。协同过滤 通常用在推荐系统中。

请参阅协作 过滤

概念偏移

特征与标签之间的关系发生转变。 随着时间的推移,概念偏移会降低模型的质量。

在训练期间,模型会学习特征与 它们在训练集中的标签数。如果训练集中的标签是真实世界的良好代理,那么模型能做出良好的真实世界预测。但是,由于概念偏移,模型的 往往会随着时间的推移而降低。

例如,假设有一个二元分类模型,用于预测某款车型是否“省油”。也就是说,这些地图项可以是:

  • 汽车重量
  • 引擎压缩
  • 传输类型

而标签为:

  • 最省油
  • 不省油

不过,“省油的汽车”的概念保留 变化。1994 年被标为省油的汽车型号,在 2024 年几乎肯定会被标为不省油。概念漂移的模型预测结果的准确性会随着时间的推移而越来越差。

非平稳性进行比较。

condition

#df

决策树中,用于求值的任何节点。例如,决策树的以下部分包含两个条件:

一个由两个条件组成的决策树:(x > 0) 和 (y > 0)。

条件也称为拆分或测试。

使用 leaf 对比条件。

另请参阅:

如需了解详情,请参阅“决策森林”课程中的条件类型

虚构

#language

幻觉的含义相同。

从技术上来说,“幻想”可能比“幻觉”更为准确。 然而,幻觉最初流行起来。

配置

分配用于训练模型的初始属性值的过程, 包括:

在机器学习项目中,可以通过特殊的配置文件或使用以下配置库进行配置:

确认偏差

#fairness

倾向于在 Google Cloud 中搜索、解释、赞赏和回顾特定信息, 确认人们已有的信念或假设的方式。 机器学习开发者可能会无意中以影响到支撑其现有观念的结果的方式收集或标记数据。确认偏差是一种隐性偏差

实验者偏差是一种确认偏差, 实验者会不断地训练模型, 假设成立。

混淆矩阵

#fundamentals

NxN 表格,汇总了正确和错误预测的数量 分类模型所生成的图片。 以下面的混淆矩阵为例, 二元分类模型:

肿瘤(预测) 非肿瘤(预测)
肿瘤(标准答案) 18 (TP) 1(FN)
非肿瘤(标准答案) 6 (FP) 452 (TN)

上图的混淆矩阵显示了以下内容:

  • 标准答案为“肿瘤”的 19 个预测中, 模型正确分类为 18,而错误分类为 1。
  • 在 458 个标准答案为“非肿瘤”的预测中,模型正确分类了 452 个,错误分类了 6 个。

多类别分类的混淆矩阵 有助于你发现错误模式 例如,请考虑以下关于 3 个类别的混淆矩阵, 对三种不同的鸢尾花类型进行分类的多类别分类模型 (维吉尼亚鸢尾、变色龙和山鸢尾)。当标准答案是维珍妮卡时, 混淆矩阵的概率更高, 我预测 Versicolor 与 Setosa 相比:

  Setosa(预测) 变色(预测) 维吉尼卡(预测)
山鸢尾(标准答案) 88 12 0
变色鸢尾(标准答案) 6 141 7
维吉尼亚鸢尾(标准答案) 2 27 109

再举一个例子,某个混淆矩阵可以揭示,经过训练以识别手写数字的模型往往会将 4 错误地预测为 9,将 7 错误地预测为 1。

混淆矩阵包含计算 各种效果指标,包括精确率召回率

选区解析

#language

将句子拆分为较小的语法结构(“组成部分”)。 机器学习系统的后续部分(例如自然语言理解模型)比原始句子更容易解析这些成分。例如,请考虑以下句子:

我的朋友收养了两只猫。

选区解析器可以将这个句子分成以下语句 两个组成部分:

  • 我的朋友是一个名词短语。
  • adopted two cats 是一个动词短语。

这些成分可以进一步细分为更小的成分。例如,动词短语

领养了两只猫

可进一步细分为:

  • adopted 是一个动词。
  • two cats 是另一个名词短语。

上下文语言嵌入

#language
#generativeAI

嵌入,可像母语为该语言的人类一样“理解”字词和短语。语境 嵌入可以理解复杂的语法、语义和上下文。

例如,考虑英语单词 cow 的嵌入。较早的嵌入 例如 word2vec 可以表示英语 使嵌入空间中的距离 从母羊公牛的距离相当于从母羊母羊ram(公羊)或从 femalemale。语境 嵌入可以更进一步, 认识到讲英语的人 随意使用“cow”一词表示 cow 或 bull。

上下文窗口

#language
#generativeAI

模型在给定问题中可以处理的令牌数量。上下文窗口越大,模型可以使用的信息就越多,从而对问题提供连贯一致的回答。

连续特征

#fundamentals

一种浮点特征,可能具有无限可能 例如温度或重量。

离散特征相对。

便利抽样

使用未以科学方法收集的数据集,以便快速运行实验。但以后,请务必改用科学收集到的 数据集。

收敛

#fundamentals

损失值在每次迭代中变化非常小或根本没有变化时达到的状态。例如,以下 损失曲线表明大约 700 次迭代会收敛:

笛卡尔图。X 轴表示损失。Y 轴代表训练时间
          迭代。在前几次迭代期间,损失非常高,
          急剧下降。经过大约 100 次迭代后,损失仍然是
          但要慢得多。经过大约 700 次迭代后
          损失保持不变。

当进一步训练无法改进模型时,模型就会收敛

深度学习中,损失值有时会保持不变或 在最终降序排列之前,在长时间内损失值保持不变时,您可能会暂时产生误以为已收敛的感觉。

另请参阅早停法

请参阅模型收敛和损失 曲线 机器学习速成课程。

凸函数

一个函数,该函数图形上方的区域是 凸集。原型凸函数的形状类似于字母 U。例如,以下函数都是凸函数:

U 形曲线,每个曲线只有一个最低点。

相反,以下函数不是凸函数。请注意,图表上方的区域不是凸集:

具有两个不同局部最小值点的 W 形曲线。

严格凸函数只有一个局部最低点, 也是全局最低点。经典的 U 形函数是严格凸函数。不过,有些凸函数(例如直线)则不是 U 形函数。

请参阅收敛和凸 函数 机器学习速成课程。

凸优化

使用诸如 梯度下降法 凸函数的最小值。 机器学习方面的大量研究都是专注于如何通过公式将各种问题表示成凸优化问题,以及如何更高效地解决这些问题。

有关完整详情,请参见 Boyd 和 Vandenberghe。 Convex 优化

凸集

欧几里得空间的子集,使得在该子集中任意两点之间绘制的线完全位于该子集内。例如,以下两个形状是凸集:

一张矩形插图。又一张椭圆形的插图。

相反,以下两个形状不是凸集:

一张插图,显示一个缺少一个切片的饼图。
          另一个插图展示了非常不规则的多边形。

卷积

#image

简单来说,在数学中,是两个函数的组合。在机器中 卷积可将卷积和 过滤器和输入矩阵 以便训练权重

术语“卷积”通常是一种简单的方法, 指的是卷积运算卷积层

如果没有卷积,机器学习算法就需要学习大张量中每个单元各自的权重。例如,如果机器学习算法在 2K x 2K 图片上进行训练,则必须找到 400 万个单独的权重。而使用卷积,机器学习算法只需算出卷积过滤器中每个单元的权重,大大减少了训练模型所需的内存。当卷积过滤器 只需将其复制到单元格中,每个单元格都会相乘 。

请参阅卷积神经网络简介 投放网络

卷积过滤器

#image

某电影中的两位演员之一 卷积运算。(另一个演员 是输入矩阵切片。)卷积过滤器是一种矩阵,其与输入矩阵相同,但形状小一些。例如,给定一个 28x28 的输入矩阵,过滤器可以是小于 28x28 的任何二维矩阵。

在照片处理中,卷积滤波中的所有单元通常都设置为 1 和 0 的恒定模式。在机器学习中, 卷积过滤器通常会以随机数字进行种子, 网络训练理想值。

如需了解详情,请参阅“图片分类”课程中的卷积

卷积层

#image

深度神经网络的一个层, 卷积过滤器传递输入 模型。以下面的 3x3 卷积过滤器

一个 3x3 矩阵,其值如下:[[0,1,0], [1,0,1], [0,1,0]]

以下动画展示了一个卷积层,该层由 9 个卷积运算组成,其中涉及 5x5 的输入矩阵。请注意,每个 卷积运算处理输入矩阵的不同 3x3 切片。 生成的 3x3 矩阵(右侧)包含 9 卷积运算:

动画:显示两个矩阵。第一个矩阵是 5 x 5 的矩阵:[[128,97,53,201,198], [35,22,25,200,195], [37,24,28,197,182], [33,28,92,195,179], [31,40,100,192,177]].
          第二个矩阵是 3 x 3 的矩阵:
          [[181,303,618], [115,338,605], [169,351,560]].
          第二个矩阵是通过对 5x5 矩阵的不同 3x3 子集应用卷积过滤器 [[0, 1, 0], [1, 0, 1], [0, 1, 0]] 计算得出的。

请参阅完全连接 图层

卷积神经网络

#image

一种神经网络,其中至少有一层为卷积层。典型的卷积 神经网络包含以下层的某种组合:

卷积神经网络在解决某些类型的问题(例如图像识别)方面取得了巨大成功。

卷积运算

#image

以下两步式数学运算:

  1. 卷积过滤器和输入矩阵切片执行元素级乘法。(输入矩阵切片具有相同的秩, 作为卷积过滤器的大小。)
  2. 对所得乘积矩阵中所有值求和。

例如,请考虑以下 5x5 输入矩阵:

5x5 矩阵:[[128,97,53,201,198], [35,22,25,200,195],
          [37,24,28,197,182], [33,28,92,195,179], [31,40,100,192,177]]。

现在假设有以下 2x2 卷积过滤器:

2x2 矩阵:[[1, 0], [0, 1]]

每个卷积运算都涉及输入矩阵的单个 2x2 切片。例如,假设我们使用输入矩阵左上角的 2x2 切片。卷积运算 该 Slice 将如下所示:

在左上角应用卷积过滤器 [[1, 0], [0, 1]]
          输入矩阵的 2x2 部分,即 [[128,97], [35,22]]。
          卷积滤波会保留 128 和 22,但会将 97 和 35 设为零。因此,卷积运算的结果为 150(128+22)。

卷积层由一系列卷积运算组成,每个卷积运算都针对不同的输入矩阵切片。

费用

损失的含义相同。

联合训练

半监督学习方法在以下所有条件都成立时特别有用:

协同训练本质上是将独立信号放大为更强的信号。 例如,假设有一个分类模型, 将各个二手车归类为“良好”或“差”。一组 预测特征可能侧重于汇总特征,例如年份、 汽车的品牌和型号;另一组预测功能可能只关注 前所有者的驾驶记录和汽车的保养记录

这篇有关联合训练的开创性论文是将带标签的数据与无标签数据相结合, Co-Training Blum 和 Mitchell。

反事实公平性

#fairness

一种公平性指标,用于检查分类器是否会针对某个个体和与该个体在一个或多个敏感属性方面相同的另一个个体产生相同的结果。评估分类器的反事实公平性是发现模型中潜在偏差来源的一种方法。

如需了解详情,请参阅以下任一内容:

覆盖偏差

#fairness

请参阅选择偏差

崩溃花

#language

含义不明确的句子或词组。歧义是自然语言理解的一个重大问题。例如,标题“Red Tape Holds Up Skyscraper”是个 因为 NLU 模型可以逐字解读标题, 比喻。

评论家

#rl

深度 Q 网络的含义相同。

交叉熵

对数损失函数泛化到 多类别分类问题。交叉熵 量化了两个概率分布之间的差异。另请参阅 困惑度

交叉验证

一种机制,用于估算模型泛化效果的好坏 通过针对一个或多个不重叠的数据子集测试模型来创建新数据 训练集中未包含的个别样本。

累积分布函数 (CDF)

用于定义小于或等于 目标值。例如,假设连续值的正态分布。 通过 CDF,您可以了解大约 50% 的样本应小于或等于平均值,大约 84% 的样本应小于或等于平均值加一标准差。

D

数据分析

根据样本、测量结果和可视化内容理解数据。数据分析在以下情况中会特别有用: 在构建第一个模型之前,先收到数据集。 此外,数据分析在理解实验和调试系统问题方面也至关重要。

数据增强

#image

人为地提升 training 示例 将现有的 示例来创建更多示例。例如: 假设图片是 特征,但您的数据集没有 包含足够的图片样本,供模型学习有用的关联。 理想情况下 将标签的图片复制到您的数据集中, 确保模型正确训练。如果不可行,则可以通过数据增强旋转、拉伸和翻转每张图像,以生成原始照片的多个变体,这样可能会生成足够的有标签数据来实现很好的训练效果。

DataFrame

#fundamentals

一种热门的 Pandas 数据类型,用于表示内存中的数据集

DataFrame 类似于表格或电子表格。数据中的每一列 DataFrame 有一个名称(标题),每一行都由一个 唯一编号。

DataFrame 中的每一列都采用类似于二维数组的结构,只是 您可以为每个列分配自己的数据类型。

另请参阅官方的 pandas.DataFrame 参考页面

数据并行

一种扩展训练推理的方法 将整个模型复制到 然后将一部分输入数据传递给每个设备。 数据并行处理可以 batch size;但数据并行处理要求 足够小,可以适应所有设备。

数据并行处理通常可以加快训练和推理的速度。

另请参阅模型并行处理

数据集(data set 或 dataset)

#fundamentals

一组原始数据,通常(但不限于)采用以下格式之一进行整理:

  • 电子表格
  • CSV(逗号分隔值)格式的文件

Dataset API (tf.data)

#TensorFlow

一种高阶 TensorFlow API,用于读取数据并将其转换为机器学习算法所需的格式。tf.data.Dataset 对象表示一系列元素,其中每个元素都包含一个或多个张量tf.data.Iterator 对象提供对 Dataset 元素的访问权限。

决策边界

两者之间的分隔符 model 示例 二元类多类别分类问题。例如,在以下表示某个二元分类问题的图片中,决策边界是橙色类别和蓝色类别之间的分界线:

两个类别之间明确定义的边界。

决策森林

#df

由多个决策树创建的模型。决策森林通过汇总其决策树的预测结果来进行预测。常见的决策森林类型包括随机森林梯度提升树

如需了解详情,请参阅“决策森林”课程中的决策森林部分。

判定阈值

分类阈值的含义相同。

决策树

#df

由一组条件组成的监督式学习模型,这些条件和叶按层次结构进行组织。例如,以下是决策树:

由四个条件组成的决策树
          层次结构,这可能导致五片叶子。

解码器

#language

一般来说,任何从经过处理的密集或内部表示法转换为更原始、稀疏或外部表示法的机器学习系统。

解码器通常是大型模型的组件,在其中它们通常与编码器搭配使用。

序列到序列任务中,解码器 从编码器生成的内部状态开始, 序列。

如需了解解码器位于何处,请参阅 Transformer Transformer 架构。

如需了解详情,请参阅机器学习速成课程中的大型语言模型

深度模型

#fundamentals

包含多个隐藏层神经网络

深度模型也称为深度神经网络

宽度模型相对。

一种非常流行的深度神经网络

深度模型的含义相同。

深度 Q 网络 (DQN)

#rl

Q 学习中,深度神经网络用于预测 Q 函数

评价器是深度 Q 网络的同义词。

受众特征对等

#fairness

在以下情况下得到满足的公平性指标: 模型的分类结果不依赖于 指定的敏感属性

例如,如果小人国和巨人国的人均申请了格鲁布杜布里大学,那么只要被录取的小人国学生所占的比例与被录取的巨人国学生所占的比例相同,就实现了受众特征均等,无论哪一群体的平均资质高低。

机会均等机会均等相比,该属性允许总体分类结果取决于敏感属性,但不允许特定指定标准答案标签的分类结果取决于敏感属性。如需查看探索在针对受众特征差异进行优化时所需做出的权衡的直观图表,请参阅“通过更智能的机器学习避免歧视”一文。

如需了解详情,请参阅机器学习速成课程中的公平性:人口统计学差异

去噪

#language

一种常见的自我监督式学习方法 其中:

  1. 向数据集中人为添加了噪声
  2. 模型会尝试移除噪声。

去噪功能可让您从无标签示例中学习。原始数据集用作目标或标签,而噪声数据用作输入。

某些掩码语言模型会按如下方式进行降噪:

  1. 通过遮盖部分句子,人为地向无标签句子添加噪声。 词元。
  2. 模型会尝试预测原始词元。

密集特征

#fundamentals

大多数或所有值均不为零的特征,通常是浮点值的张量。例如,以下 10 个元素的张量是稠密的,因为其中 9 个值均不为零:

8 3 7 5 2 4 0 4 9 6

稀疏特征相对。

密集层

全连接层的含义相同。

深度

#fundamentals

神经网络中的以下各项的总和:

例如,具有 5 个隐藏层和 1 个输出层的神经网络的深度为 6。

请注意,输入层不会影响深度。

深度可分离卷积神经网络 (sepCNN)

#image

一种基于 Inception卷积神经网络架构,但 Inception 模块已替换为深度可分离卷积。也称为 Xception。

深度可分离卷积(也简称为可分离卷积)会将标准 3D 卷积分解为两个计算效率更高的单独卷积运算:第一个是深度卷积,深度为 1(n ✕ n ✕ 1),第二个是点卷积,长度和宽度为 1(1 ✕ 1 ✕ n)。

如需了解详情,请参阅 Xception:使用深度可分离卷积的深度学习

派生标签

代理标签的含义相同。

设备

#TensorFlow
#GoogleCloud

一个多含义术语,有以下两个可能的定义:

  1. 一类可运行 TensorFlow 会话的硬件,包括 CPU、GPU 和 TPU
  2. 加速器芯片上训练机器学习模型时 (GPU 或 TPU),实际上负责 张量嵌入。 设备在加速器芯片上运行。相比之下,主机通常在 CPU 上运行。

差分隐私

在机器学习中,采用匿名化方法保护任何敏感数据 (例如个人的个人信息) 训练集。这种方法可以确保 模型不能学习或记住太多关于特定主题的 。这是通过在模型期间采样并添加噪声来实现 通过训练来遮盖个别数据点,从而降低泄露风险 敏感训练数据。

差分隐私还可用于机器学习以外的领域。例如,在计算不同受众群体的商品使用情况统计信息时,数据科学家有时会使用差分隐私来保护个人隐私。

降维

减少用于表示特征向量中特定特征的维度的数量,通常通过转换为嵌入向量来实现此操作。

尺寸

一个具有多重含义的术语,包括以下含义:

  • 张量中的坐标级别数量。例如:

    • 标量的维度为零例如 ["Hello"]
    • 向量有一个维度,如 [3, 5, 7, 11]
    • 矩阵有两个维度:例如 [[2, 4, 18], [5, 7, 14]]。 您可以使用一个坐标唯一指定一维向量中的特定单元;您需要使用两个坐标唯一指定二维矩阵中的特定单元。
  • 特征向量中的条目数。

  • 嵌入层中的元素数量。

直接提示

#language
#generativeAI

零样本提示的含义相同。

离散特征

#fundamentals

一种特征,包含有限个可能值。例如,值只能是动物蔬菜矿物的特征属于离散(或分类)特征。

连续特征相对。

判别模型

一种模型,可基于一组标签预测标签或 更多功能。更正式地说,判别模型定义了 输出条件概率, weights;即:

p(output | features, weights)

例如,一个通过特征预测电子邮件是否为垃圾邮件的模型 而权重是一种判别模型。

绝大多数监督式学习模型,包括分类 和回归模型都是判别模型。

生成模型相对。

判别器

一种确定示例是否真实的系统。

或者,生成对抗模型中的子系统 网络决定着 生成器创建的样本是真实的还是虚构的。

如需了解详情,请参阅 GAN 课程中的分类器

不同的影响

#fairness

对不同人群做出的决策会对不同的人口子群体产生不成比例的影响。这通常是指算法决策流程对某些子群体造成的伤害或给予的利益大于对其他子群体。

例如,假设一种算法用于确定小人国的 微型房贷的资格条件 他们被标记为“不符合条件”包含特定的 邮政编码。如果大端小人国居民比小端小人国居民更有可能拥有此邮政编码的邮寄地址,那么此算法可能会产生不同的影响。

差别待遇相反,后者侧重于当子群体特征作为算法决策流程的显式输入时产生的差异。

差别待遇

#fairness

对正文进行因式分解敏感属性 算法决策过程,以便不同的子群体 人受到不同的对待。

例如,假设有一个算法,用于根据小人申请贷款时提供的数据来确定他们是否符合申请微型住宅贷款的条件。如果算法使用 作为输入 采取不同的对待。

与专注于差异化影响的群体对比 算法决策对子群体的社会影响; 而不考虑这些子组是否为模型的输入。

蒸馏

#generativeAI

缩减一个模型(称为 教师)转换为一个较小的模型(称为学生),用于模拟 对原始模型的预测。提炼之所以有用,是因为较小的模型相较于较大的模型(教师模型)具有以下两个主要优势:

  • 推理时间更短
  • 降低了内存和能耗

不过,学生的预测通常不如教师的预测准确。

蒸馏会根据学生模型和教师模型预测输出的差异,训练学生模型以尽可能缩小损失函数

使用以下术语比较和对比蒸馏:

请参阅 LLM:微调、蒸馏和提示 工程 机器学习速成课程。

内容分发

给定特征标签的不同值的频率和范围。分布图捕获特定值的可能性。

下图显示了两个不同分布的直方图:

  • 左侧是财富与人数之间的幂律分配关系 让自己拥有这些财富。
  • 右侧显示了身高与拥有相应身高人数的正态分布。

两个直方图。一个直方图显示了幂定律的分布情况
          x 轴表示财富,以及拥有该财富的人数
          Y 轴。大多数人的财富非常少,只有少数人拥有
          大量财富。另一个直方图显示正态分布
          x 轴表示身高,以及达到该身高的人数
          一个 Y 轴上的大多数人的分数都集中在平均值附近。

了解每个特征和标签的分布有助于确定 对值进行归一化并检测离群值

离群值是指未出现在数据集中或非常罕见的值。例如,对于包含猫图片的数据集,土星的图片会被视为分布异常。

分裂式层次聚类

#clustering

请参阅层次聚类

降采样

#image

一个多含义术语,可以理解为下列两种含义之一:

  • 在下列示例中,减少一个特征中的信息量: 以便更高效地训练模型。例如: 在训练图像识别模型之前,对高分辨率图像进行下采样, 转换为较低的分辨率格式。
  • 针对极低比例的弱势群体开展培训 class 来改进针对代表性不足的类别的模型训练。 例如,在分类不平衡中, 数据集,模型往往会学习很多有关 majority class(多数类),但对 少数类。降采样有助于 均衡多数类别和少数类别的训练量。

如需了解详情,请参阅机器学习速成课程中的数据集:不平衡数据集

DQN

#rl

深度 Q 网络的缩写。

dropout 正则化

一种在训练中有用的正则化形式 神经网络。丢弃正则化 移除在广告网络中随机选择的固定数量的单元 用于单个梯度步长。丢弃的单元越多,正则化就越强。这类似于训练网络进行模拟 呈指数级大的较小网络的集成学习。 如需完整的详细信息,请参阅 Dropout: A Simple Way to Prevent Neural Networks from Overfitting(《Dropout:一种防止神经网络过拟合的简单方法》)。

动态

#fundamentals

经常或持续执行的操作。 在机器学习中,“动态”和“在线”是同义词。以下是机器学习中动态在线的常见用法:

  • 动态模型(或在线模型)是一种模型, 。
  • 动态训练(或在线训练)是指频繁或连续训练的过程。
  • 动态推理(即在线推理)是 根据需求生成预测。

动态模型

#fundamentals

一种经常(甚至可能连续)重新训练的模型。动态模型是一个“终身学习者”那个 适应不断演变的数据。动态模型也称为在线模型

静态模型相对。

E

即刻执行

#TensorFlow

一种 TensorFlow 编程环境,操作可在其中立即运行。相比之下,在图执行中调用的操作在得到明确评估之前不会运行。Eager Execution 命令式接口 就像大多数编程语言中的代码一样。相比图执行程序,调试即刻执行程序通常要容易得多。

早停法

#fundamentals

一种正则化方法,涉及在训练损失完成下降之前结束训练在早停法中,当验证数据集上的损失开始增加时(即泛化性能恶化时),您会刻意停止训练模型。

挖掘机距离 (EMD)

衡量两个分布的相对相似程度的指标。Earth Mover 距离越小,分布越相似。

修改距离

#language

用于衡量两个文本字符串彼此相似度的指标。 在机器学习中,修改距离非常有用, 以及一种有效的方法,用于比较两个已知已知 或用于查找与给定字符串相似的字符串。

编辑距离有多个定义,每个定义都使用不同的字符串操作。例如,Levenshtein 距离会考虑最少的删除、插入和替换操作。

例如,字词“heart”之间的列文什泰因距离和“飞镖” 是 3,因为以下 3 次修改是将一个字词转换成的最少更改 复制到另一个对象中:

  1. 心形 → deart(将“h”替换为“d”)
  2. deart → dart(删除“e”)
  3. dart → darts(插入“s”)

Einsum 表示法

一种高效的符号,用于描述如何组合两个张量。将一个张量的元素相乘即可合并这些张量 另一个张量的元素,然后对乘积求和。 Einsum 表示法使用符号来标识每个张量的轴,并重新排列这些相同的符号以指定生成的新张量的形状。

NumPy 提供常见的 Einsum 实现。

嵌入层

#language
#fundamentals

一种特殊的隐藏层,用于基于 高维分类特征来 逐渐学习低维度嵌入向量。一个 嵌入层让神经网络能够训练更多 这比只使用高维分类特征进行训练更高效。

例如,地球上目前约有 73,000 种树。假设 树种是模型中的特征,所以模型的 输入层包含一个独热矢量,即 73000 元素。 例如,baobab 可能如下所示:

一个包含 73,000 个元素的数组。前 6,232 个元素的值为 0。下一个元素的值为 1。最后的 66,767 个元素
     值为零。

包含 73,000 个元素的数组非常长。如果没有添加嵌入层 训练将非常耗时, 72,999 个零相乘。假设您选择的嵌入层由 12 个维度组成。因此,嵌入层将逐渐为每种树种学习一个新的嵌入向量。

在某些情况下,哈希是嵌入层的合理替代方案。

请参阅嵌入 机器学习速成课程。

嵌入空间

#language

d 维向量空间,具有更高维的特征, 矢量空间的映射关系。理想情况下,嵌入空间包含一个 可得出有意义的数学结果的结构;例如 在理想的嵌入空间中, 可以解决文字类比任务。

点积 用于衡量两个嵌入之间的相似度。

嵌入向量

#language

从广义上讲,取自任意变量的浮点数数组 隐藏层,用于描述该隐藏层的输入。 通常,嵌入矢量是 嵌入层。例如,假设嵌入层必须学习 嵌入向量。以下数组可能是猴面包树的嵌入向量:

一个包含 12 个元素的数组,每个元素都存储一个介于 0.0 和 1.0 之间的浮点数。

嵌入矢量不是一堆随机数字。嵌入层 通过训练确定这些值,类似于 神经网络在训练过程中学习其他权重。数组中的每个元素都是某种树种的特征评分。哪个元素代表哪种树种的特征?这对人类来说很难确定。

嵌入向量在数学上最值得注意的部分是,相似项具有类似的浮点数集。例如,类似 与树种相比, 不同的树种。红杉和红杉树是同类树种,因此它们的浮点数集合会比红杉树和椰子树更相似。嵌入矢量中的数字 每次重新训练模型都会更改,即使重新训练模型也是如此 完全相同的输入。

经验累积分布函数 (eCDF 或 EDF)

基于真实数据集的经验测量累积分布函数。 函数在 x 轴上的任意点处 小于或等于指定值的数据集。

经验风险最小化 (ERM)

选择可将训练集上的损失最小化的函数。与结构风险最小化相对。

编码器

#language

一般来说,任何从原始数据、稀疏数据或外部数据进行转换的机器学习系统 处理成经过处理、更密集或更内部的表示形式。

编码器通常是较大模型的组成部分,通常与解码器搭配使用。有些 Transformer 会将编码器与解码器配对,但有些 Transformer 只使用编码器或解码器。

有些系统使用编码器的输出作为分类或 回归网络。

序列到序列任务中,编码器 接受输入序列并返回内部状态(向量)。然后,解码器使用该内部状态来预测下一个序列。

如需了解 Transformer 架构中的编码器定义,请参阅 Transformer

如需了解详情,请参阅机器学习速成课程中的 LLM:什么是大语言模型

集成学习

一组独立训练的模型,其预测结果会被平均或汇总。在许多情况下,与单个模型相比,集合模型能做出更准确的预测。例如,随机森林是从多个决策树构建的集成学习模型。请注意,并非所有 决策森林是集成学习。

如需了解详情,请参阅机器学习速成课程中的随机森林

#df

信息论中,熵是对概率分布不可预测程度的描述。或者,熵也定义为每个示例包含的信息量。当随机变量的所有值都具有相同的概率时,分布具有可能的最大熵。

有两个可能的值为“0”的集合的熵和“1”(例如, 二元分类问题中的标签) 公式如下:

  H = -p log p - q log q = -p log p - (1-p) * log (1-p)

其中:

  • H 是熵。
  • p 是“1”的比例示例。
  • q 是“0”示例的比例。请注意,q = (1 - p)
  • log 通常为 log2。在此例中, 单位。

例如,假设情况如下:

  • 100 个示例包含值“1”
  • 300 个示例包含值“0”

因此,熵值为:

  • p = 0.25
  • q = 0.75
  • H = (-0.25)log2(0.25) - (0.75)log2(0.75) = 每个样本 0.81 位

完全平衡的集合(例如,200 个“0”和 200 个“1”) 每个样本的熵为 1.0 位。随着集合的不平衡程度增加,其熵会趋近于 0.0。

决策树中,熵有助于公式化 信息获取,帮助 splitter 选择条件 在分类决策树生长过程中出现的概率。

将熵与以下各项进行比较:

熵通常称为 Shannon 熵

如需了解详情,请参阅“决策森林”课程中的适用于包含数值特征的二元分类的完全分屏器

环境

#rl

在强化学习中,包含代理并允许代理观察该世界的状态的世界。例如: 呈现的世界可以是象棋这样的游戏,也可以是像棋类这样的现实世界 迷宫。当代理对环境应用操作时, 然后环境在状态之间转换。

分集

#rl

在强化学习中, agent,以了解环境

周期数

#fundamentals

对整个训练集的完整训练遍历 以便每个样本都处理一次。

一个周期表示 N/批量大小 个训练迭代,其中 N 是示例总数。

例如,假设存在以下情况:

  • 该数据集包含 1000 个样本。
  • 批次大小为 50 个样本。

因此,一个周期需要 20 次迭代:

1 epoch = (N/batch size) = (1,000 / 50) = 20 iterations

请参阅线性回归: 超参数 机器学习速成课程。

极小贪心策略

#rl

在强化学习中,一种策略,它遵循概率为 epsilon 的随机策略,否则遵循贪心策略。例如,如果 Epsilon 值是 0.9,则该政策有 90% 的时间会遵循随机政策,贪心 政策 50%

在连续的剧集中,该算法会按顺序降低 Epsilon 值 从遵循随机政策转变为遵循贪心政策。修改者 转换政策时,代理首先随机探索环境,然后 然后贪心地利用随机探索的结果。

机会均等

#fairness

一种公平性指标,用于评估模型是否能对敏感属性的所有值都同样准确地预测出理想结果。换句话说,如果模型的理想结果是正类别,则目标是让所有组的真正例率相同。

机会均等与均等机会相关,这要求所有群组的真正例率假正例率都相同。

假设 Glubbdubdrib 大学同时招收小人国和巨人国学生,并为他们开设了严格的数学课程。小人国的中学提供丰富的数学课程,绝大多数学生都符合大学课程的资格要求。Brobdingnagians 的中学不 提供数学课的学生也就少得多 有效。已满足首选标签 “已允许”如果 符合条件的学生入读录取的概率相同 它们是小人国或大布丁纳吉人。

例如,假设 100 小人国和 100 人 格卢布达布大学和招生决定如下:

表 1. 小人申请者(90% 符合条件)

  符合资格 不合格
已录取 45 3
已拒绝 45 7
总计 90 10
成功录取的学生比例:45/90 = 50%
不符合条件的学生所占百分比:7/10 = 70%
被录取的小人国学生占总比例:(45+3)/100 = 48%

 

表 2. Brobdingnagian 申请者(10% 合格):

  符合资格 不合格
已录取 5 9
已拒绝 5 81
总计 10 90
被录取的符合条件的学生所占百分比:5/10 = 50%
被拒的不符合条件的学生所占百分比:81/90 = 90%
被录取的 Brobdingnagian 学生总所占百分比:(5+9)/100 = 14%

以上示例满足机会均等的接受原则, 因为符合条件的小人国人和大人人都是符合条件的学生 有 50% 的成功机会获得批准

虽然机会均等性已满足,但以下两个公平性指标未满足:

  • 人口统计均等:利立浦特人和布罗比登人被大学录取的比例不同;48% 的利立浦特人学生被录取,但只有 14% 的布罗比登人学生被录取。
  • equalized odds:虽然合格小人国 和布罗布丁纳吉亚的学生都有机会被录取 这与非合格小人国和 两个国家有同样的机会被拒绝, 满意。不符合条件的利立浦特人被拒绝的几率为 70%,而不符合条件的布罗比登人被拒绝的几率为 90%。

如需了解详情,请参阅机器学习速成课程中的公平性:机会均等

均等几率

#fairness

用于评估模型预测结果是否同等的公平性指标 适用于具有如下政策的敏感属性的所有值: 正类别负类别 - 而不仅仅是一个类别 。换句话说,真正例率假负例率应该相同 所有群组。

均衡几率涉及 机会平等,该原则仅注重 一个类别(正例或负例)的错误率。

例如,假设 Glubbdubdrib 大学同时招收小人国和巨人国学生,并为他们开设了严格的数学课程。小人国的中学提供丰富的数学课程,绝大多数学生都符合大学课程的资格要求。Brobdingnagians 的次要 学校根本不提供数学课 其学生就符合条件了。只要申请者符合条件,无论他们是小人国居民还是巨人国居民,都同样有可能被录取,如果不符合条件,也同样有可能被拒绝,就满足机会均等要求。

假设 100 名小人人和 100 名大人小人为格鲁布达卜星申请 大学和录取决定如下:

表 3. 小人国申请者(90% 合格)

  符合资格 不合格
已录取 45 2
已拒绝 45 8
总计 90 10
被录取的符合条件的学生所占百分比:45/90 = 50%
被拒的不符合条件的学生所占百分比:8/10 = 80%
被录取的利立浦特学生总所占百分比:(45+2)/100 = 47%

 

表 4. 巨人族申请者(10% 符合条件):

  符合资格 不合格
已录取 5 18
已拒绝 5 72
总计 10 90
符合条件且被录取的学生所占百分比:5/10 = 50%
不符合条件且被拒绝的学生所占百分比:72/90 = 80%
布罗比登学生被录取的总百分比:(5+18)/100 = 23%

由于符合条件的利立浦特学生和布罗比冈学生都有 50% 的机会被录取,而不符合条件的利立浦特学生和布罗比冈学生都有 80% 的机会被拒绝,因此满足机会均等要求。

均衡几率在 “相等性 “监督式学习中的机会”部分所述内容如下: 在 与受保护的属性 A 和结果 Y 相关联(如果 福利 和 结果 A 独立), 条件。"

Estimator

#TensorFlow

已弃用的 TensorFlow API。使用 tf.keras 而非 Estimator。

evals

#language
#generativeAI

主要用作 LLM 评估的缩写。从更广泛的意义上来说,evals 是任何形式的 评估

evaluation

#language
#generativeAI

衡量模型质量或比较不同模型的过程。

评估监督式机器学习 则您通常需要根据验证集测试集评估 LLM 通常涉及更广泛的质量和安全评估。

示例

#fundamentals

一行 features 的值,可能 一个标签监督式学习中的示例分为两大类:

  • 有标签样本包含一个或多个特征以及一个标签。有标签样本会在训练期间使用。
  • 无标签样本包含一个或 但没有标签。推理期间会使用无标签样本。

例如,假设您正在训练模型来确定 天气状况对学生考试分数的影响。以下是三个有标签的示例:

功能 标签
温度 湿度 压力 测试分数
15 47 998 良好
19 34 1020 极佳
18 92 1012

以下是三个未标记的示例:

温度 湿度 压力  
12 62 1014  
21 47 1017  
19 41 1021  

数据集的行通常是示例的原始来源。 也就是说,一个样本通常包含 数据集。此外,示例中的特征还可以包括合成特征,例如特征交叉

如需了解详情,请参阅“机器学习简介”课程中的监督学习

体验重放

#rl

在强化学习中,DQN 技术用于 减少训练数据中的时间相关性。代理会将状态转换存储在重放缓冲区中,然后从重放缓冲区中抽样转换以创建训练数据。

实验者偏差

#fairness

请参阅确认偏差

梯度爆炸问题

#seq

深度神经网络(尤其是循环神经网络)中的梯度趋于变得出奇地陡峭(高)。急剧的梯度通常会导致非常大的更新 每个节点权重 深度神经网络。

梯度爆炸问题导致的模型变得非常困难 或无法训练。渐变裁剪 可以缓解这一问题。

梯度消失问题相对。

F

F1

“总览”二元分类指标, 依赖于精确率召回率。 公式如下:

$$F{_1} = \frac{\text{2 * precision * recall}} {\text{precision + recall}}$$

例如,假设存在以下情况:

  • precision = 0.6
  • 召回率 = 0.4
$$F{_1} = \frac{\text{2 * 0.6 * 0.4}} {\text{0.6 + 0.4}} = 0.48$$

当精确率和召回率高度相似(如上例所示)时, F1 接近其平均值。当精确率和召回率差异很大时,F1 会更接近较低的值。例如:

  • 精确率 = 0.9
  • recall = 0.1
$$F{_1} = \frac{\text{2 * 0.9 * 0.1}} {\text{0.9 + 0.1}} = 0.18$$

公平性约束

#fairness
对算法应用约束条件,以确保满足一个或多个公平性定义。公平性约束条件的示例包括:

公平性指标

#fairness

“公平性”的数学定义可衡量的指标 一些常用的公平性指标包括:

许多公平性指标都是互斥的;请参阅 公平性指标不兼容

假负例 (FN)

#fundamentals

在一个示例中,模型错误地预测了 负类别。例如,模型 预测某封电子邮件不是垃圾邮件 (负类别),但该电子邮件实际上是垃圾邮件。

假负例率

模型错误判断的实际正例所占的比例 预测负类别。以下公式用于计算假正例率:

$$\text{false negative rate} = \frac{\text{false negatives}}{\text{false negatives} + \text{true positives}}$$

如需了解详情,请参阅机器学习速成课程中的阈值和混淆矩阵

假正例 (FP)

#fundamentals

被模型错误地预测为正类别的样本。例如,模型预测某封电子邮件是垃圾邮件(正类别),但该电子邮件实际上不是垃圾邮件

如需了解详情,请参阅机器学习速成课程中的阈值和混淆矩阵

假正例率 (FPR)

#fundamentals

模型错误预测为正类别的实际负例所占的比例。以下公式用于计算假正例率:

$$\text{false positive rate} = \frac{\text{false positives}}{\text{false positives} + \text{true negatives}}$$

假正例率是 ROC 曲线的 x 轴。

请参阅分类:ROC 和 AUC 机器学习速成课程。

功能

#fundamentals

机器学习模型的输入变量。示例包含一个或多个特征。例如,假设您正在训练一个模型,以确定天气状况对学生考试成绩的影响。下表显示了三个示例,每个示例包含三个特征和一个标签:

功能 标签
温度 湿度 压力 测试分数
15 47 998 92
19 34 1020 84
18 92 1012 87

标签相对。

如需了解详情,请参阅“机器学习简介”课程中的监督学习

特征组合

#fundamentals

由“组合”形成的合成特征 分类分桶特征。

例如,请考虑使用“情绪预测”该模型 以下四个存储分区中的一个:

  • freezing
  • chilly
  • temperate
  • warm

并表示以下三个分区之一中的风速:

  • still
  • light
  • windy

如果不使用特征交叉,线性模型会针对前面七个不同的存储桶中的每个存储桶单独进行训练。因此,模型在 freezing 上训练时,不会受到 windy 上训练的影响。

或者,您也可以创建温度和风速的特征交叉。此合成特征有以下 12 种可能: 值:

  • freezing-still
  • freezing-light
  • freezing-windy
  • chilly-still
  • chilly-light
  • chilly-windy
  • temperate-still
  • temperate-light
  • temperate-windy
  • warm-still
  • warm-light
  • warm-windy

得益于特征组合,模型可以学习情绪差异 介于 freezing-windy 天到 freezing-still 天之间。

如果您要根据两个各有许多不同分桶的特征创建一个合成特征,那么生成的特征交叉将有大量可能的组合。例如,如果一个特征有 1,000 个存储桶,另一个特征有 2,000 个存储桶,则生成的特征交叉有 2,000,000 个存储桶。

正式地说,交叉是一种 笛卡尔积

特征交叉主要用于线性模型,很少用于神经网络。

请参阅分类数据:特征 交叉 机器学习速成课程。

特征工程

#fundamentals
#TensorFlow

此过程涉及以下步骤:

  1. 确定哪些特征可能在训练模型方面非常有用。
  2. 将数据集中的原始数据转换为这些特征的高效版本。

例如,您可能会确定 temperature 可能是一项实用的功能。然后,您可以尝试使用分桶来优化模型可以从不同 temperature 范围中学习的内容。

特征工程有时称为特征提取特征化

如需了解详情,请参阅机器学习速成课程中的数值数据:模型如何使用特征向量提取数据

特征提取

一个多含义术语,具有下列两种含义之一:

特征重要性

#df

变量重要性的含义相同。

特征集

#fundamentals

训练机器学习模型时采用的一组特征。例如,邮政编码、房源大小和房源使用情况可能 为预测房价的模型包含一个简单的特征集。

特征规范

#TensorFlow

描述提取特征数据所需的信息 来自 tf.Example 协议缓冲区的数据。由于 tf.Example 协议缓冲区只是数据的容器,因此您必须指定以下内容:

  • 要提取的数据(即地图项的键)
  • 数据类型(例如 float 或 int)
  • 长度(固定或可变)

特征向量

#fundamentals

构成示例特征值数组。特征向量在训练推理期间输入。例如,具有两个离散特征的模型的特征向量可能是:

[0.92, 0.56]

四个层:一个输入层、两个隐藏层和一个输出层。
          输入层包含两个节点,
          另一个是 0.92,另一个是 0.56。

每个样本都为特征向量提供不同的值,因此 下一个示例的特征向量可能如下所示:

[0.73, 0.49]

特征工程决定了如何表示 特征向量中的特征。例如,具有五个可能值的二元分类特征可以使用独热编码表示。在这种情况下,特定示例的特征向量部分将由四个零和第三个位置上的单个 1.0 组成,如下所示:

[0.0, 0.0, 1.0, 0.0, 0.0]

再举一个例子,假设您的模型由三个特征组成:

  • 一个二元分类特征,具有五个可能的值,以 独热编码;例如:[0.0, 1.0, 0.0, 0.0, 0.0]
  • 另一个二元分类特征,具有 三个可能值,采用独热编码表示;例如:[0.0, 0.0, 1.0]
  • 浮点特征;例如:8.3

在这种情况下,每个样本的特征向量将用 乘以 9 的值。根据上述列表中的示例值, 则特征向量为:

0.0
1.0
0.0
0.0
0.0
0.0
0.0
1.0
8.3

请参阅数值数据:模型如何使用特征提取数据 矢量 机器学习速成课程。

特征化

从输入源中提取特征的过程。 例如文档或视频,并将这些特征映射到 特征向量

一些机器学习专家将特征化用作 特征工程特征提取

联合学习

是一种分布式机器学习方法,使用驻留在智能手机等设备上的分散示例训练机器学习模型。在联邦学习中,一部分设备会下载当前模型 与中央协调服务器通信设备会使用存储在设备上的示例来改进模型。然后,设备会将模型改进(但不包括训练示例)上传到协调服务器,在那里,这些改进会与其他更新汇总在一起,以生成改进后的全局模型。汇总后,由设备计算的模型更新 是不再需要的,可以将其舍弃。

由于训练样本从未上传,因此联邦学习会遵循 集中式数据收集和数据最少化原则方面的隐私权原则。

如需详细了解联邦学习, 请参阅本教程

反馈环

#fundamentals

在机器学习中,模型的预测会影响同一模型或其他模型的训练数据的情况。例如,一个模型 推荐的电影会影响用户观看的电影 影响后续的电影推荐模型。

请参阅生产机器学习系统:问题 提问 机器学习速成课程。

前馈神经网络 (FFN)

没有循环或递归连接的神经网络。例如: 传统的深度神经网络是 前馈神经网络。与循环神经对比 网络,属于循环性质。

少样本学习

一种机器学习方法,通常用于对象分类, 旨在仅通过少量样本数据来训练出有效的分类器, 训练样本。

另请参阅单样本学习零样本学习

少样本提示

#language
#generativeAI

包含多个(“几个”)示例的提示 演示了大语言模型 响应。例如,以下长篇幅问题包含两个示例,展示了大型语言模型如何回答查询。

一个问题的各个部分 备注
指定国家/地区的官方货币是什么? 您希望 LLM 回答的问题。
法国:欧元 一个例子。
英国:英镑 再举一个例子。
印度 实际查询。

与少样本提示相比,少样本提示通常会 零样本提示单样本提示。然而,少样本提示 需要更长的提示。

少样本提示是一种少样本学习形式 已应用于基于提示的学习

请参阅提示 工程 机器学习速成课程。

小提琴

#language

一种以 Python 为先的配置库,可在不使用侵入性代码或基础架构的情况下设置函数和类的值。对于 Pax 和其他机器学习代码库,这些函数和 类别代表模型训练 超参数

Fiddle 假定机器学习代码库通常分为以下部分:

  • 库代码,用于定义层和优化器。
  • 数据集“glue”这些代码会调用这些库,并将所有内容连接在一起。

Fiddle 会在未评估和 可变形式。

微调

#language
#image
#generativeAI

对 BERT 模型进行第二次特定任务的训练, 预训练模型,用于针对 应用场景。例如,某些完整训练过程的 大语言模型如下所示:

  1. 预训练:使用庞大的通用数据集(例如所有英语版维基百科页面)训练大语言模型。
  2. 微调:训练预训练模型以执行特定任务,例如回答医学查询。微调通常涉及数百或数千个专注于特定任务的示例。

再举一个例子,大型图片模型的完整训练序列如下所示:

  1. 预训练:使用大型一般图片训练大型图片模型 例如维基共享资源中的所有图像。
  2. 微调:训练预训练模型以执行特定任务, 例如生成虎鲸的图片。

微调可包含以下策略的任意组合:

  • 修改所有预训练模型现有的 parameters。这有时称为“全面微调”。
  • 仅修改预训练模型的部分现有参数(通常是距离输出层最近的层),同时保持其他现有参数不变(通常是距离输入层最近的层)。请参阅 参数高效微调
  • 添加更多图层,通常在最靠近输出图层的现有图层之上。

微调是一种迁移学习。因此,与训练预训练模型时所用的损失函数或模型类型相比,微调可能会使用不同的损失函数或模型类型。例如,您可以微调预训练的大型图片模型,以生成一个回归模型,用于返回输入图片中的鸟类数量。

使用以下术语比较和对比微调:

如需了解详情,请参阅机器学习速成课程中的微调

亞麻色

#language

一个基于 JAX 构建的高性能开源深度学习。Flax 提供各种功能 训练 神经网络 作为评估其效果的方法。

毛发素

#language

一个开源 Transformer,基于 Flax 构建,主要用于自然语言处理和多模态研究。

忘记关口

#seq

长期短期记忆细胞中用于调节信息在细胞中流动的那部分。不保存关口可通过决定要舍弃的信息来维护上下文 从细胞状态开始。

完整 softmax

softmax 的含义相同。

候选采样相对。

请参阅神经网络:多类别 分类 机器学习速成课程。

全连接层

隐藏层,其中每个节点都连接到后续隐藏层中的每个节点。

全连接层又称为密集层

函数转换

一个函数,接受一个函数作为输入,并返回一个转换后的函数作为输出。JAX 使用函数转换。

G

GAN

生成对抗的缩写 网络

泛化

#fundamentals

模型能够根据新数据 之前未见过的数据。可泛化的模型与过拟合模型相反。

如需了解详情,请参阅机器学习速成课程中的泛化

Gemini

#language
#image
#generativeAI

由 Google 最先进的 AI 技术组成的生态系统。生态系统的构成要素 包括:

Gemini 模型

#language
#image
#generativeAI

Google 基于 Transformer 的先进多模态模型。Gemini 模型 旨在与代理集成。

用户可以通过多种方式与 Gemini 模型互动,包括通过交互式对话框界面和 SDK。

泛化曲线

#fundamentals

训练损失验证损失迭代次数的变化情况图。

泛化曲线可以帮助您检测 过拟合。例如,以下泛化曲线表明出现过拟合,因为验证损失最终明显高于训练损失。

直角坐标图,其中 y 轴标记为“损失”,x 轴标记为“迭代次数”。系统会显示两个图表。一个图表显示的是训练损失,另一个图表显示的是验证损失。
          两个曲线的起点类似,但训练损失最终
          则远低于验证损失。

如需了解详情,请参阅机器学习速成课程中的泛化

广义线性模型

最小二乘回归的泛化 这些模型 高斯语 噪声 基于其他类型的噪声的模型,例如 泊松噪声 或 分类噪声。广义线性模型的示例包括:

广义线性模型的参数可通过 凸优化

广义线性模型具有以下特性:

  • 最优的最小二乘回归模型的平均预测结果等于训练数据的平均标签。
  • 最优逻辑回归预测的平均概率 与训练数据的平均标签相等。

广义线性模型的功能受其特征的限制。取消点赞 广义线性模型无法“学习新特征”。

生成对抗网络 (GAN)

用于创建新数据的系统,生成器会在该系统中创建 数据和判别器会确定 创建的数据是否有效。

如需了解详情,请参阅“生成式对抗网络”课程

生成式 AI

#language
#image
#generativeAI

一个新兴的变革性领域,没有正式定义。 尽管如此,大多数专家也同意,生成式 AI 模型 创建(“生成”)内容:

  • 复杂
  • 连贯
  • 原图

例如,生成式 AI 模型可以构建复杂的 论文或图片。

一些早期的技术,包括 LSTMsRNN 也可以生成原始和 连贯的内容一些专家认为这些早期技术属于生成式 AI,而另一些人则认为,真正的生成式 AI 需要生成比这些早期技术能生成的更复杂的输出。

预测性机器学习相对。

生成模型

实际上是指执行以下任一操作的模型:

  • 从训练数据集创建(生成)新样本。 例如,用诗歌数据集进行训练后,生成模型可以创作诗歌。生成对抗网络生成器部分属于此类别。
  • 确定新样本来自 或者通过与创建模型训练集的相同机制 训练集。例如, 一个由英语句子组成的数据集, 确定新输入是有效英文句子的概率。

从理论上讲,生成模型可以辨别数据集中样本或特定特征的分布情况。具体来说:

p(examples)

非监督式学习模型是生成式的。

判别模型相对。

generator

生成对抗网络中的子系统,用于创建新的示例

判别模型相对。

基尼不纯度

#df

类似的指标。分屏器使用从基尼不纯度或熵派生的值来组合条件,以便对决策树进行分类。信息增益派生自熵。从基尼不纯度派生出来的指标没有普遍接受的等效术语;不过,这个未命名指标与信息增益一样重要。

Gini 杂质也称为 gini 索引,或简称 gini

黄金数据集

一组手动整理的数据,用于捕获标准答案。团队可以使用一个或多个黄金数据集来评估模型的质量。

某些黄金数据集捕获了标准答案的不同子网域。例如,用于图片分类的黄金数据集可能包含光照条件和图片分辨率。

GPT(生成式预训练转换器)

#language

OpenAI 开发的一系列基于 Transformer大语言模型

GPT 变体可应用于多种模态,包括:

  • 图片生成(例如 ImageGPT)
  • 生成文本到图像(例如, DALL-E)。

gradient

偏导数相对于 所有自变量。在机器学习中,梯度是模型函数偏导数的向量。梯度指向最高速上升的方向。

梯度累积

一种反向传播技术,仅在每个数据集周期(而不是每次迭代)更新一次参数。处理完每个小批次后, ccumulation 只会更新梯度的运行总计。然后,在处理该时期中的最后一个小批量后,系统最终会根据所有梯度变化的总和更新参数。

批量大小与可用于训练的内存量相比非常大时,梯度累积非常有用。当内存存在问题时,自然倾向于减小批量大小。 不过,减小正常反向传播算法中的批量大小会增加 参数更新次数。梯度累积使模型能够 避免内存问题,但仍能高效地进行训练。

梯度提升(决策)树 (GBT)

#df

一种决策林,其中:

请参阅梯度提升决策 中的树木 决策森林课程。

梯度增强

#df

一种训练算法,其中弱模型经过训练, 提高有效模型的质量(减少损失)。例如,弱模型可以是线性模型或小型决策树模型。强模型是之前训练的所有弱模型的总和。

在最简单的梯度提升形式中,每次迭代都会训练一个弱模型来预测强模型的损失梯度。然后,通过减去预测的梯度来更新强模型的输出,类似于梯度下降

$$F_{0} = 0$$ $$F_{i+1} = F_i - \xi f_i $$

其中:

  • $F_{0}$ 为起始强模型。
  • $F_{i+1}$ 是紧随其后的强大模型。
  • $F_{i}$ 是当前的强大模型。
  • $\xi$ 是一个介于 0.0 和 1.0 之间的值,称为收缩,类似于梯度下降中的学习率
  • $f_{i}$ 是训练用来预测 $F_{i}$ 的损失梯度的弱模型。

梯度提升的现代变体在计算中还会纳入损失函数的二阶导数 (Hessian)。

决策树通常用作梯度提升中的弱模型。请参阅 梯度提升(决策)树

梯度裁剪

#seq

一种常用的机制,用于在使用梯度下降方法训练模型时人为限制(剪裁)梯度的最大值,以缓解梯度爆炸问题

梯度下降法

#fundamentals

一种最小化损失的数学技术。 梯度下降法以迭代方式调整权重偏差,逐渐找到最佳组合,从而将损失降至最低。

梯度下降法比机器学习要早得多。

请参阅线性回归:梯度 descent 机器学习速成课程。

图表

#TensorFlow

TensorFlow 中的一种计算规范。图中的节点表示操作。边缘具有方向,表示将某项操作的结果(一个张量)作为一个操作数传递给另一项操作。使用 TensorBoard 可视化图。

图执行 (图执行)

#TensorFlow

一种 TensorFlow 编程环境,在该环境中,图执行程序会先构造一个,然后执行该图的所有部分或某些部分。图执行是 TensorFlow 1.x 中的默认执行模式。

即刻执行相对。

贪婪政策

#rl

在强化学习中,始终会选择模型的 预期回报率最高的操作。

标准答案

#fundamentals

现实。

实际发生的事情。

例如,考虑一个二元分类模型,该模型用于预测大学一年级学生是否会在 6 年内毕业。此模型的标准答案是该学生是否实际在 6 年内毕业。

群体归因偏差

#fairness

假设某个人的真实情况适用于相应群体中的每个人。如果使用便利抽样收集数据,群体归因偏差的影响会加剧。在非代表性样本中,归因可能不会反映现实。

另请参阅群外同质性偏差群内偏差。另请参阅 公平性:偏见的类型 机器学习速成课程。

H

幻觉

#language

由一个 AI 技术专家生成看似看似 但实际上不正确的输出 生成式 AI 模型, 与现实世界有关的断言。 例如,某个生成式 AI 模型声称贝拉克·奥巴马 (Barack Obama) 于 1865 年去世 具有幻觉性

哈希技术

在机器学习中,分桶机制 分类数据,尤其是当 类别很大,但实际出现的类别的数量 相对较小。

例如,地球上约有 73,000 种树。您可以 代表了 73,000 个独立分类中的 73,000 个树种 存储分区。另外,如果这些树种中的 那么您可以使用哈希技术将树种分为 大约有 500 个存储分区

一个存储分区可能包含多个树种。例如,对 可以放置猴面包树红枫 - 两种基因相异的树 归入同一存储分区。无论如何,哈希仍然是将大型分类集合映射到所选数量的桶的好方法。哈希技术可将 包含大量可能值, 将对象分组中的值 确定性的方法。

请参阅分类数据:词汇和独热 编码 机器学习速成课程。

启发法

一种简单且快速实现的问题解决方案。例如,“采用启发法,我们实现了 86% 准确率。当我们改为使用深度神经网络时,准确率上升到 98%。”

隐藏层

#fundamentals

神经网络中的一层,位于输入层(特征)和输出层(预测)之间。每个隐藏层都由一个或多个神经元组成。例如,下面的神经网络包含两个隐藏层, 第一个有三个神经元,第二个有两个神经元:

四层。第一层是输入层,包含两个
          功能。第二层是包含三个神经元的隐藏层。第三层是包含两个神经元的隐藏层。第四层是输出层。每项功能
          包含三条边,每条边指向不同的神经元
          数据模型。第二层中的每个神经元都包含两个边,每个边都指向第三层中的不同神经元。第三层中的每个神经元都包含
          每条边都指向输出层。

深度神经网络包含多个隐藏层。例如,上图展示了深度神经元, 因为模型包含两个隐藏层。

如需了解详情,请参阅机器学习速成课程中的神经网络:节点和隐藏层

层次聚类

#clustering

一类聚类算法,用于创建树 集群数量。分层聚类非常适合用于分层数据, 例如植物分类。层级结构 聚类算法:

  • 凝聚式层次聚类首先将每个样本分配到其自己的聚类,然后以迭代方式合并最近的聚类,以创建层次树。
  • 分裂式层次聚类首先将所有样本分组到一个聚类,然后以迭代方式将该聚类划分为一个层次树。

形心聚类相对。

请参见聚类 算法

合页损失函数

用于分类的一类损失函数,旨在找到与每个训练示例相距尽可能远的决策边界,从而使示例与边界之间的裕度最大化。KSVM 使用合页损失函数(或相关函数,例如 平方合页损失函数)。对于二元分类,合页损失函数 定义如下:

$$\text{loss} = \text{max}(0, 1 - (y * y'))$$

其中 y 是真实标签,-1 或 +1,y' 是原始输出。 分类器模型的另一个特征:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

因此,将 hinge 损失与 (y * y') 的图形绘制出来,如下所示:

由两个相连的线段组成的直角坐标图。第一个线段从 (-3, 4) 开始,到 (1, 0) 结束。第二行
          线段从 (1, 0) 开始,一直有斜率
          为 0。

历史偏差

#fairness

一种已存在于现实世界中并已渗透到数据集中的偏见。这些偏见往往反映了现有的文化刻板印象、人口统计学差异以及对某些社会群体的偏见。

例如,假设有一个分类模型,用于预测贷款申请人是否会出现贷款违约,该模型是根据两个不同社区当地银行上世纪 80 年代的贷款违约历史数据训练得出的。如果社区 A 的过往申请者增加 6 倍 可能会学习历史偏差,导致模型不太可能 在社区 A 中批准贷款,即使 社区中较高的默认比率不再适用。

请参阅公平性: 偏差 机器学习速成课程。

留出数据

训练期间故意不使用(“留出”)的样本验证数据集测试数据集都属于留出数据。留出数据有助于评估模型向训练时所用数据之外的数据进行泛化的能力。基于留出集的损失有助于 基于未见过的数据集的损失预估值 训练集。

主机

#TensorFlow
#GoogleCloud

加速器芯片(GPU 或 TPU)上训练机器学习模型时,系统的以下部分会同时控制这两项:

  • 代码的整体流。
  • 输入流水线的提取和转换。

主机通常在 CPU 上运行,而不是在加速器芯片上运行;设备在加速器芯片上操控张量

超参数

#fundamentals

您或超参数调优服务在连续运行模型训练作业期间调整的变量。例如: 学习速率是一种超参数。您可以在一次训练会话之前将学习率设置为 0.01。如果您 0.01 过高,可以将学习 下一个训练课程的预测比率为 0.003。

相反,参数则是各种不同的 模型的权重偏差 在训练期间学习

请参阅线性回归: 超参数 机器学习速成课程。

超平面

将空间分隔为两个子空间的边界。例如,线是二维中的超平面,而平面是三维中的超平面。在机器学习中,更常见的是超平面 高维空间。核支持向量机利用超平面将正类别和负类别区分开来(通常是在极高维度空间中)。

I

i.i.d.

独立同分布的缩写。

图像识别

#image

对图片中的对象、图案或概念进行分类的过程。 图像识别也称为图像分类

如需了解详情,请参阅机器学习实践课程:图像分类

如需了解详情,请参阅机器学习实践课程:图像分类

不平衡的数据集

分类不平衡的数据集的含义相同。

隐性偏差

#fairness

根据一个人的心智模式和记忆自动建立关联或做出假设。隐性偏差会影响以下方面:

  • 数据的收集和分类方式。
  • 设计和开发机器学习系统的方式。

例如,构建可识别婚礼照片的分类器时,工程师可能会将照片中的白色裙子用作一个特征。不过,白色裙子只在某些时代和某些文化中是一种婚礼习俗。

另请参阅确认偏差

imputation

简短形式的价值插补

公平性指标不兼容

#fairness

某些公平概念是互不相容的, 无法同时满足。因此, 用于量化公平性的通用指标 这种模型可以应用于所有机器学习问题。

虽然这似乎令人沮丧,但公平性指标的不兼容 并不意味着公平的努力是徒劳无益的。相反,它建议必须根据特定机器学习问题的具体情况来定义公平性,以防止特定于其用例的伤害。

如需更详细地了解此主题,请参阅“On the (im)possibility of fairness”

情境学习

#language
#generativeAI

少样本提示的含义相同。

独立同分布 (i.i.d)

#fundamentals

从不变的分布中提取的数据,其中每个提取的值都不依赖于之前提取的值。独立同分布是机器学习的理想情况 - 一种实用的数学结构,但在现实世界中几乎从未发现过。例如,某个网页的访问者分布情况 可能是 i.i.d.短时间内;也就是说,分布 但通常只有一次人光顾 而不受他人访问的影响。不过,如果您扩大该时间范围,网页的访问者可能会出现季节性差异。

另请参阅非平稳性

个体公平

#fairness

一项公平性指标,用于检查类似的个人是否被归入类似的类别。例如,Brobdingnagian Academy 可能希望通过确保成绩和标准化考试成绩完全相同的两名学生获得入学机会的概率相同,来实现个人公平。

请注意,个体公平性完全取决于您对“相似性”的定义 (这里是指成绩和考试分数), 在相似性指标遗漏重要的信息时,引入新的公平性问题 信息(例如学生课程的严谨性)。

请参阅“公平性 感知”一文,更详细地讨论个人公平性。

推理

#fundamentals

在机器学习中,推断是指通过将训练过的模型应用于无标签样本做出预测的过程。

推理在统计学中具有不同的含义。 如需了解详情,请参阅维基百科中有关统计学推断的文章

如需了解推理在监督式学习系统中的作用,请参阅“机器学习简介”课程中的监督式学习部分。

推理路径

#df

决策树中,在推理期间: 特定示例root 改为其他条件,终止以 叶子。例如,在以下决策树中,较粗的箭头显示了具有以下特征值的示例的推理路径:

  • x = 7
  • y = 12
  • z = -3

下图中的推理路径经过三个 条件才会到达叶项 (Zeta)。

一棵决策树,由四个条件和五叶子组成。
          根条件为 (x > 0)。由于答案是“是”,
          推理路径从根到下一个条件 (y > 0)。
          由于答案为“是”,推理路径会转到下一个条件 (z > 0)。由于答案为“否”,推理路径
          到达其最终节点,即叶子 (Zeta)。

三个粗箭头表示推理路径。

请参阅决策树 “决策森林”课程。

信息增益

#df

决策森林中,节点的与其子节点熵的加权(按示例数)和之间的差值。节点的熵就是熵 所有样本。

例如,请考虑以下熵值:

  • 父节点的熵 = 0.6
  • 具有 16 个相关示例的一个子节点的熵 = 0.2
  • 具有 24 个相关样本的另一个子节点的熵 = 0.1

因此,40% 的示例位于一个子节点中,60% 的示例位于另一个子节点中。因此:

  • 子节点的加权熵总和 = (0.4 * 0.2) + (0.6 * 0.1) = 0.14

因此,信息增益为:

  • 信息增益 = 父节点的熵 - 子节点的加权熵总和
  • 信息增益 = 0.6 - 0.14 = 0.46

大多数分屏器都试图创建能最大限度提高信息增益的条件

群内偏差

#fairness

表现出对自己所属群体或特征的偏向。 如果测试人员或评分者由机器学习开发者的好友、家人或同事组成,那么群内偏差可能会导致产品测试或数据集无效。

群内偏差是一种 群体归因偏差。 另请参阅群外同质性偏差

请参阅公平性: 偏差 机器学习速成课程。

输入生成器

数据加载机制 神经网络

输入生成器可以看作是一个负责 原始数据转换为张量,然后进行迭代以生成批量 训练、评估和推理。

输入层

#fundamentals

神经网络,用于存储特征向量。也就是说,输入层提供示例,以进行训练推理。例如,以下神经网络中的输入层由两个特征组成:

四个层:输入层、两个隐藏层和输出层。

内嵌条件

#df

决策树中,条件 用于测试一组项中是否存在某个项。 例如,以下是 in-set 条件:

  house-style in [tudor, colonial, cape]

在推理过程中,如果住宅样式特征的值为 tudorcolonialcape,则此条件的计算结果为“是”。如果 房屋风格地图项的值是其他值(例如 ranch), 则此条件的评估结果为“否”。

相较于预设条件,通常会产生更高效的决策树 用于测试独热编码特征的条件。

实例

样本的含义相同。

指令调优

#generativeAI

一种微调形式,可改进 生成式 AI 模型的能力, 操作说明。指令调优涉及对一系列指令提示训练模型,通常涵盖各种任务。然后,经过指令调整的模型往往会针对各种任务生成对零次学习提示的实用回答。

比较和对比以下内容:

可解释性

#fundamentals

能够用人类能够理解的方式解释或呈现机器学习模型的推理过程。

例如,大多数线性回归模型的可解释性都很高。(您只需查看每个特征的训练权重即可。)决策森林还具有高度可解释性。不过,某些模型需要进行复杂的可视化处理,才能变得可解释。

您可以使用 Learning Interpretability Tool (LIT) 来解读机器学习模型。

评分者间一致性信度

衡量人工标注者在执行任务时达成一致意见的频率。 如果评分者有异议,任务说明可能需要改进。 有时也称为注释者间协议评分者之间的可靠性。另请参阅 Cohen's kappa(最热门的评分者间一致性信度衡量指标之一)。

如需了解详情,请参阅机器学习速成课程中的分类数据:常见问题

交并比 (IoU)

#image

两个集合的交集除以它们的合集。在机器学习图片检测任务中,IoU 用于衡量模型预测的边界框相对于标准答案边界框的准确性。在这种情况下, 两个方框表示重叠面积与总面积的比率, 其值的范围为 0(预测边界框和标准答案不重叠) 设置为 1(预测边界框和标准答案边界框具有 完全相同的坐标)。

例如,在以下图片中:

  • 预测的边界框(限定模型预测画作中床头柜所在位置的坐标)用紫色勾勒。
  • 标准答案边界框(限定画作中夜桌实际位置的坐标)用绿色勾勒。

梵高画作《文森特的卧室在阿尔勒》,
          床边的夜桌周围的边界框。标准答案
          边框(绿色)完美贴合了床头柜的外围。预测的边界框(紫色)向下偏移了真实边界框的 50%,并向右偏移了 50%;它包含了床头柜的右下角四分之一,但漏掉了床头柜的其余部分。

这里,预测的边界框与标准答案的交集 为 1,预测的边界框的并集 标准答案(右下方)为 7,因此 IoU 为 \(\frac{1}{7}\)。

与上图相同的图片,但每个边界框都被划分为四个象限。由于标准答案边界框的右下象限与预测边界框的左上象限相互重叠,因此共有七个象限。这个
          重叠部分(以绿色突出显示)代表
          交集,面积为 1。 与上图相同,但每个边界框分为四个
          象限。由于标准答案边界框的右下象限与预测边界框的左上象限相互重叠,因此共有七个象限。
          被两个边界框包围的整个内部
          (以绿色突出显示)代表并集,并且具有
          即 7 的面积

IoU

intersection over union 的缩写。

项矩阵

#recsystems

推荐系统中, 由嵌入向量矩阵分解 包含有关每个推荐项的潜在信号。 项矩阵的每一行存储单个潜在值 功能。 以影片推荐系统为例。每列 都表示一部电影。潜在信号可能表示类型,也可能是更难以解读的信号,其中涉及类型、明星、影片年代或其他因素之间的复杂互动关系。

项矩阵与要进行分解的目标矩阵具有相同的列数。例如,假设某个影片推荐系统要评估 10,000 部影片,则项矩阵会有 10,000 个列。

项目

#recsystems

推荐系统中, 是系统推荐的例如,视频是音像店推荐的推荐项,而书籍是书店推荐的推荐项。

迭代

#fundamentals

训练期间对模型参数(即模型的权重偏差)进行一次更新。批次大小决定 模型在单次迭代中处理的样本数。例如, 如果批次大小为 20,则模型会先处理 20 个样本, 调整参数。

在训练神经网络时,单次迭代 涉及以下两个卡券:

  1. 向前传递,用于评估单个批次的损失。
  2. 向后传递(反向传播),以根据损失和学习速率调整模型的参数。

J

JAX

汇集了 XLA(加速线性代数)和自动微分 进行高性能数值计算。JAX 提供了一个简单而强大的 API,可用于使用可组合转换编写加速的数值代码。JAX 提供以下功能:

  • grad(自动微分)
  • jit(即时编译)
  • vmap(自动矢量化或批处理)
  • pmap(并行化)

JAX 是一种用于表达和组合数值代码转换的语言,与 Python 的 NumPy 库类似,但范围更广。(实际上,JAX 下的 .numpy 库在功能上等效, 而是完全重写的 Python NumPy 库版本。)

JAX 特别适合用于加快许多机器学习任务的速度 通过将模型和数据转换为适合并行处理的形式, 跨 GPU 和 TPU 加速器芯片

FlaxOptaxPax 和许多其他库都是基于 JAX 基础架构构建的。

K

Keras

一种热门的 Python 机器学习 API。 Keras 运行位置 多个深度学习框架,包括 TensorFlow, 名称为 tf.keras

核支持向量机 (KSVM)

一种分类算法,旨在通过将输入数据向量映射到更高维度的空间,最大限度地扩大正类别负类别之间的裕度。例如,假设有一个分类 输入数据集的输入数据集 包含一百个特征为了最大限度地增加 KSVM 可以在内部将这些特征映射到 百万维度空间。KSVM 使用 合页损失

关键点

#image

图片中特定地图项的坐标。例如,对于用于区分花种的图片识别模型,关键点可能是每个花瓣的中心、花茎、花药等。

k-fold 交叉验证

一种用于预测模型对新数据的泛化能力的算法。k-fold 中的 k 是指 将数据集的样本划分为若干个相等组的数量;也就是说, 对模型进行 k 次测试。对于每一轮训练和测试, 另一组为测试集,其余所有组都成为训练集 。经过 k 轮训练和测试后,您可以计算所选测试指标的均值和标准差。

例如,假设您的数据集包含 120 个样本。假设您决定将 k 设置为 4。因此,在对示例进行洗牌后,您需要将数据集划分为四个包含 30 个示例的等分组,并进行四轮训练和测试:

一个数据集被拆分为四组数量相等的示例。在第 1 轮中,
          前三组用于训练,最后一组
          用于测试。在第 2 轮中,前两个组和最后一个组用于训练,第三个组用于测试。在第 3 轮中,第一组和最后两组
          而第二组用于测试。
          在第 4 轮中,第一个组用于测试,最后三个组用于训练。

例如,对于线性回归模型,均方误差 (MSE) 可能是最有意义的指标。因此,您将找到所有四轮 MSE 的平均值和标准差。

k-means

#clustering

一种热门的聚类算法,用于对非监督式学习中的样本进行分组。k-means 算法基本上会执行以下操作:

  • 以迭代方式确定最佳的 k 中心点(称为形心)。
  • 将每个样本分配到最近的形心。与同一个形心距离最近的样本属于同一个组。

k-means 算法会挑选形心位置,以最大限度地减少累积 每个样本到其最接近形心的距离的平方

例如,请考虑以下狗的高度与宽度图表:

包含数十个数据点的直角坐标图。

如果 k=3,则 k-means 算法将确定三个形心。每个示例 被分配到最接近的形心,从而产生三个组:

与上图相同的笛卡尔图,但添加了三个质心。
          之前的数据点被划分为三个不同的组,
          其中每个组都代表最接近某个特定
          形心。

假设制造商希望确定适合小尺寸、 中号和大号狗毛衣。这三个重心确定了该集群中每只狗的平均高度和平均宽度。因此,制造商应该根据这三个质心点确定毛衣尺码。请注意, 聚类的形心通常不是聚类中的样本。

上图显示了 k-means 应用于 两个特征(高度和宽度)。请注意,k-means 可以对许多特征中的示例进行分组。

k-median

#clustering

k-means 密切相关的聚类算法。两者的实际区别如下:

  • 对于 k-means,确定形心的方法是, 候选形心与各形心之间的距离的平方 其样本。
  • 对于 k-median,确定形心的方法是,最大限度地减小候选形心与它的每个样本之间的距离总和。

请注意,距离的定义也有所不同:

  • K-means 依赖 欧几里得距离: 形心。(在二维空间中,欧几里得距离即使用勾股定理计算斜边。)例如,(2,2) 且 (5,-2) 为:
$$ {\text{Euclidean distance}} = {\sqrt {(2-5)^2 + (2--2)^2}} = 5 $$
  • k-median 采用 曼哈顿距离 从形心变为样本。这个距离是每个维度中绝对差值的总和。例如,(2,2) 与 (5,-2) 之间的 k-median 距离为:
$$ {\text{Manhattan distance}} = \lvert 2-5 \rvert + \lvert 2--2 \rvert = 7 $$

L

L0 正则化

#fundamentals

一种正则化, 会降低非零权重总数 模型中。例如,一个具有 11 个非零权重的模型 会比具有 10 个非零权重的类似模型受到的惩罚更多。

L0 正则化有时也称为 L0 范数正则化

L1 损失

#fundamentals

用于计算绝对值的损失函数 实际标签值和 由模型预测的值。例如,以下是 在 5 的 batch 中计算 L1 损失 示例

样本的实际值 模型的预测值 增量的绝对值
7 6 1
5 4 1
8 11 3
4 6 2
9 8 1
  8 = L1 损失

L1 损失对离群值不太敏感 与 L2 损失相比。

平均绝对误差是 每个样本的 L1 损失。

L1 正则化

#fundamentals

一种正则化,用于执行惩罚 权重, 权重。L1 正则化有助于使不相关或几乎不相关的特征的权重正好为 0。权重为 0 的特征会从模型中被有效移除。

L2 正则化相对。

L2 损失

#fundamentals

一种损失函数,用于计算实际标签值与模型预测的值之间的差异的平方。例如,下面是 5 个示例批量的 L2 损失计算:

样本的实际值 模型的预测值 增量的平方
7 6 1
5 4 1
8 11 9
4 6 4
9 8 1
  16 = L2 损失

由于平方,L2 损失放大了 离群值。 也就是说,与 L1 损失函数相比,L2 损失函数对错误预测的反应更强烈。例如,上一个批次的 L1 损失为 8,而不是 16。请注意,其中 16 个异常值中有 9 个是由单个异常值造成的。

回归模型通常使用 L2 损失 作为损失函数。

均方误差是每个示例的平均 L2 损失。平方损失是 L2 损失的别名。

L2 正则化

#fundamentals

一种正则化,用于执行惩罚 权重,与权重的平方和成比例。 L2 正则化有助于使离群值权重(具有较大正值或较小负值)接近 0,但又不正好为 0。值非常接近 0 的特征将保留在模型中 但对模型的预测没有太大影响。

L2 正则化始终可以提高线性模型的泛化能力。

L1 正则化相对。

标签

#fundamentals

监督式机器学习中, “接听”或“result”部分(位于示例中)。

每个有标签样本都包含一个或多个 特征和标签。例如,在“垃圾内容”文件夹中 则标签可能为“spam”或 “这不是垃圾邮件”在雨量数据集中,标签可能是 在特定时期落下的雨

有标签样本

#fundamentals

一个示例包含一个或多个特征和一个 label。例如,下表显示了 房屋估价模型中的有标签样本,每个样本都有三个特征 和一个标签:

卧室数量 浴室数量 房龄 房价(标签)
3 2 15 345,000 美元
2 1 72 179,000 美元
4 2 34 392,000 美元

监督式机器学习中,模型基于带标签的示例进行训练,并针对无标签示例做出预测。

对比有标签样本与无标签样本。

标签泄露

模型设计缺陷,其中特征标签的代理。例如,假设 二元分类模型, 潜在客户是否会购买特定产品。 假设模型的一个特征是名为 SpokeToCustomerAgent。假设客户只会在潜在客户实际购买产品分配客户服务人员。在训练期间,模型会快速学习 SpokeToCustomerAgent 与标签之间的关联。

lambda

#fundamentals

正则化率的含义相同。

lambda 是一个多含义术语。我们在此重点介绍 正则化中的定义。

LaMDA(对话应用语言模型)

#language

基于 Transformer 由 Google 开发的大语言模型, 可生成真实对话回复的大型对话数据集。

LaMDA:我们富有突破性的对话技术提供了相关概览。

landmarks

#image

关键点的含义相同。

语言模型

#language

用于估算某个词元的概率的模型 词元序列。

大语言模型

#language

至少包含大量参数语言模型。更非正式地说, 基于 Transformer 的语言模型,例如 GeminiGPT

潜在空间

#language

嵌入空间的含义相同。

图层

#fundamentals

神经网络中的一组神经元。三种常见的图层类型如下:

例如,下图显示了一个包含一个输入层、两个隐藏层和一个输出层的神经网络:

具有一个输入层、两个隐藏层和一个
          输出层。输入层包含两个特征。第一个隐藏层由三个神经元组成,第二个隐藏层由两个神经元组成。输出层由单个节点组成。

TensorFlow 中,也是 Python 函数,以张量和配置选项作为输入,然后生成其他张量作为输出。

Layers API (tf.layers)

#TensorFlow

一种 TensorFlow API,用于以层组合的方式构建深度神经网络。通过 Layers API,您可以构建不同类型的图层,例如:

  • tf.layers.Dense(用于全连接层)。
  • tf.layers.Conv2D(适用于卷积层)。

Layers API 遵循 Keras Layers API 规范。 也就是说,除了前缀不同之外,Layers API 中的所有函数与 Keras Layers API 中的同类函数具有相同的名称和签名。

叶子

#df

决策树中的任何端点。取消喜欢 condition,则叶项不会执行测试。 更确切地说,叶项是一种可能的预测。一片叶子也代表着终端 推理路径中的节点

例如,下面的决策树包含三叶树:

一棵决策树,包含两个条件,分别指向三片叶子。

Learning Interpretability Tool (LIT)

一种直观、交互式的模型理解和数据可视化工具。

您可以使用开源 LIT解释模型,或可视化文本、图片和表格数据。

学习速率

#fundamentals

一个浮点数,用于告知梯度下降法算法在每次迭代中调整权重和偏差的幅度。例如,如果学习速率为 0.3, 权重和偏差的调整幅度是学习速率的三倍 为 0.1。

学习速率是一个重要的超参数。如果您将 学习速率太低,训练所需的时间会太长。如果您将学习速率设置得过高,梯度下降法通常会难以达到收敛

最小二乘回归

一种通过最小化计算模型来训练的线性回归模型, L2 损失

线性

#fundamentals

两个或多个变量之间的关系,这些变量可以单独表示 通过加法和乘法得出的结果。

线性关系的曲线图是一条直线。

nonlinear相对。

线性模型

#fundamentals

一种模型,为每个模型分配一个权重 feature,用于进行预测。 (线性模型也包含偏差。)相比之下,深度模型中特征与预测之间的关系通常是非线性的。

线性模型通常更容易训练,而且 可解释性。不过,深度模型可以学习特征之间的复杂关系。

线性回归逻辑回归是两种类型的线性模型。

线性回归

#fundamentals

一种同时满足以下两个条件的机器学习模型:

  • 该模型是一种线性模型
  • 预测结果为浮点值。(这是 fallback线性回归的一部分。)

将线性回归与逻辑回归进行对比。此外,请将回归与分类进行比较。

LIT

缩写词 Learning Interpretability Tool (LIT), 该工具之前称为“语言可解释性工具”

LLM

#language
#generativeAI

大语言模型的缩写。

LLM 评估 (eval)

#language
#generativeAI

一系列指标和基准,用于评估 大型语言模型 (LLM)。概括来讲,LLM 评估:

  • 帮助研究人员确定 LLM 需要改进的方面。
  • 在比较不同的 LLM 并确定最适合用于 特定任务。
  • 帮助确保 LLM 的使用安全且合乎道德。

逻辑回归

#fundamentals

一种可预测概率的回归模型。逻辑回归模型具有以下特征:

  • 标签为分类。“逻辑回归”一词通常是指二元逻辑回归,即用于计算具有两个可能值的标签的概率的模型。不太常见的变体是多项逻辑回归,用于计算 标签概率。
  • 训练期间的损失函数是对数损失函数。(对于可能值超过 2 个的标签,可以并行放置多个 Log Loss 单元。)
  • 该模型具有线性架构,而不是深度神经网络。 不过,本定义的其余部分也适用于预测分类标签概率的深度模型

以一个逻辑回归模型为例,该模型计算 垃圾邮件或非垃圾邮件的概率。 假设在推理过程中,模型预测的值为 0.72。因此,该模型估算的是:

  • 有 72% 的电子邮件是垃圾邮件。
  • 电子邮件不是垃圾邮件的可能性为 28%。

逻辑回归模型使用以下两步式架构:

  1. 该模型通过对输入特征应用线性函数来生成原始预测值 (y')。
  2. 模型将该原始预测用作输入, S 型函数,将原始 预测为 0 到 1 之间的值(不含 0 和 1)。

与任何回归模型一样,逻辑回归模型可以预测数字。 然而,这个数字通常成为二元分类的一部分。 如下所示:

  • 如果预测数字大于 分类阈值、 二元分类模型可预测正类别。
  • 如果预测值低于分类阈值,二元分类模型会预测负类别。

logits

分类模型生成的原始(未归一化)预测的矢量,通常会传递给归一化函数。如果模型要解决多类分类问题,logit 通常会成为 softmax 函数的输入。然后,Softmax 函数会生成一个(归一化)概率向量,其中每个可能类别对应一个值。

对数损失函数

#fundamentals

二元逻辑回归中使用的损失函数

对数几率

#fundamentals

某个事件的赔率对数。

长/短期记忆 (LSTM)

#seq

循环神经网络,用于处理 数据序列和文本序列, 翻译和图片标注。LSTM 通过根据 RNN 中先前单元格的新输入和上下文,在内部存储状态中维护历史记录,从而解决了在训练 RNN 时因数据序列较长而出现的梯度消失问题

LoRA

#language
#generativeAI

低排名自适应的缩写。

#fundamentals

监督式模型训练期间,用于衡量模型的预测与其标签之间的差距。

损失函数用于计算损失。

损失汇总器

一种机器学习算法, 可提升模型性能 方法是结合多个模型的预测结果和 基于这些预测进行单次预测。因此,损失汇总器可以降低预测的方差,并提高预测的准确性

损失曲线

#fundamentals

损失与训练迭代次数的关系图。以下曲线图显示了典型的损失 曲线:

损失与训练迭代的笛卡尔图,显示了
          初始迭代的损失迅速下降,然后逐渐下降
          在最后一次迭代期间,下降,然后呈现平缓的趋势。

损失曲线可以帮助您确定模型何时收敛过拟合

损失曲线可以绘制以下所有类型的损失:

另请参阅泛化曲线

损失函数

#fundamentals

训练或测试期间, 数学函数,用于计算 一批样本的损失。损失函数返回的损失较低, 较之准确预测模型, 预测不佳。

训练的目标通常是尽量降低损失函数返回的损失。

存在许多不同类型的损失函数。选择合适的损失 函数。例如:

损失曲面

权重与损失的图表。梯度下降法旨在找到损失曲面在局部最低点时的权重。

低秩自适应 (LoRA)

#language
#generativeAI

一种参数高效微调方法,它会“冻结”模型的预训练权重(使其无法再修改),然后在模型中插入一小组可训练权重。这组可训练的权重(也称为“更新矩阵”)比基准模型小得多,因此训练速度要快得多。

LoRA 具有以下优势:

  • 提高模型对精细样本的预测质量 调整。
  • 与需要微调模型所有参数的技术相比,微调速度更快。
  • 启用以下功能,以降低推理的计算成本: 并发提供多个共用同一基准库的专用模型 模型。

LSTM

#seq

Long Short-Term Memory 的缩写。

M

机器学习

#fundamentals

一种通过输入数据来训练模型的程序或系统。经过训练的模型可以根据与训练模型时使用的数据分布相同的新数据(从未见过的数据)做出有用的预测。

机器学习也指 程序或系统。

多数类

#fundamentals

分类不平衡的数据集内更为常见的标签。例如: 假设一个数据集包含 99% 负类别标签和 1% 正类别标签, 负类别标签是多数类别。

少数类相对。

马尔可夫决策过程 (MDP)

#rl

一张表示决策模式的图表, (或操作)可在一系列 马尔可夫属性持有。在强化学习中,这些状态之间的转换会返回数值奖励

马尔可夫属性

#rl

某些环境的属性,其中状态转换完全由当前状态和代理的操作中隐含的信息决定。

遮盖语言模型

#language

一种语言模型,用于预测候选令牌填充序列中空白的概率。例如,带遮盖语言模型可以计算候选字词的概率,以替换以下句子中的下划线:

帽子上的 ____ 回来了。

文献通常使用字符串“MASK”而非下划线。 例如:

“面具”都归来了

大多数现代蒙版语言模型都是双向的。

matplotlib

一个开源 Python 2D 绘制库。matplotlib 可以帮助您可视化机器学习的各个不同方面。

矩阵分解

#recsystems

在数学中,一种机制用于寻找其点积近似于 目标矩阵。

推荐系统中,目标矩阵 通常包含items上的评分。例如,目标 电影推荐系统的输入矩阵可能类似于 其中正整数代表用户评分,0 表示用户未给电影评分:

  卡萨布兰卡 《费城故事》 Black Panther 神奇女侠 《低俗小说》
用户 1 5.0 3.0 0.0 2.0 0.0
用户 2 4.0 0.0 0.0 1.0 5.0
用户 3 3.0 1.0 4.0 5.0 0.0

影片推荐系统旨在预测出 未分级电影。例如,用户 1 会喜欢《黑豹》吗?

推荐系统采用的一种方法是,使用矩阵分解生成以下两个矩阵:

  • 用户矩阵,形状为用户数量 X 嵌入维度的数量。
  • 项矩阵,形状为嵌入数量 维度 X 以及项目数量。

例如,对我们的三名用户和五个推荐项进行矩阵分解,会得到以下用户矩阵和项矩阵:

User Matrix                 Item Matrix

1.1   2.3           0.9   0.2   1.4    2.0   1.2
0.6   2.0           1.7   1.2   1.2   -0.1   2.1
2.5   0.5

通过用户矩阵和项矩阵的点积得出推荐值 该矩阵不仅包含原始用户评分,还包含预测 为每个用户未看过的电影 例如,假设用户 1 对《卡萨布兰卡》的评分为 5.0。圆点 与推荐矩阵中该单元对应的产品应该 最好在 5.0 左右,并且:

(1.1 * 0.9) + (2.3 * 1.7) = 4.9

更重要的是,用户 1 会喜欢《黑豹》吗?计算点积 与第三行和第三列相对应, 将得到一个预测值, 4.3 分:

(1.1 * 1.4) + (2.3 * 1.2) = 4.3

矩阵分解通常会生成用户矩阵和项矩阵, 比目标矩阵更紧凑。

平均绝对误差 (MAE)

L1 损失为 。按如下方式计算平均绝对误差:

  1. 计算一个批次的 L1 损失。
  2. 将 L1 损失除以该批次中的样本数。

例如,请考虑以下五个示例批次的 L1 损失计算:

样本的实际值 模型的预测值 损失(实际值与预测值之间的差异)
7 6 1
5 4 1
8 11 3
4 6 2
9 8 1
  8 = L1 损失

因此,L1 损失为 8,示例数量为 5。因此,平均绝对误差为:

Mean Absolute Error = L1 loss / Number of Examples
Mean Absolute Error = 8/5 = 1.6

对比平均绝对误差与均方误差均方根误差

均方误差 (MSE)

L2 损失为 。按如下方式计算均方误差:

  1. 计算一个批次的 L2 损失。
  2. 将 L2 损失除以批次中的示例数。

以以下五个样本批次的损失为例:

实际值 模型的预测 损失 平方损失
7 6 1 1
5 4 1 1
8 11 3 9
4 6 2 4
9 8 1 1
16 = L2 损失

因此,均方误差为:

Mean Squared Error = L2 loss / Number of Examples
Mean Squared Error = 16/5 = 3.2

均方误差是一种常用的训练优化器,尤其是对于线性回归

对比均方误差 平均绝对误差均方根误差

TensorFlow Playground 使用均方误差 计算损失值。

网格

#TensorFlow
#GoogleCloud

在机器学习并行编程中,这个术语与分配数据和 并定义这些值的分片或复制方式。

“网格”是一个多含义术语,可以理解为下列两种含义之一:

  • TPU 芯片的物理布局。
  • 用于将数据和模型映射到 TPU 芯片的抽象逻辑结构。

无论是哪种情况,网格都指定为形状

元学习

#language

机器学习的一部分,用于发现或改进学习算法。 元学习系统还可以训练模型,使其能够根据少量数据或在执行过的任务中获得的经验快速学习新任务。元学习算法通常会尝试实现以下目标:

  • 改进或学习手动设计的功能(例如初始化程序或 优化器)。
  • 提高数据效率和计算效率。
  • 改进泛化。

元学习与少样本学习相关。

指标

#TensorFlow

您关心的统计信息。

目标是机器学习系统尝试优化的指标。

Metrics API (tf.metrics)

用于评估模型的 TensorFlow API。例如:tf.metrics.accuracy 决定了模型的预测结果与标签匹配的频率。

小批次

#fundamentals

在一次迭代中处理的批量中的一小部分随机选取的样本。小批次的批次大小通常介于 10 到 1,000 个示例之间。

例如,假设整个训练集(完整批次)包含 1,000 个示例。进一步假设您将每个小批量的批处理大小设置为 20。因此,每个 从 1000 个样本中随机选择 20 个样本确定损失,然后 会相应地调整权重偏差

相较于基于模型的预测, 损失。

小批次随机梯度下降法

一种使用小批次梯度下降法算法。换句话说,小批次随机 梯度下降法会根据 训练数据。常规的随机梯度下降法使用大小为 1 的小批次。

极小损失函数 (minimax loss)

损失函数 生成式对抗网络, 基于分布之间的交叉熵 和真实数据的特征。

第一篇论文中使用了极小极大损失来描述生成式对抗网络。

少数类

#fundamentals

中不常见的标签 分类不平衡的数据集。例如,假设一个数据集内包含 99% 的负类别标签和 1% 的正类别标签,那么正类别标签为少数类。

多数类相对。

专家组合

#language
#generativeAI

一种方法,通过仅使用神经网络的一部分参数(称为专家)来处理给定的输入令牌示例,从而提高效率。答 门控网络将每个输入令牌或示例路由到适当的专家。

如需了解详情,请参阅以下任一论文:

机器学习

机器学习的缩写。

多米诺骨牌

#language
#image
#generativeAI

缩写 多模态指令优化

MNIST

#image

由 LeCun、Cortes 和 Burges 编译的公共领域数据集,其中包含 60,000 张图片,每张图片显示了人类如何手动编写特定的 0 到 9 之间的数字。每张图像存储为 28x28 的整数数组,其中每个整数是 0 到 255(含边界值)之间的灰度值。

MNIST 是机器学习的规范数据集,通常用于测试 机器学习方法。如需了解详情,请参阅 MNIST 手写数字数据库

modality

#language

高级数据类别。例如,数字、文本、图片、视频和音频是五种不同的模态。

模型

#fundamentals

一般来说,任何用于处理输入数据并返回输出的数学结构。换句话说,模型是系统进行预测所需的一组参数和结构。在监督式机器学习中, 模型将样本作为输入,并推断出 预测作为输出结果。在监督式机器学习中, 模型有所不同。例如:

  • 线性回归模型由一组权重组成 和偏差
  • 神经网络模型由以下部分组成:
    • 一组隐藏层,每个隐藏层包含一个或多个隐藏层, 更多神经元
    • 与每个神经元相关的权重和偏差。
  • 决策树模型由以下部分组成:
    • 树的形状;即条件和叶子之间的连接模式。
    • 条件开,叶子。

您可以保存、恢复模型或制作模型副本。

非监督式机器学习也会生成模型,通常是指可将输入示例映射到最合适的聚类的函数。

模型容量

模型可以学习的问题的复杂性。代码越复杂, 模型可以学习的问题,模型的能力就越高。模型能力通常会随着模型参数数量的增加而增强。有关分类器容量的正式定义,请参阅 VC 维度

模型级联

#generativeAI

一种系统,用于为特定推理查询选择理想的模型

假设有一组模型,从非常大(参数很多)到更小(参数少得多)不等。与较小的模型相比,非常大的模型在推理时会消耗更多计算资源。不过,与较小的模型相比,非常大的模型通常可以推理出更复杂的请求。模型级联会确定推理查询的复杂性,然后选择合适的模型来执行推理。采用模型级联的主要动机是,通常选择较小的模型,仅在处理更复杂的查询时选择较大的模型,从而降低推理费用。

假设一个小型模型在手机上运行,而该模型的较大版本在远程服务器上运行。良好的模型级联可减少费用和延迟时间, 使较小的模型能够处理简单的请求,并且仅调用 远程模型来处理复杂的请求。

另请参阅模型路由器

模型并行处理

#language

一种扩展训练或推理的方法,可将一个模型的不同部分放置在不同的设备上。借助模型并行处理,您可以使用太大而无法在单个设备上运行的模型。

为了实现模型并行处理,系统通常会执行以下操作:

  1. 将模型分片(划分)为更小的部分。
  2. 将这些较小部分的训练分布到多个处理器。 每个处理器都会训练模型的各个部分。
  3. 将结果组合起来创建单个模型。

模型并行处理会减慢训练速度。

另请参阅数据并行处理

模型路由器

#generativeAI

为模型确定理想模型的算法, 模型级联中的推理。 模型路由器本身通常是机器学习模型, 会逐渐学习如何为给定输入选择最佳模型。 不过,模型路由器有时可以是更简单的非机器学习算法。

模型训练

确定最佳模型的过程。

造势

一种先进的梯度下降法,学习步长取决于该算法 不仅要看当前步骤中的导数, 紧接其后的步骤。动量涉及计算梯度随时间的对数加权移动平均值,类似于物理学中的动量。势头有时会阻止学习 卡在局部最小值的位置。

MOE

#language
#image
#generativeAI

专家组合的缩写。

多类别分类

#fundamentals

在监督式学习中,分类问题,其中数据集包含两个以上类别标签。例如,鸢尾花数据集中的标签必须属于以下三个类别之一:

  • 山鸢尾
  • 维吉尼亚鸢尾
  • Iris versicolor

使用 Iris 数据集训练的模型可对新示例预测鸢尾花类型,即执行多类别分类。

相比之下,仅区分两个类别的分类问题属于二元分类模型。例如,预测“垃圾邮件”或“非垃圾邮件”的电子邮件模型 是一种二元分类模型。

在聚类问题中,多类分类是指超过两个类别。

多类别逻辑回归

使用逻辑回归 多类别分类问题。

多头自注意力

#language

自注意力的扩展,它会对输入序列中的每个位置多次应用自注意力机制。

Transformer 引入了多头自注意力机制。

多模态模型

#language

其输入和/或输出包含多个的模型 模态。例如,假设一个模型同时接受 图片和文本说明(两种模态)作为特征,以及 会输出一个分数,指示文本说明与图像的适宜程度。 因此,此模型的输入是多模态的,输出是单模态的。

多模态指令微调

#language

按指令调整的模型,可处理文本以外的输入,例如图片、视频和音频。

多项分类

多类别分类的含义相同。

多项回归

同义词 多类别逻辑回归

多任务

一种机器学习技术,采用这种技术时,系统会调用单个模型 经过训练后可执行多项任务

多任务模型的创建方式是,使用适用于每项不同任务的数据进行训练。这样一来,模型便可学习如何在任务之间共享信息,从而更有效地学习。

针对多项任务训练的模型通常具有提高泛化能力 可以更可靠地处理不同类型的数据。

NaN 陷阱

当模型中的一个数字变为 NaN 时 这会导致模型中的许多或所有其他数字 最终会变成 NaN。

NaN 是“N”(数字)的缩写。

自然语言理解

#language

根据用户输入或说出的内容确定用户的意图。 例如,搜索引擎会根据用户输入或说出的内容,使用自然语言理解来确定用户正在搜索的内容。

负类别

#fundamentals

二元分类中,一种类别称为正类别,另一种类别称为负类别。正类别为 模型要测试的事物或事件,负类别 例如:

  • 在医学检查中,负类别可以是“非肿瘤”。
  • 在电子邮件分类器中,负类别可以是“非垃圾邮件”。

正类别相对。

负抽样

候选采样的含义相同。

神经架构搜索 (NAS)

自动设计架构的 神经网络。NAS 算法可以减少 训练神经网络所需的时间和资源。

NAS 通常使用:

  • 搜索空间,即一组可能的架构。
  • 适应度函数,用于衡量特定架构在执行给定任务时的表现。

NAS 算法通常从一小部分可能的架构开始, 逐渐扩大搜索空间,因为算法会更详细地了解 架构是否有效。适应度函数通常基于架构在训练集上的表现,并且算法通常使用强化学习技术进行训练。

事实证明,NAS 算法在为各种任务(包括图像分类、文本分类和机器翻译)寻找高性能架构方面非常有效。

输出表示

#fundamentals

至少包含一个模型 隐藏层深度神经网络是一种包含多个隐藏层的神经网络。例如,下图显示了一个包含两个隐藏层的深度神经网络。

一个包含输入层、两个隐藏层和输出层的神经网络。

神经网络中的每个神经元都连接到下一层中的所有节点。 例如,在上图中,请注意三个神经元 在第一个隐藏层中分别连接到两个神经元, 第二个隐藏层。

在计算机上实现的神经网络有时称为 人工神经网络, 大脑和其他神经系统中存在的神经网络。

一些神经网络可以模拟极其复杂的非线性关系 不同特征和标签之间的差异。

另请参阅卷积神经网络循环神经网络

神经元

#fundamentals

在机器学习中,隐藏层中的一个不同单元 属于神经网络的一部分。每个神经元都会执行以下两步操作:

  1. 计算输入值乘以其对应权重的加权和
  2. 将加权和作为输入传递给 激活函数

第一个隐藏层中的神经元接受来自特征值的输入。 在输入层中。第一个隐藏层以外的任何隐藏层中的神经元都会接受来自前一隐藏层中的神经元的输入。例如,第二个隐藏层中的神经元接受来自第一个隐藏层中的神经元的输入。

下图突出显示了两个神经元及其 输入。

一个包含输入层、两个隐藏层和输出层的神经网络。突出显示两个神经元:第一个神经元
          一个隐藏层,另一个位于第二个隐藏层。突出显示的
          第一个隐藏层中的神经元可接收来自两个特征的输入。
          输入层中。第二个隐藏层中突出显示的神经元
          从第一个隐藏层中的三个神经元中分别接收输入,
          层。

神经网络中的神经元模仿大脑和神经系统其他部分中的神经元的行为。

N 元语法

#seq
#language

N 个字词的有序序列。例如,“truly madly”属于二元语法。由于顺序很重要,因此“madly truly”和“truly madly”是不同的二元语法。

此类 N 元语法的名称 示例
2 二元语法 to go、go to、eat lunch、eat dinner
3 三元语法 ate too much、three blind mice、the bell tolls
4 四元语法 walk in the park, dust in the wind, the boy ate lentils

许多自然语言理解 模型依赖 N 元语法来预测用户将输入的下一个字词 或者说。例如,假设用户输入了“three blind”。基于三元语法的 NLU 模型可能会预测该用户接下来将输入“mice”。

将 N 元语法与词袋进行比较,词袋是 无序的字词集。

NLU

#language

自然语言的缩写 理解

节点(决策树)

#df

决策树中, conditionleaf

一棵有两个条件和三叶树的决策树。

节点(神经网络)

#fundamentals

隐藏层中的神经元

节点(TensorFlow 图)(node (TensorFlow graph))

#TensorFlow

TensorFlow 中的操作。

噪音

一般来说,是指对数据集中的信号进行遮挡处理的所有内容。噪音 可能会以多种方式引入数据。例如:

  • 人工评分者在添加标签时出错。
  • 人类和仪器错误记录或忽略特征值。

非二元条件

#df

包含两种以上可能结果的条件。 例如,以下非二元条件包含三个可能的结果:

一种情况 (number_of_legs = ?),可导致三种可能的
          结果。一种结果 (number_of_legs = 8) 引出一片叶子
          名为“蜘蛛”程序第二个结果 (number_of_legs = 4) 导致
          一片名为狗的叶子。第三个结果(number_of_legs = 2)会导致一个名为 penguin 的叶子。

nonlinear

#fundamentals

两个或多个变量之间的关系,不能仅通过加法和乘法表示。线性关系可以表示为线条;非线性关系无法表示为线条。例如,假设有两个模型,每个模型都将一个特征与一个标签相关联。左侧的模型是线性模型,右侧的模型是非线性模型:

两个图表。一个曲线图是一条直线,因此这是线性关系。
          另一个曲线图是曲线,因此这是非线性关系。

无反应偏差

#fairness

请参阅选择性偏差

非平稳性

#fundamentals

值会随一个或多个维度(通常是时间)而变化的特征。以下面的非平稳性示例为例:

  • 特定商店销售的泳衣数量因季节而异。
  • 特定地区收获的特定水果的数量在一年中的大部分时间为零,但在短时间内会大量收获。
  • 由于气候变化,年平均温度正在发生变化。

平稳性相对。

标准化

#fundamentals

广义而言,将变量的实际值范围转换为标准值范围的过程,例如:

  • -1 至 +1
  • 0 至 1
  • Z 得分(大致介于 -3 到 +3 之间)

例如,假设某个特征的值的实际范围是 800 至 2,400。在特征工程中, 您可以将实际值归一化为一个标准范围,例如 以 -1 为 +1。

标准化是特征工程中的一项常见任务。如果特征矢量中的每个数值特征大致具有相同的范围,模型通常会更快地训练(并生成更准确的预测结果)。

有关详情,请参阅使用数值数据 模块 机器学习速成课程。 另请参阅 Z-score 归一化

新奇性检测

确定新(新颖)示例是否来自与训练集相同的分布的过程。也就是说, 基于训练集进行训练,新颖性检测决定了新的 样本(在推断期间或额外训练期间) 离群值

离群值检测相对。

数值数据

#fundamentals

用整数或实数表示的特征。例如,房屋估价模型可能会将房屋估价 (以平方英尺或平方米为单位)。表示 一种数值数据,表示该特征的值 与标签的数学关系。 也就是说,房子的面积可能与房子的价值存在某种数学关系。

并非所有整数数据都应表示为数值数据。例如,世界某些地方的邮政编码是整数;但是,整数邮政编码不应在模型中表示为数值数据。这是因为邮政编码 20000 的效果并非是邮政编码 10000 的两倍(或一半)。此外,虽然不同的邮政编码确实对应不同的 因此我们无法假定邮政编码的房地产价值 在邮政编码为 10000 时,20000 的价值是房地产价值的两倍。 邮政编码应表示为分类数据

数值特征有时称为连续特征

NumPy

开源数学库 ,后者可在 Python 中提供高效的数组操作。 Pandas 是基于 NumPy 构建的。

O

目标

算法尝试优化的指标。

目标函数

模型要优化的数学公式或指标。 例如,线性回归的目标函数通常为均方误差。因此,在训练一个 线性回归模型,训练旨在最大限度地降低均方损失。

在某些情况下,目标是最大化目标函数。例如,如果目标函数是准确率,则目标为 以最大限度地提高准确性。

另请参阅损失

斜面

#df

决策树中, 包含多个项的条件 feature。例如,如果“height”和“width”都是特征,则以下是斜向条件:

  height > width

轴对齐条件相对。

离线

#fundamentals

静态的含义相同。

离线推理

#fundamentals

模型生成一批预测的过程 然后缓存(保存)这些预测。然后,应用可以从缓存中访问推理出的预测结果,而无需重新运行模型。

例如,假设有一个模型每 4 小时生成一次本地天气预报(预测)。每个模型运行后, 缓存所有本地天气预报。天气应用会从缓存中检索预报。

离线推理也称为静态推理

在线推理相对。

独热编码

#fundamentals

将分类数据表示为向量,其中:

  • 一个元素设置为 1。
  • 所有其他元素均设为 0。

独热编码通常用于表示字符串或标识符, 具有一组有限的可能值。 例如,假设某个名为 Scandinavia 的分类特征有五个可能值:

  • “Denmark”
  • “Sweden”
  • “Norway”
  • “芬兰”
  • “冰岛”

热编码可以将这五个值分别表示为:

country 向量
“Denmark” 1 0 0 0 0
“瑞典” 0 1 0 0 0
“挪威” 0 0 1 0 0
“芬兰” 0 0 0 1 0
“冰岛” 0 0 0 0 1

得益于独热编码,模型可以根据这五个国家/地区分别学习不同的关联。

将特征表示为数值数据是一种 是独热编码的替代方案。很遗憾,以数字表示斯堪地纳维亚国家/地区不是一个好主意。例如: 请考虑以下数字表示形式:

  • “丹麦”为 0
  • “瑞典”为 1
  • “挪威”是 2
  • “芬兰”是 3
  • “冰岛”为 4

使用数字编码时,模型会以数学方式解读原始数字,并尝试根据这些数字进行训练。不过,冰岛的某些数据实际上并非是挪威的两倍(或一半),因此该模型会得出一些奇怪的结论。

单样本学习

一种机器学习方法,通常用于对象分类,旨在从单个训练示例中学习有效的分类器。

另请参阅少样本学习零样本学习

单样本提示

#language
#generativeAI

一个提示,其中包含一个示例,演示了 大语言模型应做出响应。例如: 以下提示包含一个示例,该示例展示了大型语言模型 应该能够回答查询

一个提示的组成部分 备注
指定国家/地区的官方货币是什么? 您希望 LLM 回答的问题。
法国:欧元 示例。
印度 实际查询。

单样本提示与以下术语进行比较和对比:

一对多

#fundamentals

假设某个分类问题有 N 个类别,解决方案将包含 N 个单独的二元分类器 - 一个二元分类器对应一种可能的结果。例如,假设有一个模型将示例分类为动物、蔬菜或矿物,一对多解决方案将提供以下三个单独的二元分类器:

  • 动物和非动物
  • 蔬菜和非蔬菜
  • 矿物与非矿物

在线

#fundamentals

动态的含义相同。

在线推理

#fundamentals

根据需求生成预测。例如: 假设某个应用将输入传递给模型并针对 预测。 使用在线推理的系统会通过运行模型(并将预测结果返回给应用)来响应请求。

离线推理相对。

操作 (op)

#TensorFlow

在 TensorFlow 中,任何创建、操纵或销毁张量的过程都属于操作。例如,矩阵乘法是一种操作,它接受两个张量作为输入,并生成一个张量作为输出。

运营商税

适用于 JAX 的梯度处理和优化库。 Optax 提供了可通过自定义方式重新组合以优化参数化模型(例如深度神经网络)的构建块,从而为研究工作提供便利。其他目标包括:

  • 提供可读、经过充分测试且高效的核心组件实现。
  • 通过将低级组件组合到自定义优化器(或其他梯度处理组件)中,提高工作效率。
  • 让所有人都能轻松贡献自己的想法,从而加快新想法的采用速度。

优化器

梯度下降法的一种具体实现。常用的优化器包括:

  • AdaGrad,表示 ADAptive GRADient descent。
  • Adam,代表 ADAptive with Momentum。

群外同质性偏差

#fairness

在比较态度、价值观、性格特质和其他特征时,倾向于认为群外成员之间比群内成员更为相似。群内是指您经常互动的人; 群外是指您不经常互动的人。如果您 通过要求用户提供相关属性来创建数据集 群体之外的群体,这些属性可能没那么细微,而是更有偏见 比参与者为组内人员列出的属性要好得多。

例如,小人国居民可以详细描述其他小人国居民的房屋,指出建筑风格、窗户、门和大小之间的细微差异。然而,同样的小人国人可能直接声明 兄弟姐妹们都住在相同的房子里。

群外同质性偏差是一种群体归因偏差

另请参阅群内偏差

离群值检测

识别数据中离群值的过程 训练集

新颖性检测相对。

离群数据

与大多数其他值差别很大的值。在机器学习中,以下任何情况都属于离群值:

  • 值超过大约 3 个标准差的输入数据 。
  • 绝对值很高的权重
  • 与实际值相差很大的预测值。

例如,假设 widget-price 是某个模型的特征。 假设均值 widget-price 为 7 欧元,标准差为 1 欧元。因此,如果示例的 widget-price 为 12 欧元或 2 欧元,则会被视为离群值,因为这两个价格都与平均值相差 5 个标准差。

离群值通常是由拼写错误或其他输入错误造成的。在其他情况下,离群值并非错误;毕竟,离平均值相差 5 个标准差的值虽然很少见,但并非不可能。

离群值常常会导致模型训练出现问题。裁剪是管理离群值的一种方法。

开箱评估(OOB 评估)

#df

一种用于评估 决策森林,具体做法是测试每个 决策树 示例 该决策树的训练。例如,在下图中,请注意系统会使用大约三分之二的示例训练每个决策树,然后使用剩余三分之一的示例进行评估。

由三个决策树组成的决策森林。
          一个决策树针对三分之二的样本进行训练
          然后将剩余的三分之一用于 OOB 评估。
          第二个决策树使用与前一个决策树不同的三分之二示例进行训练,然后使用与前一个决策树不同的三分之一示例进行 OOB 评估。

离群评估是对交叉验证机制的计算高效且保守的近似值。在交叉验证中,每个交叉验证轮次都训练一个模型 (例如,10 次交叉验证中训练了 10 个模型)。 在 OOB 评估中,系统会训练单个模型。因为bagging 会在训练期间从每个树中保留一些数据,OOB 评估可以使用 将数据用于近似交叉验证。

输出层

#fundamentals

神经网络的“最终”层。输出层包含预测结果。

下图显示了一个带输入的小型深度神经网络, 、两个隐藏层和一个输出层:

一个包含一个输入层、两个隐藏层和一个输出层的神经网络。输入层由两个特征组成。第一个隐藏层由三个神经元组成,第二个隐藏层由两个神经元组成。输出层由单个节点组成。

过拟合

#fundamentals

创建的模型训练数据过于匹配,以致于模型无法根据新数据做出正确的预测。

正则化可以减少过拟合。在庞大且多样化的训练集上进行训练也可以减少过拟合。

过采样

分类不平衡的数据集中重复使用少数类示例,以创建更平衡的训练集

例如,假设有一种二元分类 其中大多数群体与 少数类为 5,000:1。如果数据集包含 100 万个示例,则少数类仅包含约 200 个示例,这可能过少,无法进行有效的训练。为了克服这种缺陷, 可能会对这 200 个样本进行多次过采样(重复使用) 足够的样本进行有用训练。

在过采样时,您需要注意过度过拟合

欠采样相对。

P

打包数据

一种更高效地存储数据的方法。

封装数据使用压缩格式或在 以便更高效地访问数据 压缩数据可最大限度地减少访问数据所需的内存和计算量,从而加快训练速度并提高模型推理效率。

压缩数据通常与其他技术(例如数据增强正则化)搭配使用,以进一步提升模型的性能。

pandas

#fundamentals

基于 numpy 构建的面向列的数据分析 API。 许多机器学习框架(包括 TensorFlow)都支持将 Pandas 数据结构作为输入。请参阅 Pandas 文档 了解详情。

参数

#fundamentals

模型在训练期间学习的权重偏差。例如,在 线性回归模型,其参数包括 偏差 (b) 和所有权重(w1w2、 等)。

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

与之相反,超参数(或超参数调节服务)向模型提供的值。例如,学习速率就是一种超参数。

参数高效微调

#language
#generativeAI

一组技术,可比完整微调更高效地微调大型预训练语言模型 (PLM)。与完全微调相比,参数高效调优通常微调的参数要少得多,但通常会生成与通过完全微调构建的大型语言模型一样出色(或几乎一样出色)的大型语言模型

比较和对比参数高效微调与以下方法:

参数高效调优也称为参数高效微调

参数服务器 (PS)

#TensorFlow

一个作业,负责跟踪模型参数的 分布式设置

参数更新

调整模型参数的操作: 通常在一次迭代中 梯度下降法

偏导数

一种导数,除一个变量之外的所有变量都被视为常数。 例如,f(x, y) 相对于 x 的偏导数为 f 的导数被视为 x 本身的函数(即保持 y 常量)。f 对 x 的偏导数仅关注 x 如何变化,而忽略公式中的所有其他变量。

参与偏差

#fairness

与未回答偏差的含义相同。请参阅选择偏差

分区策略

划分变量的算法 参数服务器

Pax

一种编程框架,专为训练大规模神经网络模型而设计,这些模型规模如此之大,以至于跨多个 TPU加速器芯片切片模块

Pax 基于 Flax 构建,而后者基于 JAX 构建。

显示 Pax 在软件堆栈中的位置的示意图。
          Pax 基于 JAX 构建。Pax 本身包含三个
          层。底部层包含 TensorStore 和 Flax。
          中间层包含 Optax 和 Flaxformer。顶层包含 Praxis 建模库。Fiddle 基于 Pax 构建而成。

感知机

一种系统(硬件或软件),该系统先获取一个或多个输入值,接着对这些输入的加权和运行函数,然后计算单个输出值。在机器学习中,该函数通常是非线性的,例如 ReLUsigmoidtanh。例如,以下感知器依赖 S 型函数来处理 三个输入值:

$$f(x_1, x_2, x_3) = \text{sigmoid}(w_1 x_1 + w_2 x_2 + w_3 x_3)$$

在下图中,感知机接受三项输入, 本身经权重修改后才进入感知器:

采用 3 个输入值的感知机,每个输入值与单独的权重相乘。感知机输出单个值。

感知机是人类社会中的神经元神经网络

performance

一个多含义术语,具有以下含义:

  • 软件工程中的标准含义。即:软件的运行速度有多快(或有多高效)?
  • 在机器学习中的含义。在机器学习领域,性能旨在回答以下问题:模型的准确度有多高?即模型在预测方面的表现有多好?

排列变量重要性

#df

一种变量重要性,用于评估 将模型进行排列处理后,模型预测误差的增长幅度 特征值。排列变量重要性与模型无关 指标。

困惑度

一种衡量指标,用于衡量模型完成任务的效果。 例如,假设您的任务是读出一个单词的前几个字母 用户使用手机键盘输入文字,并提供一系列可 补全字词。此任务的困惑度 P 大致等于您需要提供的猜测次数,以便列表中包含用户尝试输入的实际字词。

困惑度与交叉熵的关系如下:

$$P= 2^{-\text{cross entropy}}$$

管道

围绕机器学习算法的基础架构。流水线 包括收集数据、将数据放入训练数据文件、 训练一个或多个模型,然后将模型导出到生产环境。

流水线

#language

模型并行处理的一种形式,即模型的 处理过程分为连续的阶段, 在不同设备上当一个阶段处理一个批次时,上一个阶段会处理一个批次, 可以处理下一批次。

另请参阅分阶段训练

pjit

一个 JAX 函数,用于拆分代码以在多个环境中运行 加速器芯片。用户将函数传递给 pjit,后者会返回一个具有等效语义但已编译为在多个设备(例如 GPU 或 TPU 核心)上运行的 XLA 计算的函数。

借助 pjit,用户可以使用 SPMD 分区器对计算进行分片,而无需重写计算。

自 2023 年 3 月起,pjit 已与 jit 合并。如需了解详情,请参阅分布式数组和自动并行处理

PLM

#language
#generativeAI

预训练语言模型的缩写。

pmap

一个 JAX 函数,用于在多个底层硬件设备(CPU、GPU 或 TPU)上使用不同的输入值执行输入函数的副本。pmap 依赖于 SPMD

政策

#rl

在强化学习中,智能体状态操作的概率映射。

池化

#image

将一个或多个由前面的卷积层创建的矩阵压缩为较小的矩阵。池化通常涉及取最大值或平均值 泳池区域例如,假设我们有 以下 3x3 矩阵:

3 x 3 矩阵 [[5,3,1], [8,2,5], [9,4,3]]。

池化运算与卷积运算类似:将矩阵分割为多个切片,然后按步长逐个运行卷积运算。例如,假设池化运算 以 1x1 步长将卷积矩阵分割为 2x2 个切片。 如下图所示,系统会执行四个池化操作。假设每个池化操作都会选择该 slice 中四个值中的最大值:

输入矩阵为 3x3,值为 [[5,3,1], [8,2,5], [9,4,3]]。
          输入矩阵的左上角 2x2 子矩阵为 [[5,3], [8,2]],因此左上角池化运算的结果为 8(即 5、3、8 和 2 中的最大值)。输入值的右上角 2x2 子矩阵
          矩阵为 [[3,1], [2,5]],因此右上角的池化运算可产生
          值为 5。输入矩阵的左下角 2x2 子矩阵为 [[8,2], [9,4]],因此左下角池化运算的结果为 9。输入矩阵的右下角 2x2 子矩阵为 [[2,5], [4,3]],因此右下角池化运算的结果为 5。总而言之,池化运算可生成 2x2 矩阵
          [[8,5], [9,5]]。

池化有助于强制执行 输入矩阵中的平移不变性

用于视觉应用的池化更正式地称为空间池化。时间序列应用通常将池化称为时间池化。按照不太正式的说法,池化通常称为下采样降采样

位置编码

#language

一种将有关词元在序列中的位置的信息添加到 词元的嵌入。Transformer 模型使用位置 来更好地理解内容中不同部分之间的关系, 序列。

位置编码的常见实现使用正弦函数。(具体而言,正弦函数的频率和振幅取决于令牌在序列中的位置。)借助此技术,Transformer 模型可以学习根据序列的不同位置来关注序列的不同部分。

正类别

#fundamentals

要测试的类。

例如,癌症模型中的正类别可以是“肿瘤”。 在电子邮件分类器中,正类别可以是“垃圾邮件”。

负类别相对。

后处理

#fairness
#fundamentals

在模型运行调整模型的输出。后处理可用于强制执行公平性约束, 自己修改模型的过程。

例如,您可以通过设置分类阈值,对二元分类器应用后处理,以便通过检查某个属性的所有值的真正正例率是否相同,从而确保该属性的机会均等

PR AUC(PR 曲线下的面积)

插值精确率/召回率曲线下的面积,通过为分类阈值的不同值绘制(召回率、精确率)点来获得。这取决于 PR AUC 可能等于 模型的平均精确率

Praxis

Pax 的核心高性能机器学习库。Praxis 通常是 名为“图层库”。

Praxis 不仅包含 Layer 类的定义,还包含其大多数支持组件,包括:

Praxis 提供了 Model 类的定义。

精确度

一种分类模型指标,可为您提供以下信息:

当模型预测为正类别时, 正确预测的比例是多少?

公式如下:

$$\text{Precision} = \frac{\text{true positives}} {\text{true positives} + \text{false positives}}$$

其中:

  • 真正例表示模型正确预测了正类别。
  • 假正例是指模型错误地预测了正类别。

例如,假设某个模型做出了 200 次正例预测。在这 200 个正例预测中:

  • 其中 150 个为真正例。
  • 其中 50 为假正例。

在此示例中:

$$\text{Precision} = \frac{\text{150}} {\text{150} + \text{50}} = 0.75$$

准确率召回率相对。

请参阅分类:准确率、召回率、精确率和相关度 指标

精确率与召回率曲线

精确率召回率在不同时间点之间的曲线 分类阈值

预测

#fundamentals

模型的输出。例如:

  • 二元分类模型的预测结果是正类别或负类别。
  • 多类别分类模型的预测是一个类别。
  • 线性回归模型的预测结果为数字。

预测偏差

一个值,表示数据集中预测的平均值与标签的平均值之间的距离。

请勿与机器学习模型中的偏差项道德和公平性偏差混淆。

预测性机器学习

任何标准(“传统”)机器学习系统。

“预测性机器学习”一词没有正式定义。 相反,该术语用于区分一类基于生成式 AI 的机器学习系统。

预测性对等

#fairness

一种公平性指标,用于检查对于给定分类器,考虑的子群组的精确率是否等同。

例如,预测大学录取信息的模型将满足 国籍的预测对等(如果精确率相同) 小人国和大陆人。

预测性对等有时也称为“预测性比率对等”。

如需详细了解预测一致性,请参阅“公平性定义说明”(第 3.2.1 节)。

预测性费率一致性

#fairness

预测性对等的别名。

预处理

#fairness
在将数据用于训练模型之前对其进行处理。预处理可以很简单,例如从英语文本语料库中移除英语字典中不存在的字词;也可以很复杂,例如以某种方式重新表达数据点,以尽可能消除与敏感属性相关联的许多属性。预处理有助于满足公平性限制

预训练模型

#language
#image
#generativeAI

模型或模型组件(例如 嵌入向量)。 有时,您需要将预训练的嵌入矢量馈送到神经网络中。其他时候,您的模型将训练 嵌入向量本身,而不是依赖于预训练嵌入。

预训练语言模型是指经过预训练大语言模型

预训练

#language
#image
#generativeAI

基于大型数据集进行模型的初始训练。一些预训练模型 都是笨拙的巨人,通常必须通过额外训练加以改善。 例如,机器学习专家可能会使用庞大的文本数据集(例如维基百科中的所有英语页面)预训练大语言模型。预训练后,可以通过以下任一技术进一步优化生成的模型:

先验信念

在开始用数据进行训练之前,您对这些数据抱有的信念。例如,L2 正则化依赖于先验假设,即权重应该很小且以 0 为中心呈正态分布。

概率回归模型

一个回归模型,它不仅使用 每个特征权重,以及 权重的不确定性。概率回归模型会生成预测结果及其不确定性。例如,概率回归模型可能会预测 325,标准差为 12。如需详细了解概率回归模型,请参阅 tensorflow.org 上的 Colab

概率密度函数

一个函数,用于标识正好具有 特定值。当数据集的值是连续浮点值时 因此很少出现完全匹配的情况。不过,从值 x 到值 y 积分概率密度函数会得到 xy 之间数据样本的预期频率。

例如,假设正态分布的平均值为 200, 标准差 30。如需确定数据样本在 211.4 到 218.7 范围内的预期频率,您可以对从 211.4 到 218.7 的正态分布概率密度函数进行积分。

提示符

#language
#generativeAI

作为输入到大语言模型的任何文本 来调节模型以特定方式的行为。提示可短至 短语或任意长度的内容(例如,小说的整段文字)。提示 分为多个类别,包括下表中显示的类别:

提示类别 示例 备注
问题 鸽子能飞多快?
指令 写一首关于套利的幽默诗。 提示,用于指示大语言模型执行某项操作。
示例 将 Markdown 代码转换为 HTML。例如:
Markdown:* 列表项
HTML:<ul> <li>列表项</li> </ul>
此示例提示中的第一句话是一条指令。 提示的其余部分是示例。
角色 解释为什么在机器学习训练中使用梯度下降法 拥有物理学博士学位。 该句子的第一个部分是一条指令;“物理学博士”是角色部分。
模型要完成的部分输入 英国首相住在 部分输入提示可能会出现突然结束的情况(本例就是这样) 或以下划线结尾。

生成式 AI 模型可以使用文本来回答提示, 代码、图片、嵌入、视频等几乎任何内容。

基于提示的学习

#language
#generativeAI

某些模型的一种能力,可让它们根据任意文本输入(提示)调整行为。在基于提示的典型学习范式中, 大语言模型会通过以下方式响应提示: 生成文本。例如,假设用户输入以下提示:

总结牛顿第三运动定律。

能够基于提示进行学习的模型并未经过专门训练, 上一个提示。相反,模型“知道”我们可以看到很多关于物理学的知识 一般语言规则,以及一般语言规则的构成要素, 有用的答案。这些知识足以提供(有希望)实用的帮助 回答。其他人工反馈(“那个答案太复杂了。”或 “什么是反应?”)可让一些基于提示的学习系统逐渐 提高答案的实用性。

提示设计

#language
#generativeAI

提示工程的含义相同。

提示工程

#language
#generativeAI

创建可触发所需回答的提示的技巧 构建自大语言模型。人工执行提示工程。编写结构化良好的提示是确保从大语言模型获得有用回答的重要环节。提示工程取决于许多因素,包括:

请参阅 提示设计简介 详细了解如何撰写实用提示。

提示设计是提示工程的同义词。

提示调优

#language
#generativeAI

一种参数高效调优机制,用于学习系统要附加到实际提示的前缀。

提示调优(有时称为前缀调优)的一种变体是 请在每一层前添加该前缀。相比之下,大多数提示调优都只 向输入层添加前缀。

代理标签

#fundamentals

用于逼近未在数据集内直接提供的标签的数据。

例如,假设您必须训练一个模型来预测员工的压力水平。您的数据集包含很多预测特征, 未包含名为压力水平的标签。 您毫不畏惧,选择“工作场所事故”作为压力水平的代理标签。毕竟,压力较大的员工比平静的员工更容易发生事故。还是有?可能是工作场所事故 实际上是出于多种原因的。

再举个例子,假设您要将 is it raining? 设为布尔值标签。 但您的数据集不包含雨水数据。如果有照片,您能够以人们带着雨伞的照片作为“在下雨吗?”的代理标签。是吗 一个合适的代理标签?有可能,但某些文化背景的人 相比下雨,人们更有可能带伞防晒。

代理标签通常并不完善。请尽可能选择实际标签,而不是代理标签。尽管如此,如果没有实际标签,请务必仔细选择代理标签,选择最不糟糕的代理标签候选项。

代理(敏感属性)

#fairness
用于替代敏感属性的属性。例如,个人的邮政编码可能会用作其收入、种族或民族的替代指标。

纯函数

输出仅基于其输入且没有任何副作用的函数。具体而言,纯函数不会使用或更改任何全局状态,例如文件内容或函数外部变量的值。

纯函数可用于创建线程安全的代码,这在跨多个加速器芯片模型代码进行分片时非常有用。

JAX 的函数转换方法要求输入函数是纯函数。

Q

Q 函数

#rl

强化学习中, 用于预测通过购买渠道获得的预计回报 action(在 state,然后遵循指定的政策

Q 函数也称为状态-操作值函数

Q 学习

#rl

强化学习中,这种算法 允许代理 来学习物体最优的 Q 函数 马尔可夫决策过程贝尔曼方程式。马尔可夫决策过程可对环境进行建模。

分位数

分位数分桶中的每个桶。

分位数分桶

将一个特征的值分布到分桶中, 相同(或几乎相同)的样本数量。例如: 下图将 44 个点分为 4 个存储分区,每个存储分区 包含 11 个点。为使图中每个桶包含的点数相同,有些桶对应的 x 值的跨度不同。

44 个数据点分为 4 个存储分区,每个存储分区 11 个点。
          虽然每个分桶包含的数据点数量相同,但有些分桶包含的特征值范围更广。

量化

一个多含义术语,可用于以下任一方式:

  • 实现分位数分桶 特定功能
  • 将数据转换为 0 和 1,以便更快地存储、训练和推理。由于布尔值数据比 其他格式,量化可以提高模型的正确性。 量化技术包括舍入、截断和 分箱
  • 减少用于存储模型参数的位数。例如,假设模型的参数存储为 32 位浮点数。量化 从 32 位到 4 位、8 位或 16 位。量化可减少 以下:

    • 计算、内存、磁盘和网络用量
    • 推断预测的时间
    • 功耗

    然而,量化有时会降低模型的正确性, 预测。

队列

#TensorFlow

一种实现队列数据结构的 TensorFlow 操作。通常用于 I/O 操作。

R

RAG

#fundamentals

缩写 检索增强生成

随机森林

#df

决策树集成学习, 每个决策树都使用特定的随机噪声进行训练, 例如 bagging

随机森林是一种决策森林

随机政策

#rl

强化学习中,一种随机选择操作政策

排名

一种监督式学习,其 对一系列商品进行排序。

秩(序数)

一个类别在机器学习问题中的序数位置, 从高到低的顺序。例如,行为排序系统可以将狗狗的奖励从最高(牛排)到最低(枯萎的羽衣甘蓝)进行排序。

秩(张量)(rank (Tensor))

#TensorFlow

张量Tensor中的维数。例如: 标量的秩为 0,向量的秩为 1,矩阵的秩为 2。

请勿与排序(序数)混淆。

评分者

#fundamentals

示例提供标签的人员。“注释者”是评分者的另一种称呼。

召回

一种分类模型指标,可回答 以下问题:

标准答案正类别时,有多少预测结果被模型正确识别为正类别?

公式如下:

\[\text{Recall} = \frac{\text{true positives}} {\text{true positives} + \text{false negatives}} \]

其中:

  • 真正例意味着模型正确预测了正类别。
  • 假负例是指模型错误地预测了负类别

例如,假设您的模型对真实标签为正类别的 200 个示例进行了预测。在这 200 条预测中:

  • 其中 180 个为真正例。
  • 20 个是假负例。

在此示例中:

\[\text{Recall} = \frac{\text{180}} {\text{180} + \text{20}} = 0.9 \]

请参阅分类:准确率、召回率、精确率和相关度 指标

推荐系统

#recsystems

一种系统,为每个用户选择相对较小的所需集合 items。 例如,视频推荐系统可能会推荐两个视频 从包含 10 万个视频的语料库中选择“Casablanca”,然后 《费城故事》《神奇女侠》《黑豹》。视频推荐系统可能会 的推荐基于以下因素:

  • 同类用户已评分或观看过的电影。
  • 类型、导演、演员、目标受众…

修正线性单元 (ReLU)

#fundamentals

一种激活函数,具有以下行为:

  • 如果输入为负或 0,则输出为 0。
  • 如果输入为正数,则输出等于输入。

例如:

  • 如果输入为 -3,则输出为 0。
  • 如果输入为 +3,则输出为 3.0。

下面是 ReLU 的图表:

两个线条的直角坐标图。第一行有一个常量,
          y 值为 0,沿 x 轴运行,范围为 -无穷大,0 到 0,-0。
          第二行从 0,0 开始。这条线的斜率为 +1,因此
          范围为 0,0 到 +无穷大,+无穷大。

ReLU 是一种非常流行的激活函数。虽然行为简单, ReLU 仍然能让神经网络学习非线性函数nonlinear 特征标签之间的关系。

循环神经网络

#seq

故意运行多个神经网络 每次运行的部分数据会导入下一次运行。具体来说,上一次运行时隐藏层中的结果会作为下一次运行时相同隐藏层的部分输入。循环神经网络在评估序列时尤其有用,因此隐藏层可以根据神经网络在序列的前几部分上的前几次运行进行学习。

例如,下图显示了一个循环神经网络, 运行四次。请注意,第一次运行时在隐藏层中学习的值将成为第二次运行时相同隐藏层的部分输入。同样,第二次运行时在隐藏层中学习的值将成为第三次运行时相同隐藏层的部分输入。通过这种方式,循环神经网络 预测整个序列的含义,而不仅仅是 组成。

运行四次以处理四个输入字词的 RNN。

回归模型

#fundamentals

通俗地说,是指生成数值预测的模型。(与之相反,分类模型会生成类预测。)例如,以下都是回归模型:

  • 用于预测某栋房屋的价值(例如 423,000 欧元)的模型。
  • 用于预测特定树木的预期寿命(例如 23.2 年)的模型。
  • 一个用于预测某个城市降雨量的模型 例如“0.18 英寸”

回归模型有两种常见类型:

  • 线性回归,用于查找最能将标签值与特征相匹配的线条。
  • 逻辑回归,该方法会生成一个介于 0.0 到 1.0 之间的概率值,系统通常会将该值映射到类预测。

并非输出数值预测的每个模型都是回归模型。在某些情况下,数值预测实际上只是一个恰好具有数值类别名称的分类模型。例如,预测 数字邮政编码属于分类模型,而不是回归模型。

正则化

#fundamentals

任何可减少过拟合的机制。常见的正则化类型包括:

正则化也可以定义为对模型复杂性的惩罚。

正则化率

#fundamentals

一个数字,用于指定训练期间正则化的相对重要性。提高正则化率可降低过拟合,但可能会降低模型的预测能力。相反,减少或省略 正则化率会增加过拟合。

强化学习 (RL)

#rl

一系列用于学习最佳政策的算法,其目标是在与环境互动时最大限度地提高回报。例如,大多数游戏的最终奖励是胜利。 强化学习系统可以成为玩复杂游戏的专家 通过评估最终 最终导致失败。

基于人类反馈的强化学习 (RLHF)

#generativeAI
#rl

根据人工审核者的反馈来提高模型回答的质量。 例如,RLHF 机制可以要求用户对模型的 用 👍? 或 👎? 表情符号回复。然后,该系统可以调整其未来的响应 。

ReLU

#fundamentals

校正线性单元的缩写。

重放缓冲区

#rl

在类似 DQN 的算法中,代理用于存储状态转换的内存,以便在经验重放中使用。

副本

训练集模型的副本; 通常是在另一台机器上例如,系统可以使用以下策略实现数据并行

  1. 将现有模型的副本放置在多台机器上。
  2. 向每个副本发送训练集的不同子集。
  3. 聚合参数更新。

报告偏差

#fairness

一种事实,即人们对操作、结果或属性进行描述的频率不能反映这些内容实际出现的频率或者某个属性在多大程度上是某类个体的特征。报告偏差可以影响机器学习系统从中学习规律的数据的构成。

例如,在书中,大笑一词比 呼吸。一个机器学习模型, 笑声和呼吸方式或许能确定 哈哈大笑比呼吸更常见

相同的矢量表示。

将数据映射到实用特征的过程。

重排序

#recsystems

推荐系统的最后阶段, 在此期间,系统会根据其他一些信息对已评分的项目重新评分 (通常是非机器学习)算法。重新排名会评估项列表 在评分阶段生成的内容,例如:

  • 删除用户已购买的商品。
  • 提高较新项的得分。

检索增强生成 (RAG)

#fundamentals

提高网页质量的 大语言模型 (LLM) 输出 将模型与在模型训练完成后检索到的知识来源结合起来进行分析。 RAG 通过为训练好的 LLM 提供 访问从可信知识库或文档中检索到的信息。

使用检索增强生成的常见动机包括:

  • 提高模型所生成回答的事实准确性。
  • 让模型能够访问它未在训练过程中获得的知识。
  • 改变模型使用的知识。
  • 启用模型以引用来源。

例如,假设化学应用使用 PaLM API,用于生成摘要。 与用户查询的内容相关当应用后端收到查询时,会执行以下操作:

  1. 搜索(“检索”)与用户查询相关的数据。
  2. 将相关化学数据附加(“增强功能”)到用户的查询中。
  3. 指示 LLM 根据附加的数据创建摘要。

回车键

#rl

在强化学习中,给定特定政策和特定状态, 回报率是客服人员提供的所有奖励的总和 您按照政策操作后会收到的 state分集的末尾。代理 通过打折奖励,考虑了预期奖励的延迟性质 获取奖励所需的状态转换。

因此,如果折扣系数为 \(\gamma\),而 \(r_0, \ldots, r_{N}\) 表示奖励直至剧集结束,然后计算回报率 如下所示:

$$\text{Return} = r_0 + \gamma r_1 + \gamma^2 r_2 + \ldots + \gamma^{N-1} r_{N-1}$$

奖励

#rl

在强化学习中,在状态(由环境定义)中执行操作的数值结果。

岭正则化

L2 正则化的含义相同。字词 岭正则化更常用于纯统计学领域 而 L2 正则化则更为常用。 机器学习。

RNN

#seq

循环神经网络的缩写。

受试者工作特征曲线(receiver operating characteristic,简称 ROC 曲线)

#fundamentals

二元分类中不同分类阈值真正例率假正例率对比图。

ROC 曲线的形状表明二元分类模型的能力 来区分正类别和负类别。例如,假设 二元分类模型完全 全部正类别中的权重:

一个数轴,右侧有 8 个正例,左侧有 7 个负例。

上述模型的 ROC 曲线如下所示:

ROC 曲线。x 轴是假正例率,y 轴是真正例率。曲线呈倒 L 形。曲线从 (0.0,0.0) 开始,一直向上到 (0.0,1.0)。然后,曲线从 (0.0,1.0) 到 (1.0,1.0)。

相比之下,下图则显示了原始逻辑回归 也就是无法区分负类别和负类别的 正类别:

包含正例和负类别的数轴

此模型的 ROC 曲线如下所示:

ROC 曲线,实际上是一条从 (0.0,0.0) 到 (1.0,1.0) 的直线。

与此同时,在现实世界中,大多数二元分类模型 正类别和负类别都在一定程度上,但通常并不完美。因此,典型的 ROC 曲线介于这两种极端情况之间:

ROC 曲线。x 轴是假正例率,y 轴是真正例率。ROC 曲线近似于摇动的弧形
          从西向北遍历罗盘点

理论上,ROC 曲线上最接近 (0.0,1.0) 的点可识别 理想的分类阈值。不过,还有一些其他现实问题会影响理想分类阈值的选择。例如: 假负例比假正例更能带来痛苦。

一种称为AUC的数值指标将 ROC 曲线总结为 单个浮点值。

角色提示

#language
#generativeAI

提示的可选部分,用于为生成式 AI 模型的回答确定目标受众群体。没有角色 大型语言模型提供的答案不一定有用, 。使用角色提示、大型语言模型 模型能够以更合适、更有用的方式 特定目标受众群体。例如,以下提示的角色提示部分采用了粗体显示:

  • 为经济学博士生总结这篇文章。
  • 向 10 岁的孩子描述潮汐的运作方式。
  • 解释 2008 年金融危机。像对小孩子或金毛寻回犬说话一样说话。

#df

决策树中的起始节点(第一个条件)。按照惯例,图表会将根置于决策树的顶部。 例如:

一个包含两个条件和三个叶子的决策树。通过
          起始条件 (x > 2) 为根。

根目录

#TensorFlow

您指定的目录,用于托管多个模型的 TensorFlow 检查点和事件文件的子目录。

均方根误差 (RMSE)

#fundamentals

均方误差的平方根。

旋转不变性

#image

在图片分类问题中,算法即使在图片的方向发生变化时也能成功分类的能力。例如,无论网球拍朝上、朝侧还是朝下,该算法仍然可以识别它。请注意,并非总是希望旋转不变;例如,倒置的“9”不应分类为“9”。

另请参阅平移不变性大小不变性

R 平方

回归指标,指示 label 是单个特征或某个特征集引起的。 决定系数 R 平方值介于 0 到 1 之间,您可以按如下方式对其进行解读:

  • R 平方值为 0 表示标签的变化并非由 特征集。
  • R 平方值为 1 表示标签的所有变化都由 特征集。
  • 介于 0 和 1 之间的 R 平方值表示可以从特定特征或特征集预测标签变化的程度。例如,如果 R 平方值为 0.10,则表示标签中 10% 的方差归因于特征集;如果 R 平方值为 0.20,则表示 20% 的方差归因于特征集,以此类推。

R 平方是 皮尔逊相关 系数 模型预测的值与标准答案之间的差异。

S

采样偏差

#fairness

请参阅选择偏差

有放回的抽样

#df

一种从一组具有相同候选字词的候选字词中选择字词的方法, 可以被选中多次。“有放回”是指每次选择后,所选项都会返回到候选项池。相反的方法是不放回抽样,这意味着候选项只能被选取一次。

例如,请考虑以下水果集:

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

假设系统随机选择 fig 作为第一项。 如果使用有放回的抽样,系统会从以下集合中选择第二个项目:

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

是的,这与之前的集合相同,因此系统可能会再次选择 fig

如果使用抽样而不替换,则一旦选取,便无法再抽样 重新选择。例如,如果系统随机选择 fig 作为第一个样本,则无法再次选择 fig。因此,系统会 从以下(经过缩减的)集合中选择第二个样本:

fruit = {kiwi, apple, pear, cherry, lime, mango}

SavedModel

#TensorFlow

保存和恢复 TensorFlow 模型时建议使用的格式。SavedModel 是一种独立于语言且可恢复的序列化格式,使较高级别的系统和工具可以创建、使用和转换 TensorFlow 模型。

请参阅保存和恢复一章。 。

实惠

#TensorFlow

一个 TensorFlow 对象 负责保存模型检查点。

标量

一个数字或一个字符串,可以表示为为 0 的张量。例如,以下 每行代码都会在 TensorFlow 中创建一个标量:

breed = tf.Variable("poodle", tf.string)
temperature = tf.Variable(27, tf.int16)
precision = tf.Variable(0.982375101275, tf.float64)

调节

任何会改变标签范围的数学转换或技术 和/或特征值。某些形式的缩放对于正则化等转换非常有用。

在机器学习中常用的扩缩形式包括:

  • 线性缩放,通常结合使用减法和 将原始值替换为介于 -1 和 +1 之间的数字,或者 介于 0 和 1 之间。
  • 对数缩放,将原始值替换为 对数。
  • Z-score 标准化:取代了 原始值带有一个浮点值,该浮点值表示 该特征平均值的标准差。

scikit-learn

一种热门的开源机器学习平台。请访问 scikit-learn.org

评分

#recsystems

推荐系统的一部分,用于为候选项生成阶段生成的每个项提供值或排名。

选择偏差

#fairness

由于在选择过程中在数据中观察到的样本和未观察到的样本之间产生系统差异,因此根据采样数据得出的结论存在误差。存在以下形式的选择偏差:

  • 覆盖偏差:在数据集中表示的人口不 与机器学习模型的样本集匹配, 相关预测。
  • 抽样偏差:数据不是从目标群体中随机收集的。
  • 未回答偏差(也称为参与偏差):来自 某些群体选择不参与问卷调查的比率与选择参与问卷调查的用户的比率不同 其他群组。

例如,假设您要创建一个机器学习模型, 让观众对电影的喜爱为了收集训练数据, 你向剧院前排的每个人发一份调查问卷 显示影片的画面。不假思索地话,这听起来像是收集数据集的合理方式,但是,这种数据收集方式可能会引入以下形式的选择偏差:

  • 覆盖偏差:通过从选择观看电影的人群中采样,您的模型预测可能不会泛化到那些对电影的兴趣尚未到达观看地步的人。
  • 采样偏差:而不是从 预期人群(电影中的所有人),而您仅对 前排的观众。坐在第一排的观众可能比坐在其他排的观众对电影更感兴趣。
  • 未回答偏差:一般来说,具有强烈观点的人倾向于 较轻度 意见。由于电影调查问卷是可选的,因此回复 更有可能形成 双模分布 而不是正态(钟形)分布。

自注意力层(也称为自注意力层)

#language

一个神经网络层, 嵌入(例如词元嵌入) 转换为另一个嵌入序列。输出序列中的每个嵌入都是 通过从输入序列元素中集成信息来构造 通过注意力机制实现。

自注意力self 部分是指对自身(而非其他上下文)进行注意的序列。自注意力是 Transformer 的主要构建块之一,使用字典查找术语,例如“查询”“键”和“值”。

自注意力层从一系列输入表示开始,每个字词对应一个表示。字词的输入表示法可以是简单的嵌入。对于输入序列中的每个字词,网络 为字词与整个序列中每个元素的相关性评分, 字词。相关性得分决定了该字词的最终表示法在多大程度上包含了其他字词的表示法。

例如,请思考以下句子:

动物太累了,没能过马路。

下图(摘自 Transformer:语言理解领域的新型神经网络架构)显示了自注意层对人称代词 it 的注意力模式,其中每条线条的深浅表示每个词对表示法的贡献程度:

下面这句话出现了两次:动物没有越过
          因为它太累了。线条将一个句子中的人称代词“it”与另一个句子中的五个令牌(“The”“animal”“street”“it”和“the period”)连接起来。代词“it”与“animal”之间的线条最粗。

自注意力层会突出显示与“it”相关的字词。在本课中, 注意力层已经学会突出显示动物指定最高权重。

对于包含 n令牌的序列,自注意机制会对嵌入序列进行 n 次单独的转换,在序列中的每个位置进行一次转换。

另请参阅注意多头自注意力

自监督学习

一系列技术,用于通过从无标签示例创建替代标签,将非监督式机器学习问题转换为监督式机器学习问题。

一些基于 Transformer 的模型(例如 BERT)使用自监督学习。

自监督训练是一种 半监督式学习方法。

自我训练

自监督学习的变体,在满足以下所有条件时特别有用:

自学习的运作方式是迭代执行以下两个步骤,直到模型不再改进:

  1. 使用监督式机器学习: 使用有标签样本训练模型。
  2. 使用第 1 步中创建的模型对无标签示例生成预测(标签),并将置信度较高的示例移至带有预测标签的有标签示例中。

请注意,第 2 步的每次迭代都会为第 1 步和 列车。

半监督式学习

使用部分训练示例带有标签、部分训练示例不带标签的数据训练模型。半监督式学习的一种方法是推断 然后使用推断出的标签进行训练, 模型。如果获得有标签样本需要高昂的成本,而无标签样本则有很多,那么半监督式学习将非常有用。

自训练是一种半监督式方法, 学习。

敏感属性

#fairness
由于法律、道德、社会或个人原因,可能会受到特别关注的人类属性。

情感分析

#language

使用统计算法或机器学习算法确定群体对某个服务、产品、组织或主题的整体态度(积极或消极)。例如,使用自然语言理解,这种算法会通过对某大学课程的文字反馈进行情感分析,从而确定学生在多大程度上普遍喜欢或不喜欢该课程。

序列模型

#seq

输入具有序列依赖性的模型。例如,预测 从之前观看的一系列视频中挑选下一个观看的视频。

序列到序列任务

#language

用于将令牌输入序列转换为令牌输出序列的任务。例如,两种常见的序列到序列 任务:

  • 译者:
    • 输入序列示例:“I love you。”
    • 示例输出序列:“Je t'aime。”
  • 问答:
    • 示例输入序列:“我需要在纽约市使用汽车吗?”
    • 示例输出序列:“No.请把车放在家里。”

人份

将经过训练的模型设为可用于通过 Google Cloud 平台 在线推理离线推理

形状(张量)

张量每个维度中的元素数。形状表示为整数列表。例如: 以下二维张量的形状为 [3,4]:

[[5, 7, 6, 4],
 [2, 9, 4, 8],
 [3, 6, 5, 1]]

TensorFlow 使用行主序(C 语言风格)格式来表示维度的顺序,因此 TensorFlow 中的形状为 [3,4],而不是 [4,3]。换句话说,在二维 TensorFlow 张量中,形状为 [行数列数]

静态形状是编译时已知的张量形状。

动态形状在编译时为未知,因此取决于运行时数据。在 TensorFlow 中,此张量可以用占位符维度表示,如 [3, ?] 所示。

分片

#TensorFlow
#GoogleCloud

训练集模型的逻辑划分。通常,某些进程通过将 将样本参数导入(通常) 平均分块。然后,每个分片都会分配到不同的机器。

将模型分片称为模型并行处理 将数据分片称为数据并行处理

收缩

#df

梯度提升中的超参数,用于控制过拟合。梯度提升中的收缩 类似于 Google Cloud 中的学习速率 梯度下降法。收缩率是小数 介于 0.0 和 1.0 之间的值。与较大的收缩值相比,较小的收缩值可更好地减少过拟合。

S 型函数

#fundamentals

一种数学函数,用于将输入值“压缩”到受限范围内(通常为 0 到 1 或 -1 到 +1)。也就是说,您可以将任意数字(二、一百万、 负十亿)加 S 型函数,则输出值仍然会 限制范围。 S 型激活函数的曲线图如下所示:

x 值跨越网域的二维曲线图
          -无穷大到 +正,而 y 值的范围几乎是 0 到 +正
          几乎是 1。当 x 为 0 时,y 为 0.5。曲线的斜率始终为
          正值,最大斜率为 0,0.5,然后逐渐减少
          它们会随着 x 的绝对值增加而逐渐变化。

S 型函数在机器学习中有多种用途,包括:

相似度度量

#clustering

聚类算法中,用于确定 任意两个样本的相似度。

单程序/多数据 (SPMD)

一种并行处理技术,用于在不同设备上对不同的输入数据并行运行相同的计算。SPMD 的目标是获得结果 这是最常见的并行编程样式。

大小不变性 (size invariance)

#image

在图片分类问题中,算法即使在图片大小发生变化的情况下也能成功分类的能力。例如: 算法仍然可以识别 cat 是 200 万像素还是 20 万像素。请注意,即使是最好的图像分类算法,在尺寸不变方面也仍然存在实际限制。例如,对于仅以 20 像素呈现的猫图像,算法(或人)不可能正确对其进行分类。

另请参阅平移不变性旋转不变性

粗略分析

#clustering

非监督式机器学习中, 一类算法,用于执行初步相似度分析 示例。素描算法使用 <ph type="x-smartling-placeholder"></ph> 局部敏感哈希函数 找出可能相似的点,然后将 分到存储分区中

草图可减少相似度计算所需的计算 大型语言模型。我们仅计算每个桶中的每对点的相似性,而不是计算数据集内每对样本的相似性。

跳过-语法

#language

一种N 元语法,可能会省略(或“跳过”)原始上下文中的字词,这意味着这 N 个字词可能原本并不相邻。更多 “k-skip-n-gram”是一个 N 元语法,其中最多有 k 个字词 已跳过。

例如,“The quick brown fox”可能的两元语法:

  • “the quick”
  • “quick brown”
  • “brown fox”

“1-skip-2-gram”是指一对字词之间最多间隔 1 个字词。因此,“the quick brown fox”具有以下 1 跳 2 元语法:

  • “the brown”
  • “quick fox”

此外,所有 2 元词组是 1 跳 2 元词组,因为跳过的单词可能少于 1 个。

跳过语法对于理解字词上下文的更多上下文非常有用。 在此示例中,即“fox”与“快速”在 1-skip-2-gram,但不在 2-gram 集合中。

跳字词可帮助训练词嵌入模型。

softmax

#fundamentals

一种函数,可确定多类别分类模型中每个可能类别的概率。概率相加 精确到 1.0。例如,下表显示了 softmax 如何分配各种概率:

图片是... Probability
.85
0.13
0.02

Softmax 也称为完整 Softmax

候选采样相对。

软提示调优

#language
#generativeAI

大语言模型进行调参的方法 用于特定任务,而无需占用大量资源 微调。软提示调优不会重新训练模型中的所有权重,而是会自动调整提示以实现相同的目标。

给定文本提示后,软提示调优通常会将其他令牌嵌入附加到提示中,并使用反向传播来优化输入。

“困难”提示包含实际词元,而不是词元嵌入。

稀疏特征

#language
#fundamentals

一种特征,其中的大多数值都为 0 或为空。例如,包含一个 1 值和一百万个 0 值的特征就是稀疏特征。相比之下,密集特征则具有 则不为零或为空。

在机器学习中,数量惊人的特征是稀疏特征。 分类特征通常是稀疏特征。 例如,某森林内有 300 种可能的树种, 可能只是“枫树”。或者,在数以百万计的 视频库中可能存在的视频,那么可能只用一个示例 只有“Casablanca”

在模型中,您通常使用独热编码来表示稀疏特征。如果独热编码很大,您可以在独热编码上方放置嵌入层,以提高效率。

稀疏表示法

#language
#fundamentals

仅存储稀疏特征中非零元素的位置

例如,假设名为 species 的分类特征标识了 36 特定森林中的树木品种。进一步假设每个示例仅标识单个物种。

您可以使用独热矢量来表示每个样本中的树种。 独热矢量将包含一个 1(用来表示 以及 35 个 0(表示 35 种树种在此例中不)。因此,独热表示法 的 maple 可能如下所示:

一个矢量,其中位置 0 到 23 存储值 0,即位置
          24 存储值 1,位置 25 到 35 存储值 0。

或者,稀疏表示法只会标识特定物种的位置。如果 maple 位于 24 号位置,则 maple 的稀疏表示法将非常简单:

24

请注意,稀疏表示法比独热表示法更紧凑 表示。

稀疏向量 (sparse vector)

#fundamentals

值大部分为零的向量。另请参阅稀疏 特征稀疏性

稀疏性

矢量或矩阵中设为零(或 null)的元素数除以 除以该矢量或矩阵中的条目总数。例如: 假设一个 100 元素的矩阵,其中 98 个单元格包含 0。稀疏度的计算方法如下:

$$ {\text{sparsity}} = \frac{\text{98}} {\text{100}} = {\text{0.98}} $$

特征稀疏性是指特征向量的稀疏性; 模型稀疏性是指模型权重的稀疏性。

空间 pooling

#image

请参阅共享

拆分

#df

决策树中, condition [使用情况] 属性。

分离器

#df

在训练决策树时,例程 和算法)来找出最合适的 每个节点上的条件

SPMD

单个计划/多项数据的缩写。

平方合页损失函数

合页损失函数的平方。平方合页损失函数惩罚 比常规合页损失更严重。

平方损失函数

#fundamentals

L2 损失的含义相同。

分阶段训练

#language

一种在一系列离散阶段训练模型的策略。目标可以是加快训练过程,也可以是实现更好的模型质量。

下图展示了渐进式堆叠方法:

  • 阶段 1 包含 3 个隐藏层,阶段 2 包含 6 个隐藏层, 第 3 阶段包含 12 个隐藏层。
  • 第 2 阶段会使用第 1 阶段的 3 个隐藏层中学习到的权重开始训练。第 3 阶段开始使用第 6 层中学到的权重 隐藏层。

三个阶段,分别标记为第 1 阶段、第 2 阶段和第 3 阶段。
          每个阶段包含的图层数量不同:第 1 阶段包含
          阶段 2 包含 6 个图层,阶段 3 包含 12 个图层。
          第 1 阶段的 3 个图层成为第 2 阶段的前 3 个图层。
          同样,第 2 阶段中的 6 层会成为
          第 3 阶段:

另请参阅流水线

#rl

在强化学习中, 代理使用这一环境配置 选择一项操作

state-action value 函数

#rl

Q 函数同义。

静态

#fundamentals

某件事只执行一次,而不是一直进行。 术语“静态”和“离线”是同义词。 以下是静态离线在机器中的常见用法 正在学习:

  • 静态模型(或离线模型)是指训练一次后便会使用一段时间的模型。
  • 静态训练(或离线训练)是训练静态模型的过程。
  • 静态推理(也称作离线推理)是一种 模型一次生成一批预测的过程。

动态相对。

静态推理

#fundamentals

离线推理的含义相同。

平稳性

#fundamentals

一种特征,其值在一个或多个维度内(通常是时间)不会改变。 例如,某个特征在 2021 年值看起来大致相同, 2023 年展现出平稳性。

在现实世界中,很少有特征表现出平稳性。即使与稳定性同义的特征(例如海平面)也会随时间推移而发生变化。

不平稳相对。

步骤

一个批次的前向传播和反向传播。

如需详细了解正向传递和反向传递,请参阅反向传播

步长 (step size)

学习速率的含义相同。

随机梯度下降法 (SGD)

#fundamentals

批次大小为 1 的一种梯度下降法换句话说,SGD 在 在各层中 从训练集中随机选择。

步幅

#image

在卷积运算或池化操作中,下一系列输入切片的每个维度的增量。例如,下面的动画 展示了卷积运算过程中的 (1,1) 步幅。因此,下一个输入 slice 的起始位置在前一个输入 slice 的右侧。当操作到达右边缘时,下一个切片将 移动到左侧,但往下移一个位置

一个 5x5 输入矩阵和一个 3x3 卷积过滤器。由于步长为 (1,1),因此卷积过滤器将应用 9 次。第一个
     卷积切片评估输入值左上角的 3x3 子矩阵
     模型。第二个 Slice 评估顶部中间的 3x3
     子矩阵。第三个卷积切片评估右上角的 3x3。
     子矩阵。第四个切片用于评估中间左侧的 3x3 子矩阵。
     第五个切片对中间的 3x3 子矩阵进行评估。第六个切片
     计算右侧中间的 3x3 子矩阵。第七个 slice 会评估左下角的 3x3 子矩阵。第八个 slice 会评估底部中间的 3x3 子矩阵。第九个切片计算的是右下角 3x3
     子矩阵。

上面的示例演示了二维步长。如果输入矩阵为三维,那么步长也将是三维。

结构风险最小化 (SRM)

一种平衡两个目标的算法:

  • 需要构建最具预测性的模型(例如损失最低)。
  • 需要使模型尽可能简单(例如, 正则化)。

例如,一个将损失和正则化最小化在 训练集是一种结构风险最小化算法。

经验风险最小化相对。

下采样

#image

请参阅 pooling

子词词元

#language

语言模型中,令牌是指字词的子字符串,也可能是整个字词。

例如,输入“itemize”可能会分成多个“项” (根词)和“ize”(一个后缀),其中每个后缀都由其自己的 令牌。将不常见的字词拆分为这样的片段(称为子字词) 来对单词的更常见组成部分进行操作, 例如前缀和后缀

反之,“going”等常用词可能不会被拆分,而可能由单个令牌表示。

摘要

#TensorFlow

在 TensorFlow 中的某一计算出的一个值或一组值,通常用于在训练期间跟踪模型指标。

监督式机器学习

#fundamentals

利用特征及其学习特征来训练模型 相应的标签。监督式机器学习类似于通过研究一系列问题及其对应的答案来学习某个知识。在掌握了问题和 这样,学生就可以针对未曾见过的新问题 就同一主题提出问题。

比较对象 非监督式机器学习

合成特征

#fundamentals

某个特征不在输入特征中,但 由其中一项或多项组合而成创建合成特征的方法包括:

  • 对连续特征进行分桶,以分为多个区间分箱。
  • 创建特征组合
  • 将一个特征值与其他特征值或其本身相乘(或相除)。例如,如果 ab 是输入特征,则 以下是合成特征的示例:
    • ab
    • a2
  • 对地图项值应用超越函数。例如,如果 c 是输入特征,那么以下是合成特征的示例:
    • sin(c)
    • ln(c)

仅通过标准化缩放创建的特征不属于合成特征。

T

T5

#language

Google AI 在 2020 年推出的一种文本到文本转移学习模型。T5 是一个编码器-解码器模型, Transformer 架构,基于超大型 数据集。它非常适用于各种自然语言处理任务,例如生成文本、翻译语言以及以对话方式回答问题。

T5 的名称源自“文本到文本转换转换器”中的五个 T。

T5X

#language

一个设计出来的开源机器学习框架 构建和训练大规模自然语言处理模型, (NLP) 模型。T5 基于 T5X 代码库(该代码库基于 JAXFlax 构建)实现。

表格式 Q 学习

#rl

强化学习中, 问答学习:使用表来存储 Q 函数 stateaction

目标

标签的含义相同。

目标广告网络

#rl

深度 Q 学习中,一种神经网络 主神经网络的近似值, 会实现 Q 函数政策。 然后,您可以使用目标层预测的 Q 值来训练主网络 。因此,您可以防止在主网络根据自身预测的 Q 值进行训练时出现反馈环。避免此类反馈 训练稳定性。

任务

可以使用机器学习技术解决的问题,例如:

温度

#language
#image
#generativeAI

用于控制随机性程度的超参数 模型输出。温度越高,输出内容的随机性就越大;温度越低,输出内容的随机性就越小。

选择最佳温度取决于具体应用和 模型输出的首选属性。例如,您应 可能会在创建应用 生成广告素材输出相反,您可能会降低温度 并构建用于对图片或文本进行分类的模型,以改进 模型的准确性和一致性。

温度通常与softmax 一起使用。

时态数据

在不同时间点记录的数据。例如,冬季外套促销 一年中每一天的记录都属于时间数据。

张量

#TensorFlow

TensorFlow 程序中的主要数据结构。张量是 N 维 (其中 N 可能非常大)数据结构,最常见的标量、矢量、 或矩阵。张量的元素可以包含整数值、浮点值或字符串值。

TensorBoard

#TensorFlow

一个信息中心,用于显示在执行一个或多个 TensorFlow 程序期间保存的总结信息。

TensorFlow

#TensorFlow

一个大型分布式机器学习平台。该术语还指 TensorFlow 堆栈中的基 API 层,该层支持对数据流图进行一般计算。

虽然 TensorFlow 主要用于机器学习,但您也可以使用 使用 TensorFlow 处理需要数值计算的非机器学习任务: 数据流图。

TensorFlow Playground

#TensorFlow

一种直观显示数据差异的程序, 超参数影响模型 (主要是神经网络)训练。 转到 <ph type="x-smartling-placeholder"></ph> http://playground.tensorflow.org 来体验 TensorFlow Playground。

TensorFlow Serving

#TensorFlow

一个用于在生产环境中部署经过训练的模型的平台。

张量处理单元 (TPU)

#TensorFlow
#GoogleCloud

一种专用集成电路 (ASIC),用于优化机器学习工作负载的性能。这些 ASIC 部署为 TPU 设备上的多个 TPU 芯片

张量的阶

#TensorFlow

请参阅秩(张量)

张量形状

#TensorFlow

张量Tensor在不同维度中包含的元素数量。 例如,[5, 10] 张量在一个维度上的形状为 5,在另一个维度上的形状为 10。

张量大小

#TensorFlow

张量包含的标量总数。例如,[5, 10] 张量的大小为 50。

TensorStore

用于高效读取和写入大型多维数组的

终止条件

#rl

强化学习中, 确定分集何时结束,例如当客服人员 特定状态或超过阈值数量的状态转换。 例如,在 tic-tac-toe(同样 称为“noughts”和“crossed”),该剧集会在玩家结束标记时结束, 三个连续空格或已标记所有空格。

test

#df

决策树中,条件的另一个名称。

测试损失

#fundamentals

一个指标,表示模型相对于损失 测试集。构建模型时,您通常会尝试尽可能减少测试损失。这是因为如果测试损失较小, 与低训练损失相比,信号质量更强;或者 验证损失低。

测试损失与训练损失或验证损失之间有时会有很大的差距 建议您增加 正则化率

测试集

为测试预留的dataset的子集 一个经过训练的模型

传统上,您需要将数据集中的样本分成以下三个样本: 不同的子集:

数据集中的每个示例都应仅属于上述子集之一。例如,单个示例不应同时属于训练集和测试集。

训练集和验证集都与模型训练密切相关。由于测试集仅与训练间接相关,因此与训练损失验证损失相比,测试损失 的偏差更小,质量更高。

文本 span

#language

与文本字符串的特定子部分相关联的数组索引跨度。例如,Python 字符串 s="Be good now" 中的单词 good 占据 文本范围为 3 到 6。

tf.Example

#TensorFlow

标准 <ph type="x-smartling-placeholder"></ph> 协议缓冲区 描述用于机器学习模型训练或推断的输入数据。

tf.keras

#TensorFlow

集成到 TensorFlow 中的 Keras 实现。

阈值(适用于决策树)

#df

轴对齐条件中, 正在与feature进行比较。例如,75 表示 阈值条件:

grade >= 75

时序分析

#clustering

机器学习和统计学的一个子领域, 时态数据。许多类型的机器学习问题都需要时间序列分析,包括分类、聚类、预测和异常检测。例如,您可以使用 时间序列分析,用于按月预测冬季外套的未来销量 根据历史销售数据预测

时间步

#seq

循环神经网络中的“展开”单元格。例如,下图显示了三个时间步(标记为 下标 t-1、t 和 t+1):

循环神经网络中的三个时间步。此
          第一个时间步成为第二个时间步的输入。输出
          第二个时间步的 100 倍会成为第三个时间步的输入。

token

#language

语言模型中,是模型训练和进行预测的原子单元。令牌通常是 以下:

  • 字词,例如短语“狗像猫”包含三个单词 “dogs”、“like”和“cats”。
  • 字符,例如短语“自行车鱼”包含 9 个 字符标记。(请注意,空格也算作其中一个标记。)
  • 子词 - 其中单个词可以是单个词法单元,也可以是多个词法单元。 子词由词根、前缀或后缀组成。例如,使用子词作为词元的语言模型可能会将“dogs”视为两个词元(根词“dog”和复数词尾“s”)。同一个语言模型可能会将单个词“taller”视为两个子词(词根“tall”和词尾“er”)。

在语言模型以外的领域,令牌可以表示其他类型的 原子单元。例如,在计算机视觉中,令牌可能是图片的一部分。

深度神经网络的一个组件, 一个深度神经网络。在某些情况下,每个塔都会从独立的数据源读取数据,并且这些塔会保持独立状态,直到其输出在最终层中合并为止。在其他情况下(例如,在 编码器解码器塔楼 很多 Transformer),塔具有交叉连接 相互通信。

TPU

#TensorFlow
#GoogleCloud

张量处理单元的缩写。

TPU 芯片

#TensorFlow
#GoogleCloud

一种可编程的线性代数加速器,具有针对机器学习工作负载进行了优化的片上高带宽内存。一个 TPU 设备上部署了多个 TPU 芯片。

TPU 设备

#TensorFlow
#GoogleCloud

包含多个 TPU 芯片、高带宽网络接口和系统冷却硬件的印刷电路板 (PCB)。

TPU 主实例

#TensorFlow
#GoogleCloud

在主机上运行的中央协调进程, 接收数据、结果、计划、性能和系统健康信息 TPU 工作器。TPU 主进程还管理 TPU 设备的设置和关闭。

TPU 节点

#TensorFlow
#GoogleCloud

Google Cloud 上的 TPU 资源,具有特定的 TPU 类型。TPU 节点会连接到您的 VPC 网络 对等 VPC 网络。 TPU 节点是 Cloud TPU API 中定义的资源。

TPU Pod

#TensorFlow
#GoogleCloud

Google 中 TPU 设备的特定配置 数据中心。TPU Pod 中的所有设备都通过专用高速网络互相连接。TPU Pod 是最大的配置 适用于特定 TPU 版本的 TPU 设备

TPU 资源

#TensorFlow
#GoogleCloud

您可以在 Google Cloud 上创建、管理或使用 TPU 实体。例如,TPU 节点TPU 类型是 TPU 资源。

TPU 切片

#TensorFlow
#GoogleCloud

TPU 切片是整个行业中 TPU 设备的一小部分 一个 TPU Pod。TPU 切片中的所有设备均已连接 通过专用高速网络相互通信。

TPU 类型

#TensorFlow
#GoogleCloud

由一个或多个具有特定特定 ID 的 TPU 设备 TPU 硬件版本。您在创建容器时选择 TPU 类型 Google Cloud 上的 TPU 节点。例如,v2-8 TPU 类型是具有 8 个核心的单个 TPU v2 设备。v3-2048 TPU 类型具有 256 个联网的 TPU v3 设备,总共 2048 个核心。TPU 类型是 Cloud TPU API 中定义的资源。

TPU 工作进程

#TensorFlow
#GoogleCloud

在宿主机上运行并执行机器学习程序的进程 TPU 设备

训练

#fundamentals

确定构成模型的理想参数(权重和偏差)的过程。在训练期间,系统会 样本,然后逐步调整参数。在训练过程中,每个示例的使用次数可能从几次到数十亿次不等。

训练损失

#fundamentals

一个指标,代表模型损失 特定的训练迭代。例如,假设损失函数 是均方误差。训练损失(平均 平方误差),第 10 次迭代的训练损失为 2.2, 则第 100 次迭代为 1.9。

损失曲线会绘制训练损失与迭代次数的关系图。损失曲线可提供有关训练的以下提示:

  • 下降斜率表示模型在改进。
  • 斜率上升表示模型变得越来越差。
  • 斜率表示模型已达到 收敛

例如,下面的一些理想化的损失曲线 显示:

  • 初始迭代期间的下降斜率较陡,这意味着模型在快速改进。
  • 呈逐渐变平(但仍在向下)的斜坡,直至接近终点 模型在某种程度上得到了持续改进, 速度会比初始迭代慢慢一些。
  • 训练结束时斜率变平,这表明模型已收敛。

训练损失与迭代次数的曲线图。这条损失曲线始于
     陡峭的斜坡斜率会逐渐变平,直到斜率变为零。

虽然训练损失很重要,另请参阅 泛化

训练-应用偏差

#fundamentals

模型在训练期间的性能与同一模型在应用期间的性能之间的差异。

训练集

#fundamentals

用于训练模型数据集的子集。

按照传统,数据集中的样本分为以下三个 不同的子集:

理想情况下,数据集中的每个样本都应仅属于 前面的子集。例如,一个示例不应属于 训练集和验证集。

轨迹

#rl

强化学习中,一系列元组,表示一系列状态转换,其中每个元组对应于给定状态转换的状态、操作奖励和下一个状态。

迁移学习

将信息从一项机器学习任务传输到另一项机器学习任务。 例如,在多任务学习中,一个模型可以完成多项任务,例如针对不同任务具有不同输出节点的深度模型。迁移学习可能涉及转移知识 从较简单的任务解决方案转变为较复杂的任务,或者 将知识从具有更多数据的任务转移到 因为数据量较少

大多数机器学习系统只会解决一项任务。迁移学习是 它很快就能通过单个程序解决的人工智能问题 多个任务。

Transformer

#language

一种由 Google 开发的神经网络架构,它依赖于自注意力机制将一系列输入嵌入转换为一系列输出嵌入,而无需依赖于卷积循环神经网络。Transformer 可以视为堆叠的自注意力层。

转换器可以包含以下任一项:

编码器会将一组嵌入转换为长度相同的新序列。编码器包括 N 个相同的层,每个层包含两个 子层。这两个子层会应用于输入嵌入序列的每个位置,将序列的每个元素转换为新的嵌入。第一个编码器子层汇总来自 输入序列。第二个编码器子层将汇总的信息转换为输出嵌入。

解码器会将一组输入嵌入转换为一组输出嵌入,长度可能不同。解码器还包含 N 个相同的层,每个层包含三个子层,其中两个子层与编码器子层类似。第三个解码器子层会接受编码器的输出,并应用自注意力机制从中收集信息。

博文 Transformer:一种新的语言神经网络架构 了解 对 Transformer 进行了很好的介绍。

平移不变性

#image

在图像分类问题中,算法即使在图像中对象的位置发生变化时也能成功分类的能力。例如,无论一只狗位于画面正中央还是画面左侧,该算法仍然可以识别它。

另请参阅大小不变性旋转不变性

三元语法

#seq
#language

一种 N 元语法,其中 N=3。

真负例 (TN)

#fundamentals

模型正确预测负类别的示例。例如,模型推断出 特定电子邮件并非垃圾邮件,且该邮件确实是 这不是垃圾邮件

真正例 (TP)

#fundamentals

在样本中,模型会正确预测出 正类别。例如,模型推断出 某封电子邮件是垃圾邮件,而该邮件确实是垃圾邮件。

真正例率 (TPR)

#fundamentals

召回率的含义相同。具体来说:

$$\text{true positive rate} = \frac{\text{true positives}} {\text{true positives} + \text{false negatives}}$$

真正例率是 ROC 曲线的 y 轴。

U

不了解(敏感属性)

#fairness

存在敏感属性,但未包含在训练数据中的情况。由于敏感属性通常与数据的其他属性相关,因此在训练过程中未知晓敏感属性的模型可能仍会对该属性产生差别影响,或者违反其他公平性约束条件

欠拟合

#fundamentals

生成预测能力较差的模型,因为模型 未能完全体现训练数据的复杂性。有很多问题 可能会导致欠拟合,包括:

欠采样

分类不平衡的数据集多数类中移除示例,以创建更平衡的训练集

例如,假设某个数据集中的多数类别与 少数群体的比例是 20:1。为了克服这种类不平衡问题,您可以创建一个训练集,其中包含所有少数类示例,但只有十分之一的多数类示例,这样训练集类比率将为 2:1。得益于过采样,这个更平衡的训练集可能会生成更好的模型。或者, 更加均衡的训练集包含的样本不足,无法训练 有效模型。

过采样相对。

单向

#language

仅评估目标文本部分前面的文本的系统。相反,双向系统会同时评估 在文本目标部分之前和之后的文本。 如需了解详情,请参阅双向

单向语言模型

#language

一种语言模型,其概率仅基于目标令牌前(而非后)出现的令牌。与双向语言模型相对。

无标签样本

#fundamentals

包含特征但不包含标签的示例。 例如,下表显示了房价估算模型中的三个未标记示例,每个示例都有三个特征,但没有房价:

卧室数量 浴室数量 房龄
3 2 15
2 1 72
4 2 34

监督式机器学习中, 这些模型会基于有标签样本进行训练, 无标签样本

半监督式非监督式学习中,在训练期间会使用无标签样本。

将无标签示例与有标签示例进行对比。

非监督式机器学习

#clustering
#fundamentals

训练模型以找出数据集(通常是 未加标签的数据集。

非监督式机器学习最常见的用途是将数据分为不同的聚类,使相似的样本位于同一组中。例如,无监督机器 学习算法可以根据各种属性对歌曲进行聚类 生成的集群可以成为其他机器学习算法(例如音乐推荐服务)的输入。当有用标签稀缺或缺失时,聚类可能有所帮助。 例如,在反滥用和反欺诈等领域,聚类有助于人们更好地了解数据。

监督式机器学习相对。

根据模型估算转化量

营销中常用的一种根据模型估算转化技术, “因果效应”(也称为“增量影响”) “treatment”以“个人”为目标以下是两个示例:

  • 医生可能会使用效果提升幅度模型来预测死亡率的降低情况 (因果效应)的差异,具体取决于 患者(个体)的年龄和病史。
  • 营销者可以使用效果提升模型来预测广告(实验组)对个人(个体)的购买概率提升幅度(因果效应)。

效果提升模型与分类回归不同,因为效果提升模型中始终缺少一些标签(例如,二元治疗组中的一半标签)。例如,患者可以接受治疗,也可以不接受治疗;因此,我们只能在上述两种情况下观察患者是否会痊愈(但不能同时观察这两种情况)。效果提升模型的主要优势在于,它可以针对未观察到的情况(假设情况)生成预测结果,并使用这些结果计算因果效应。

权重上调

下采样类别等值应用一个权重 为您降采样所依据的因数。

用户矩阵

#recsystems

推荐系统中,由矩阵分解生成的嵌入向量,用于存储与用户偏好相关的潜在信号。用户矩阵的每一行都包含有关 不同潜在信号的强度。 以电影推荐系统为例。在该系统中,用户矩阵中的潜在信号可能表示每个用户对特定类型的兴趣,也可能是更难以解读的信号,其中涉及多个因素之间的复杂互动关系。

用户矩阵有一列对应每个潜在特征,一行对应每个用户。 也就是说,用户矩阵与要进行分解的目标矩阵具有相同的行数。例如,假设某个影片推荐系统要为 1000000 名用户推荐影片,则用户矩阵有 1000000 行。

V

验证

#fundamentals

对模型质量的初始评估。 验证工具会根据 验证集

由于验证集与训练集不同, 验证有助于防止出现过拟合

您可以将针对验证集评估模型视为第一轮测试,将针对测试集评估模型视为第二轮测试。

验证损失

#fundamentals

一个指标,表示在训练的特定迭代期间,模型在验证集上的损失

另请参阅泛化曲线

验证集

#fundamentals

数据集的子集,用于对经过训练的模型进行初始评估。通常,您需要先针对验证集对经过训练的模型进行多次评估,然后再针对测试集对模型进行评估。

传统上,您可以将数据集中的示例划分为以下三个不同的子集:

理想情况下,数据集中的每个示例都应仅属于上述子集之一。例如,单个示例不应同时属于训练集和验证集。

值插补

将缺失的值替换为可接受的替代值的过程。如果某个值缺失,您可以舍弃整个示例,也可以 可以使用价值插补来挽救样本。

例如,假设有一个数据集包含一个应每小时记录一次的 temperature 特征。不过,某个小时的温度读数不可用。以下是数据集的一部分:

时间戳 温度
1680561000 10
1680564600 12
1680568200 缺失
1680571800 20
1680575400 21
1680579000 21

系统可以删除缺失的示例,也可以根据插值算法将缺失的温度值插值为 12、16、18 或 20。

梯度消失问题

#seq

某些深度神经网络的早期隐藏层的梯度会出乎意料地变得平坦(低)。梯度越来越小会导致深度神经网络中节点的权重变化越来越小,从而导致学习效果不佳或根本无法学习。存在梯度消失问题的模型很难或无法训练。Long Short-Term Memory 单元格可以解决这个问题。

梯度爆炸问题相对。

变量重要性

#df

一组得分,用于指示每个特征对模型的相对重要性。

例如,假设有一个决策树, 估算房价。假设此决策树使用三个特征:尺寸、年龄和款式。如果一组可变重要性 计算这三个特征的值 {size=5.8, age=2.5, style=4.7},那么尺寸对 决策树,而不是年龄或风格。

存在不同的变量重要性指标,可让机器学习专家了解模型的不同方面。

变分自编码器 (VAE)

#language

一种自动编码器,利用输入和输出之间的差异来生成输入的修改版本。变分自编码器对生成式 AI 非常有用。

VAE 基于变分推断,这是一种 参数。

vector

一个非常多的术语,其含义因不同的数学概念而异 和科学领域。在机器学习中,向量具有两个属性:

  • 数据类型:机器学习中的矢量通常存储浮点数。
  • 元素数:这是矢量的长度或尺寸。

例如,假设有一个包含八个浮点数的特征向量。此特征向量的长度或维度为 8。 请注意,机器学习矢量通常具有大量的维度。

您可以将许多不同类型的信息表示为向量。例如:

  • 地球表面上的任何位置都可以表示为二维矢量,其中一个维度是纬度,另一个维度是经度。
  • 500 只股票中的每只股票的当前价格可以表示为一个 500 维的向量。
  • 在有限数量的类别上的概率分布可以表示为向量。例如,预测三个输出颜色(红色、绿色或黄色)之一的多类别分类系统可以输出矢量 (0.3, 0.2, 0.5),表示 P[red]=0.3, P[green]=0.2, P[yellow]=0.5

矢量可以串联,因此各种不同的媒体可以表示为单个矢量。某些模型直接对许多独热编码的串联进行运算。

TPU 等专用处理器经过优化,可对矢量执行数学运算。

向量是为 1 的张量

W

Wasserstein 损失

生成式对抗网络中常用的损失函数之一,基于生成数据和真实数据分布之间的地球移动距离

重量

#fundamentals

一个模型与另一个值相乘的值。 训练是确定模型理想权重的过程;推理是使用这些学习到的权重进行预测的过程。

加权交替最小二乘 (WALS)

#recsystems

一种算法,用于在推荐系统中执行矩阵分解期间最小化目标函数,以便对缺失的样本进行权重下调。WALS 将加权 原始矩阵与重构后的模型之间的平方误差, 在修复行分解和列分解之间交替进行。 这些优化皆可通过最小二乘凸优化实现。如需了解详情,请参阅推荐系统课程

加权和

#fundamentals

所有相关输入值的总和乘以对应的 权重。例如,假设相关输入包括以下内容:

输入值 输入权重
2 -1.3
-1 0.6
3 0.4

因此,加权和为:

weighted sum = (2)(-1.3) + (-1)(0.6) + (3)(0.4) = -2.0

加权和是激活函数的输入参数。

宽度模型

一个线性模型,通常具有许多 稀疏输入特征。我们之所以称之为“宽度模型”,是因为这是一种特殊类型的神经网络,其大量输入均直接与输出节点相连。宽度模型 通常比深度模型更容易调试和检查。 虽然较宽模型 无法通过隐藏层表示非线性规律, 这些模型可以使用 特征组合分桶,以不同的方式为非线性关系建模。

深度模型相对。

width

神经网络的特定中的神经元数量。

群体的智慧

#df

该理论认为,对一组人(“群众”)的意见或估算值进行平均处理,通常会产生出乎意料的好结果。例如,假设有一款游戏,玩家需要猜测一个大罐子中装有多少果冻豆。虽然大多数单个猜测结果都会不准确,但经验表明,所有猜测结果的平均值与罐子中实际的果冻豆数惊人地接近。

Ensembles 是一种模拟群体智慧的软件。 即使个别模型做出的预测极不准确, 对许多模型的预测取平均值,往往会产生意想不到的 。例如,虽然单个决策树的预测结果可能不准确,但决策森林的预测结果通常非常准确。

词嵌入

#language

表示词集中每个单词的嵌入向量;即,将每个单词表示为介于 0.0 和 1.0 之间的浮点值向量。包含类似字词的字词 与具有不同含义的字词相比,“词汇”具有更相似的表征。 例如,胡萝卜芹菜黄瓜的表示形式都相对相似,这与飞机太阳镜牙膏的表示形式截然不同。

X

XLA(加速线性代数)

适用于 GPU、CPU 和机器学习加速器的开源机器学习编译器。

XLA 编译器会从常用机器学习框架(例如 PyTorchTensorFlowJAX)中获取模型,并对其进行优化,以便在不同的硬件平台(包括 GPU、CPU 和机器学习加速器)上实现高性能执行。

Z

零样本学习

一种机器学习训练,其中 模型可对任务进行预测 模型之前未专门对其进行过训练。换句话说,模型没有获得任何特定于任务的训练示例,但需要对该任务执行推理

零样本提示

#language
#generativeAI

提示提供大语言模型应如何回答的示例。例如:

一个问题的各个部分 备注
指定国家/地区的官方货币是什么? 您希望 LLM 回答的问题。
印度 实际查询。

大语言模型可能会返回以下任一项作为响应:

  • 卢比符号
  • INR
  • 印度卢比
  • 卢比
  • 印度卢比

所有答案都正确,但您可能更喜欢某种特定格式。

比较和对比零次提示与以下术语:

Z 评分归一化

#fundamentals

一种缩放技术,用于将原始特征值替换为一个浮点值,该值表示与该特征的平均值之间的标准差数量。例如,假设某个特征的均值为 800,标准差为 100。下表显示了 Z 分数标准化如何将原始值映射到其 Z 分数:

原始值 Z 分数
800 0
950 +1.5
575 -2.25

然后,机器学习模型会根据该特征的 Z 得分(而不是原始值)进行训练。