머신러닝 용어집

本术语表定义了常见的机器学习术语, TensorFlow 专用术语。

A

消融

一种评估特征重要性的方法 或组件,只需将它从模型移除即可。然后您 重新训练模型,而不使用相应特征或组件;如果重新训练的模型 那么移除的功能或组件 可能很重要。

例如,假设您训练了一个 分类模型 并在 10 项特征上实现 88% 的精确率 测试集。如需查看重要性 您可以只使用另一个特征的 功能。如果重新训练的模型表现明显变差(例如, 55%),那么已移除的特征可能很重要。相反, 如果重新训练的模型表现同样出色,则该特征很可能 不太重要。

消融术还有助于确定以下事项的重要性:

  • 较大的组件,例如较大机器学习系统的整个子系统
  • 过程或技术,例如数据预处理步骤

在这两种情况下,您都会观察系统性能如何变化(或 不会改变)。

A/B 测试

一种统计方法,用于比较两种(或多种)分析法 - AB。通常,A 表示现有技术,而 B 是一种新技术。 A/B 测试不仅可以确定哪种技术的效果更好, 以及差异是否具有统计显著性。

A/B 测试通常会针对两种方法比较单个指标 例如,对于两个类别,模型的准确率 技术?然而,A/B 测试也可以 指标。

加速器芯片

#GoogleCloud

一类专门用于执行关键任务的硬件组件, 深度学习算法所需的计算。

加速器芯片(简称加速器)可以显著 提高训练和推理任务的速度和效率 与通用 CPU 相比非常适合用于训练 以及类似的计算密集型任务。

加速器芯片的示例包括:

  • 具有专用硬件的 Google 张量处理单元 (TPU) 用于深度学习。
  • NVIDIA 的 GPU 虽然最初设计用于图形处理, 旨在实现并行处理, 加快处理速度。

准确性

#fundamentals

正确分类预测的数量除以 除以预测总数。具体来说:

$$\text{Accuracy} = \frac{\text{correct predictions}} {\text{correct predictions + incorrect predictions }}$$

例如,某个模型做出 40 次正确预测和 10 次错误预测 预测的准确率为:

$$\text{Accuracy} = \frac{\text{40}} {\text{40 + 10}} = \text{80%}$$

二元分类可提供具体名称 针对不同类别的正确预测错误预测。二元分类的准确率公式 如下所示:

$$\text{Accuracy} = \frac{\text{TP} + \text{TN}} {\text{TP} + \text{TN} + \text{FP} + \text{FN}}$$

其中:

  • TP 是真正例(正确预测)的数量。
  • TN 为真正例(正确预测)的数量。
  • FP 是指假正例(错误预测)的数量。
  • FN 为假负例(预测错误)的数量。

比较和对比准确性 精确率召回率

action

#rl

强化学习中, 代理 状态的状态转换 环境。代理使用 policy

激活函数

#fundamentals

神经网络能够进行学习的函数 特征之间的非线性(复杂)关系 和标签。

常用的激活函数包括:

激活函数的曲线图绝不是单条直线。 例如,ReLU 激活函数的曲线图包含 两条直线:

两条直线的笛卡尔图。第一行有一个常量,
          y 值为 0,沿 x 轴运行,范围为 -无穷大,0 到 0,-0。
          第二行从 0,0 开始。这条线的斜率为 +1,因此
          范围为 0,0 到 +无穷大,+无穷大。

S 型激活函数的曲线图如下所示:

x 值跨越网域的二维曲线图
          -无穷大到 +正,而 y 值的范围几乎是 0 到 +正
          几乎是 1。当 x 为 0 时,y 为 0.5。曲线的斜率始终为
          正值,最大斜率为 0,0.5,然后逐渐减少
          它们会随着 x 的绝对值增加而逐渐变化。

主动学习

一种训练方法,其中 算法会选择从中学习的部分数据。主动学习 尤其是在有标签样本 很少获得或成本高昂。不要盲目地寻求多元化 一系列带标签样本,主动学习算法有选择地寻找 学习所需的特定范围的样本。

AdaGrad

一种先进的梯度下降法,用于重新调整 每个参数的梯度值,从而有效地为每个参数赋予 独立的学习速率。有关完整说明,请参阅 这篇 AdaGrad 论文

代理

#rl

强化学习中, 使用 政策,目的是最大限度地提高预期回报: 状态和状态之间转换的状态 环境

更笼统地说,代理是自主规划和执行 为实现目标而进行的一系列行动,能够适应变化 自身环境例如,基于 LLM 的代理可能会使用 LLM 来生成计划,而不是应用强化学习政策。

凝聚式层次聚类

#clustering

请参阅层次聚类

异常值检测

识别离群值的过程。例如,如果均值 特定特征的值为 100,标准差为 10; 那么异常值检测应将 200 值标记为可疑值

AR

增强现实的缩写。

PR 曲线下的面积

请参阅 PR AUC(PR 曲线下面积)

ROC 曲线下的面积

请参阅 AUC(ROC 曲线下面积)

人工智能

一种非人为机制,可以广泛地解决问题, 创造力和适应能力例如,展示人工智能技术的 一般情报可以翻译文本、创作交响乐,并且擅长 尚未发明的游戏。

人工智能

#fundamentals

可以解决复杂任务的非人类程序或模型。 例如,翻译文本的程序或模型,或 通过放射图像识别疾病,均具有人工智能。

正式地说,机器学习是人工智能技术的 情报。然而,近年来,一些组织已开始采用 “人工智能”和“机器学习”这两个术语可以互换。

注意力层、

#language

一种用于神经网络的机制, 特定字词或字词中某一部分的重要性。注意力压缩 模型预测下一个词元/字词所需的信息量。 典型的注意力机制可能包含 一组输入的加权和,其中 每个输入的权重由 神经网络。

另请参阅自注意力多头自注意力 Transformer 的基础组件。

属性

#fairness

feature 的含义相同。

在机器学习公平性中,属性通常是指 特定的用户特征。

属性抽样

#df

一种训练决策森林的策略,其中每个 决策树仅考虑可能的 特征(在学习条件时使用)。 通常,对于每个类别的特征, 节点。相比之下,在训练决策树时, 在不进行属性采样的情况下,系统会考虑每个节点的所有可能的特征。

AUC(ROC 曲线下的面积)

#fundamentals

一个介于 0.0 和 1.0 之间的数字,表示 二元分类模型的 能够将正类别负类别。 AUC 越接近 1.0,模型区分 类。

例如,下图显示了一个分类器模型, 用于区分正类别(绿色椭圆形)与负类别 (紫色矩形)完美呈现。这个不切实际的完美模型 AUC 为 1.0:

数轴,一侧有 8 个正例,
          另一边有 9 个反例。

而下图则展示了分类器的 生成随机结果的模型。此模型的 AUC 为 0.5:

包含 6 个正例和 6 个负例的数轴。
          样本序列是正数、负数、
          正面, 负面, 正面, 负面, 正面, 负面, 正面
          否定、肯定、否定

是,上述模型的 AUC 为 0.5,而不是 0.0。

大多数模型都处于这两种极端之间。例如, 以下模型在一定程度上区分了正类别和负类别, 曲线下面积的曲线在 0.5 到 1.0 之间:

包含 6 个正例和 6 个负例的数轴。
          样本的序列不同,分别是负、负、负、负,
          正面, 负面, 正面, 正面, 负面, 正面, 正面,
          积极。

AUC 会忽略您针对其设置的任何值, 分类阈值。曲线下面积 会考虑所有可能的分类阈值。

增强现实

#image

一种将计算机生成的图像叠加在用户视角上的技术 从而提供综合视图

自编码器

#language
#image

一个学习从机器学习系统中提取最重要的信息的系统, 输入。自编码器是编码器解码器。自动编码器依赖于以下两个步骤:

  1. 编码器将输入映射到(通常)有损低维 (中级)格式。
  2. 解码器通过映射关系来构建原始输入的有损版本, 将低维格式转换为原始的高维格式 输入格式。

自编码器进行端到端训练,方法是让解码器尝试 根据编码器的中间格式重建原始输入。 尽可能接近由于中间格式较小 (低维度),则强制自动编码器 了解输入中的哪些信息是必要的, 与输入完全相同。

例如:

  • 如果输入数据是图形,则非精确副本将类似于 原始图片,只是有所修改。或许, 不精确的文案会去除原始图片中的噪声或填充 缺少一些像素
  • 如果输入数据是文本,自动编码器会生成新文本, 模仿(但不完全相同)原文。

另请参阅变体自动编码器

自动化偏差

#fairness

当人类决策者倾向于由自动化工具提供的建议时, 可利用自动化决策系统生成的信息, 在自动决策系统出错时发出提醒。

AutoML

用于构建机器学习的任何自动化流程 模型。AutoML 可以自动执行如下任务:

  • 搜索最合适的模型。
  • 调整超参数
  • 准备数据(包括执行 特征工程)。
  • 部署生成的模型。

AutoML 对数据科学家非常有用,因为它可以帮助他们节省时间 致力于开发机器学习流水线并改进预测功能 准确率。对非专家用户也很有用, 更便于执行机器学习任务。

自回归模型

#language
#image
#generativeAI

一种模型,可根据自身的先前模型推断出预测结果 预测。例如,自动回归语言模型 token。 所有基于 Transformer 大语言模型具有自动回归性。

相比之下,基于 GAN 的图片模型通常不具有自动回归性 因为它们在单次正向传播中生成图像, 步骤。不过,某些图片生成模型是自动回归的,这是因为 它们逐步生成图像。

辅助损失

损失函数 - 与 神经网络 模型的主要 损失函数,这有助于加快训练过程的训练速度。 在权重随机初始化时的早期迭代。

辅助损失函数可推送有效梯度 到之前的。这有助于 训练期间的收敛 以解决梯度消失问题

平均精确率

用于对一系列已排序结果的效果进行汇总的指标。 平均精确率的计算方法是用 每条相关结果的 精确率值(每个结果 召回率相对于之前的结果有所增加的排名列表)。

另请参阅 PR 曲线下的面积

轴对齐条件

#df

决策树中,条件 只涉及一项功能。例如,如果区域 为特征,则以下为轴对齐条件:

area > 200

倾斜条件相对。

B

反向传播算法

#fundamentals

用来实现 梯度下降法神经网络

训练神经网络涉及多次迭代 以下两步循环:

  1. 正向传递期间,系统会处理一批 用于生成预测结果的样本。系统会将每个 根据每个标签值进行预测。两者的区别在于 预测值,标签值是该样本的损失。 系统会汇总所有样本的损失,以计算总的 当前批次的损失。
  2. 反向传播(反向传播算法)期间,系统会通过以下方式减少损失: 调整所有神经元 隐藏层

神经网络通常包含跨多个隐藏层的多个神经元。 其中每个神经元以不同的方式影响整体损失。 反向传播算法确定是增加还是减少权重 应用于特定神经元。

学习速率是控制 每个反向传递每个权重增加或减少的程度。 较大的学习速率会使每个权重的增减幅度超过 学习速率很小。

用微积分学的术语来说,反向传播算法实现的是 链式法则。 也就是说,反向传播算法会计算 误差的偏导数 每个参数的延迟时间。

几年前,机器学习从业者必须编写代码来实现反向传播算法。 现在,TensorFlow 等现代机器学习 API 可以为您实现反向传播算法了。哎呀!

Bagging

#df

一种训练集成学习的方法,其中每个 本体模型对随机选择的训练子集进行训练, 示例通过替换采样。 例如,随机森林是一组 决策树

“bagging”一词是 bootstrap aggregat 的缩写。

词袋

#language

短语或段落中的字词的表示形式; 而与顺序无关。例如,词袋表示 以下三个短语:

  • 狗跳跃
  • 跳狗
  • 小狗跳跃

每个字词都会映射到稀疏向量中的一个索引,其中 词汇表中的每个字词都有一个索引。例如: 短语“the dog jumps”会映射到一个非零特征向量 对应于字词 thedogjumps。非零值可以是以下任意值:

  • 1 表示某个字词的存在。
  • 某个字词在词袋中出现的次数。例如: 假设词组是“the maroon dog is a dog with maroon fur”,那么 maroondog 将表示为 2,而其他字词 表示为 1。
  • 一些其他值,例如 词包中出现的次数。

baseline

用作参考点的模型, (通常是更复杂的模型)表现如何。例如, 逻辑回归模型 深度模型的理想基准。

对于某个特定问题,基准可以帮助模型开发者量化 新模型必须达到的最低预期性能, 模型非常有用。

批处理

#fundamentals

一次训练中使用的一组样本 迭代批次大小决定了 。

请参阅周期,了解批次与 一个周期。

批量推理

#TensorFlow
#GoogleCloud

对多个数据集推断预测的过程 无标签样本,拆分为更小的 子集(“批量”)。

批量推理可以利用 加速器芯片。也就是说, 可以同时对不同批次的无标签数据 极大地增加了每秒的推理次数。

批次归一化

归一化 隐藏层。批量归一化可以 具有以下优势:

批次大小

#fundamentals

一个批次中的样本数量。 例如,如果批次大小为 100,则模型会处理 每次迭代 100 个样本。

下面是常用的批量大小策略:

  • 随机梯度下降法 (SGD),其中批次大小为 1。
  • 全批量,其中批次大小是整个样本中的样本数 训练集。例如,如果训练集 包含 100 万个样本,那么批次大小将为 100 万 示例。全批量策略通常是一种低效的策略。
  • 小批次,其中批次大小通常介于 10 和 1000。小批次策略通常是最有效的策略。

贝叶斯神经网络

一个概率神经网络,负责解释 权重和输出的不确定性。标准神经网络 回归模型通常会预测标量值; 例如,一个标准模型 85.3 万。相比之下,贝叶斯神经网络可预测 值;例如,一个贝叶斯模型预测房价为 85.3 万, 标准偏差为 67,200。

贝叶斯神经网络依赖于 <ph type="x-smartling-placeholder"></ph> 贝叶斯定理 计算权重和预测的不确定性。贝叶斯神经 网络在量化不确定性时非常有用, 与药物相关。贝叶斯神经网络也可以 防止出现过拟合

贝叶斯优化

概率回归模型 优化计算开销大的 通过优化代理来实现目标函数 使用贝叶斯学习技术量化不确定性。开始时间 贝叶斯优化本身成本很高, 评估开销非常大的任务(具有少量参数,如 选择超参数

贝尔曼方程

#rl

在强化学习中, Q 函数

\[Q(s, a) = r(s, a) + \gamma \mathbb{E}_{s'|s,a} \max_{a'} Q(s', a')\]

强化学习算法将这一点应用于训练 身份,通过以下更新规则创建 Q-learning

\[Q(s,a) \gets Q(s,a) + \alpha \left[r(s,a) + \gamma \displaystyle\max_{\substack{a_1}} Q(s',a') - Q(s,a) \right] \]

除了强化学习之外,贝尔曼方程还可应用于 动态规划。请参阅 <ph type="x-smartling-placeholder"></ph> 关于贝尔曼方程的维基百科条目

BERT(双向编码器) 基于 Transformer 的表示法)

#language

文本表示的模型架构。一个训练有素的 BERT 模型可以充当大型文本分类模型的一部分, 其他机器学习任务。

BERT 具有以下特征:

BERT 的变体包括:

  • ALBERT、 是 ALight BERT 的首字母缩写。
  • LaBSE

请参阅开源 BERT:先进的自然语言预训练 数据处理 简要了解 BERT。

偏见(道德/公平性)

#fairness
#fundamentals

1. 对某些事物、人或事物有成见、偏见或偏爱 或群组的效果这些偏差会影响收集和 数据的解释、系统设计以及用户如何互动 与系统集成。此类偏差的形式包括:

2. 抽样或报告过程中引入的系统错误。 此类偏差的形式包括:

请勿与机器学习模型中的偏差项混淆。预测偏差

偏差(数学)或偏差项

#fundamentals

相对于原点的截距或偏移。偏差是 机器学习模型,由两个模型中的 以下:

  • b
  • w0

例如,在下面的公式中,偏差为 b:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

在简单的二维直线中,偏差仅表示“y 截距”。 例如,下图中线条的偏差为 2。

斜率为 0.5,偏差(y 截距)为 2 的曲线图。

存在偏差是因为并非所有模型都从原点 (0,0) 开始。例如: 假设一个游乐园的门票价格为 2 欧元, 客户入住每小时 0.5 欧元。因此,映射 总费用偏差为 2,因为最低成本为 2 欧元。

请勿将偏见与道德和公平性方面的偏见相混淆 或预测偏差

双向

#language

一个术语,用于描述系统评估前面的文本 跟随文本的目标部分。相比之下, 仅限单向系统 用于评估文本的目标部分之前的文本。

以一个掩码语言模型为例,该模型 必须判断字词中表示下划线的 以下问题:

和你一起的_____是什么?

单向语言模型只能基于其概率 根据“内容”“是”和“此”字词提供的上下文进行微调。相比之下, 双向语言模型也可以和“您” 这可能有助于模型生成更好的预测。

双向语言模型

#language

一种语言模型,用于确定 给定词元是否出现在给定位置的文本摘录中, 文本。

二元语法

#seq
#language

一种 N 元语法,其中 N=2。

二元分类

#fundamentals

一种分类任务, 用于预测两个互斥类别之一:

例如,以下两个机器学习模型各自执行了 二元分类:

  • 一个模型,用于确定电子邮件是否 spam(正类别)或 非垃圾邮件(负类别)。
  • 一种评估医疗症状以确定是否 患有某种特定疾病(正类别)或没有该疾病 疾病(负类别)。

多类别分类相对。

另请参阅逻辑回归 分类阈值

二元条件

#df

决策树中,条件 可能的结果有两种,通常为。 例如,以下是二元条件:

temperature >= 100

非二元条件相对。

分箱

分桶的含义相同。

BLEU(双语评估研究)

#language

介于 0.0 和 1.0(含)之间的分数,表示翻译的质量 两种人类语言之间的差异。BLEU 1.0 分表示完美的翻译;BLEU 得分为 0.0,表示 太糟糕了

增强学习

一种以迭代方式将一组简单和 将不太准确的分类器(称为“弱”分类器)转换为 高准确率分类器(即“强”分类器), 上调模型当前 分类错误。

边界框

#image

在图像中,(x, y) 坐标系一个围绕x 例如下图中的狗。

一只狗坐在沙发上的照片。绿色边界框
          左上角坐标为 (275, 1271),右下角坐标为
          (2954, 2761) 的坐标,环绕狗的身体

广播

将矩阵数学运算中运算数的形状扩展为 维度。例如: 线性代数要求矩阵加法运算中的两个运算数 必须具有相同的尺寸因此,您不能添加形状为 (m, n) 映射到长度为 n 的向量。广播功能通过以下方式实现这一操作: 通过虚拟方式将长度为 n 的向量扩展为形状为 (m, n) 的矩阵 在每一列中复制相同的值。

例如,给定以下定义,线性代数禁止 A+B,因为 A 和 B 的维度不同:

A = [[7, 10, 4],
     [13, 5, 9]]
B = [2]

不过,广播会将 B 扩展为以下运算,从而实现 A+B 运算:

 [[2, 2, 2],
  [2, 2, 2]]

因此,A+B 现在是一个有效运算:

[[7, 10, 4],  +  [[2, 2, 2],  =  [[ 9, 12, 6],
 [13, 5, 9]]      [2, 2, 2]]      [15, 7, 11]]

请参阅 NumPy 中的广播

分桶

#fundamentals

将单个特征转换为多个二进制特征 称为“buckets”或“bins”, 通常基于值范围。裁剪地图项通常为 连续特征

例如,不要将体温 连续浮点特征,您可以切断温度范围 离散分区,例如:

  • 小于等于 10 摄氏度就属于“冷”温度存储桶。
  • 11 - 24 摄氏度就是“温带”存储桶。
  • >= 25 摄氏度就属于“温暖”温度存储桶。

模型将以相同方式处理同一分桶中的每个值。对于 例如,值 1322 都位于温带分区中,因此 模型会以相同的方式处理这两个值。

C

校准层

一种预测后调整,通常是为了 预测偏差。调整后的预测结果和 概率应与观察到的标签集的分布一致。

候选集生成

#recsystems

由 AI 生成的一组初始推荐 推荐系统。例如,假设 销售 10 万册图书的书店。候选集生成阶段 列出很小的适合特定用户的图书,比如 500 本。但即使 推荐给用户的 500 本图书实在太多了。随后价格更高 推荐系统的各个阶段(例如评分重新排名)将这 500 名减少到更小, 更实用的建议。

候选采样

一种训练时优化,用于计算所有 肯定标签,例如使用 softmax,但仅适用于 负例标签样本。例如,假设某个标签为 beagledog,候选采样会计算预测的概率 以及对应的损失术语,

  • 小猎犬
  • 其余负类别的随机子集(例如 catlollipopfence)。

其理念是, 负类别 只要达到目标, 正类别始终会得到适当的正类别 这确实是实验观察到的。

与训练算法相比,候选采样的计算效率更高 计算所有负类别的预测,尤其是在 负类别的数量是非常大的。

分类数据

#fundamentals

特征,具有一组特定的可能值。例如: 假设有一个名为 traffic-light-state 的分类特征, 具有以下三种可能的值之一:

  • red
  • yellow
  • green

通过将 traffic-light-state 表示为分类特征, 模型可以学习 redgreenyellow 对驱动程序行为的不同影响。

分类特征有时也称为 离散特征

数值数据相对。

因果语言模型

#language

单向语言模型的含义相同。

请参阅双向语言模型 比较语言建模中不同的方向性方法。

形心

#clustering

聚类的中心,由 k-meansk-median 算法。例如,如果 k 为 3, 则 k-means 或 k-median 算法会找出 3 个形心。

形心聚类

#clustering

一类聚类算法,用于整理数据 非分层聚类。k-means 使用基于形心的聚类算法。

层次聚类 算法。

思维链提示

#language
#generativeAI

一种提示工程技术,鼓励 一个大语言模型 (LLM) 来解释 一步一步地进行推理。例如,请考虑以下提示: 特别要注意第二句话:

在 0 到 60 的范围内,驾驶员在汽车上体验到的重力是多少 能达到每小时多少英里?在答案中显示所有相关计算。

LLM 的回答可能是:

  • 插入值 0、60 和 7,显示一系列物理公式 放置在适当的位置。
  • 解释为什么选择这些公式以及各种变量的含义。

思维链提示迫使 LLM 执行所有计算, 这可能会得到更正确的答案。此外,思维链 让用户能够检查 LLM 的步骤,以确定 或者答案是否合理。

聊天

#language
#generativeAI

与机器学习系统(通常是 大语言模型。 上一次聊天互动 (您输入的内容以及大语言模型的响应方式)会变成 为聊天的后续部分提供上下文。

chatbot是大型语言模型的应用。

检查点

一种数据,可在特定位置捕获模型参数的状态 特定的训练迭代。检查点可用于导出模型 权重,或对多个对象执行训练 多个会话。关卡分流 还可以让训练在出错后继续(例如作业抢占)。

微调时, 训练模型将是 预训练模型的检查点。

类别

#fundamentals

标签可以所属的类别。 例如:

  • 二元分类模型中, 垃圾邮件,这两类分别可能是垃圾邮件非垃圾邮件
  • 多类别分类模型中 可识别狗的品种,对应的类可能是贵宾犬小猎犬哈巴狗, 依此类推。

分类模型可预测类别。 相比之下,回归模型可预测出 而不是类。

分类模型

#fundamentals

一种模型,其预测结果是一个类别。 例如,以下都是分类模型:

  • 一个用于预测输入句子语言(法语?西班牙语? 意大利语?)。
  • 一个用于预测树种的模型(枫树?橡树?猴面包树?)。
  • 一种预测特定特征的正类别或负类别的模型 身体状况。

相比之下,回归模型则可预测数字, 而不是类。

两种常见的分类模型是:

分类阈值

#fundamentals

二元分类中, 将一个 0 到 1 之间的数字转换为 逻辑回归模型正类别预测 或负类别。 请注意,分类阈值是人类选择的值, 而不是模型训练选择的值。

逻辑回归模型会输出一个介于 0 到 1 之间的原始值。然后,执行以下操作:

  • 如果此原始值大于分类阈值,则 正类别被预测为正类别。
  • 如果此原始值小于分类阈值,则: 预测负类别。

例如,假设分类阈值为 0.8。如果原始值 为 0.9,则模型会预测为正类别。如果原始值为 0.7,则模型会预测负类别。

分类阈值的选择对 假正例假负例

分类不平衡的数据集

#fundamentals

分类问题的数据集,其中 每个类别的标签数量存在显著差异。 以一个二元分类数据集为例,该数据集包含两个标签 分为以下几类:

  • 100 万个排除标签
  • 10 个肯定标签

负例和正例标签的比率为 100,000:1,因此 属于分类不平衡的数据集。

相比之下,下面的数据集没有分类不平衡,因为 负例标签的比率相对接近于 1:

  • 517 个排除标签
  • 483 个肯定标签

多类别数据集也有可能是类别不平衡的。例如,以下 多类别分类数据集也有类别不平衡,这是因为一个标签 的样本数量远远多于另外两个:

  • 100 万个类别为“green”的标签
  • 200 个类别为“purple”的标签
  • 350 个类别为“orange”的标签

另请参阅大多数类别、 和少数类

裁剪

#fundamentals

一种通过执行下列方法处理离群值的方法: 以下两项或其中一项:

  • 减少大于最大值的 feature 值 降低到该最大阈值
  • 增加小于最小阈值的特征值,直至达到该值 最低阈值。

例如,假设特定特征的值小于 0.5% 不在 40–60 之间。在这种情况下,您可以执行以下操作:

  • 将超过 60(最大阈值)的所有值裁剪到正好 60。
  • 将小于 40(最小阈值)的所有值裁剪到正好 40。

离群值可能会损害模型,有时会导致权重 在训练期间溢出。一些离群值也会严重破坏 准确率等指标。裁剪是限制

渐变裁剪梯度值。

Cloud TPU

#TensorFlow
#GoogleCloud

专门用于加速机器的硬件加速器 Google Cloud 上的学习工作负载。

聚类

#clustering

对相关样本进行分组,尤其是 非监督式学习。所有 对样本进行分组,用户可以选择性地为每个聚类赋予意义。

聚类算法有很多。例如,k-means 算法会根据样本与样本之间的距离 形心,如下图所示:

一个二维图表,其中 x 轴标有树宽,
          y 轴标有树高。该图包含两个
          形心和数十个数据点。数据点
          根据它们的远近进行分类。也就是说,
          离单个形心最近的一个则被归类为聚类 1,而那些
          离另一形心最近的被归类为聚类 2。

然后,人类研究人员就可以查看这些聚类,例如 将聚类 1 标记为“矮树”将聚类 2 视为“全尺寸树”。

再举一个例子,假设聚类算法基于 示例距离中心点的距离,如下所示:

数十个数据点排列在同心圆上,几乎
          就像飞镖盘中心周围的小孔一样最内层的圆环
          的数据点被归类为聚类 1,即中间环
          被归类为聚类 2,而最外层的环
          集群 3.

协同适应

神经元通过依赖代码预测训练数据中的模式时, 几乎完全依赖于其他特定神经元的输出, 整个网络的行为。当导致协同适应的模式 则协同适应会导致过拟合。 Dropout 正规化可减少协同自适应 因为丢弃可确保神经元不能仅依赖于特定的其他神经元。

协同过滤

#recsystems

根据某位用户的兴趣进行预测 而根据许多其他用户的兴趣来展示广告协同过滤 通常用在推荐系统中。

概念偏移

特征与标签之间的关系发生转变。 随着时间的推移,概念偏移会降低模型的质量。

在训练期间,模型会学习特征与 它们在训练集中的标签数。如果训练集中的标签为 现实世界的理想代理,那么模型应该 真实世界预测。然而,由于概念偏移,模型的 往往会随着时间的推移而降低。

例如,假设有一种二元分类 用于预测特定车型是否“节能”的模型。 也就是说,特征可以是:

  • 汽车重量
  • 引擎压缩
  • 传输类型

而标签为:

  • 最省油
  • 不省油

不过,“节能汽车”的概念保留 变化。1994 年标有“燃油效率”的车型几乎可以肯定地说, 出现概念偏移的模型 随着时间的推移,预测的有用程度会越来越低。

不平稳进行比较和对比。

condition

#df

决策树中,任何符合以下条件的节点: 对表达式求值。例如, 决策树包含两个条件:

由两个条件组成的决策树:(x > 0) 和
          (y > 0)。

条件也称为拆分或测试。

使用 leaf 对比条件。

另请参阅:

谈话

#language

光照的含义相同。

从技术上来说,“幻想”可能比“幻觉”更为准确。 然而,幻觉最初流行起来。

配置

分配用于训练模型的初始属性值的过程, 包括:

在机器学习项目中,可以通过特殊的 配置文件或使用配置库,例如:

确认偏差

#fairness

在企业搜索、解读、支持和回想信息的倾向 确认人们已有的信念或假设的方式。 机器学习开发者可能会在无意中收集或标记 以影响能够支持现有成果的 信念。确认偏差是一种隐性偏差

实验者偏差是一种确认偏差, 实验者会不断地训练模型, 假设成立。

混淆矩阵

#fundamentals

NxN 表格,汇总了正确和错误预测的数量 分类模型所生成的图片。 以下面的混淆矩阵为例, 二元分类模型:

肿瘤(预测) 非肿瘤(预测)
肿瘤(标准答案) 18 (TP) 1(FN)
非肿瘤(标准答案) 6 (FP) 452(田纳西州)

上述混淆矩阵显示以下内容:

  • 标准答案为“肿瘤”的 19 个预测中, 模型正确分类为 18,而错误分类为 1。
  • 在 458 个预测(标准答案为非肿瘤)中,模型 正确分类的 452 和错误分类的 6。

多类别分类的混淆矩阵 有助于你发现错误模式 例如,请考虑以下关于 3 个类别的混淆矩阵, 对三种不同的鸢尾花类型进行分类的多类别分类模型 (维吉尼亚鸢尾、变色龙和山鸢尾)。当标准答案是维珍妮卡时, 混淆矩阵的概率更高, 我预测 Versicolor 与 Setosa 相比:

  山鸢尾(预测) 变色(预测) 维吉尼卡(预测)
山鸢尾(标准答案) 88 12 0
变色(标准答案) 6 141 7
维吉尼卡(标准答案) 2 27 109

再举一个例子,混淆矩阵可以揭示经过训练的模型 识别手写数字时,往往会将 4 错误地预测为 9, 或者错误地预测了 1 而非 7。

混淆矩阵包含计算 各种效果指标,包括精确率召回率

选区解析

#language

将句子拆分为较小的语法结构(“组成部分”)。 机器学习系统的后期部分,例如 自然语言理解模型, 比原始句子更容易解析这些成分。例如: 请考虑以下句子:

我的朋友领养了两只猫。

选区解析器可以将这个句子分成以下语句 两个组成部分:

  • 我的朋友是一个名词短语。
  • adopted two cats 是一个动词短语。

这些组成部分还可以进一步细分为更小的组成部分。 例如,动词短语

领养了两只猫

可进一步细分为:

  • adopted 是一个动词。
  • two cats 是另一个名词短语。

上下文化语言嵌入

#language
#generativeAI

接近“理解”的嵌入字词 和短语。语境 嵌入可以理解复杂的语法、语义和上下文。

以英语单词 cow 为例,较早的嵌入 例如 word2vec 可以表示英语 使嵌入空间中的距离 从母羊公牛的距离相当于从母羊母羊ram(公羊)或从 femalemale。语境 嵌入可以更进一步, 认识到讲英语的人 随意使用“cow”一词表示 cow 或 bull。

上下文窗口

#language
#generativeAI

一个模型可以在给定给定实例中处理的词元数量 提示。上下文窗口越大,信息越丰富 模型可用于提供连贯且一致的回答 。

连续特征

#fundamentals

一种浮点特征,可能具有无限可能性 例如温度或重量。

离散特征相对。

便利抽样

使用未以科学方式收集的数据集,以便快速运行 实验。但以后,请务必改用科学收集到的 数据集。

收敛

#fundamentals

loss 值变化很小或 而不是每次迭代。例如,以下 损失曲线表明大约 700 次迭代会收敛:

笛卡尔图。X 轴表示损失。Y 轴代表训练时间
          迭代。在前几次迭代期间,损失非常高,
          急剧下降。经过大约 100 次迭代后,损失仍然
          但要慢得多。经过大约 700 次迭代后
          损失保持不变。

如果后续无法训练,则模型会收敛 改进模型。

深度学习中,损失值有时会保持不变或 在最终降序排列之前,在较长时间内 则您可能会暂时产生一种收敛的假象。

另请参阅早停法

凸函数

一个函数,该函数图形上方的区域是 凸集。典型凸函数 形状类似于字母 U。例如,以下 都是凸函数:

U 形曲线,每条曲线上都有一个最低点。

相反,以下函数不是凸函数。请注意 图表上方的区域不是凸集:

具有两个不同局部最低点的 W 形曲线。

严格凸函数只有一个局部最低点, 也是全局最低点。经典的 U 形函数 严格凸函数。不过,有些凸函数 (例如,直线)不是 U 形的。

凸优化

使用诸如 梯度下降法 凸函数的最小值。 机器学习方面的大量研究都集中于如何编写各种 并将其转换为凸优化问题, 。

有关完整详情,请参见 Boyd 和 Vandenberghe。 凸面 优化

凸集

欧几里得空间的子集,在中心点中任意两点之间绘制的线 仍然完全位于该子集内。例如,以下两个 形状为凸集:

一张矩形插图。又是一张椭圆形的插图。

相反,以下两个形状不是凸集:

一张插图,显示缺少切片的饼图。
          另一个插图展示了非常不规则的多边形。

卷积

#image

简单来说,在数学中,是两个函数的组合。在机器中 卷积可将卷积和 过滤器和输入矩阵 以便训练权重

术语“卷积”通常是一种简单的方法, 指的是卷积运算卷积层

如果没有卷积,机器学习算法就不得不 为大张量中的每个单元格分配一个单独的权重。例如: 基于 2K x 2K 图像的机器学习算法被迫 找到 400 万个单独的权重。多亏了卷积, 算法只需要找到每个单元 卷积过滤器,可显著减少 训练模型所需的内存。卷积过滤器 只需将其复制到单元格中,每个单元格都会相乘 。

卷积过滤器

#image

某电影中的两位演员之一 卷积运算。(另一个演员 是输入矩阵的一个切片。)卷积过滤器是一个矩阵, 与输入矩阵相同的,但形状较小。 例如,假设有一个 28x28 的输入矩阵,则过滤器可以是任何 2D 矩阵 小于 28x28 的广告素材。

在摄影操作中,卷积过滤器中的所有细胞 通常设置为 1 和 0 的恒定模式。在机器学习中, 卷积过滤器通常会以随机数字进行种子, 网络训练理想值。

卷积层

#image

深度神经网络的一个层, 卷积过滤器传递输入 模型。以下面的 3x3 广告为例, 卷积过滤器

一个 3x3 矩阵,其值如下:[[0,1,0], [1,0,1], [0,1,0]]

以下动画显示了一个由 9 个 涉及 5x5 输入矩阵的卷积运算。请注意,每个 卷积运算处理输入矩阵的不同 3x3 切片。 生成的 3x3 矩阵(右侧)包含 9 卷积运算:

动画演示:两个矩阵。第一个矩阵是 5x5
          矩阵:[[128,97,53,201,198], [35,22,25,200,195],
          [37,24,28,197,182], [33,28,92,195,179], [31,40,100,192,177]]。
          第二个矩阵是 3x3 矩阵:
          [[181,303,618]、[115,338,605]、[169,351,560]]。
          第二个矩阵的计算方法是将卷积
          过滤出 [[0, 1, 0], [1, 0, 1], [0, 1, 0]]
          5x5 矩阵的不同 3x3 子集。

卷积神经网络

#image

一种神经网络,其中至少有一个层是 卷积层。典型的卷积 神经网络包含以下层的某种组合:

卷积神经网络在某些方面取得了巨大成功 例如图像识别。

卷积运算

#image

以下两步式数学运算:

  1. 卷积过滤器和 输入矩阵。(输入矩阵切片具有相同的秩, 作为卷积过滤器的大小。)
  2. 对所得乘积矩阵中所有值求和。

以下面的 5x5 输入矩阵为例:

5x5 矩阵:[[128,97,53,201,198], [35,22,25,200,195],
          [37,24,28,197,182], [33,28,92,195,179], [31,40,100,192,177]]。

现在假设有以下 2x2 卷积过滤器:

2x2 矩阵:[[1, 0], [0, 1]]

每个卷积运算都涉及一个 2x2 的 输入矩阵。例如,假设我们在 即输入矩阵的左上角。卷积运算 该 Slice 将如下所示:

在左上角应用卷积过滤器 [[1, 0], [0, 1]]
          输入矩阵的 2x2 部分,即 [[128,97], [35,22]]。
          卷积过滤器将使 128 和 22 保持不变,但保留 0
          97 和 35因此,卷积运算产生
          值 150 (128+22)。

卷积层由 一系列卷积运算,每个运算针对不同的切片 输入矩阵的特征。

费用

损失的含义相同。

联合训练

半监督式学习方法 在满足以下所有条件时尤其有用:

协同训练本质上是将独立信号放大为更强的信号。 例如,假设有一个分类模型, 将各个二手车归类为“良好”或“差”。其中一组 预测特征可能侧重于汇总特征,例如年份、 汽车的品牌和型号;另一组预测功能可能只关注 前所有者的驾驶记录和汽车的保养记录

关于联合训练的开创性论文是将已加标签的数据和未加标签的数据与 Co-Training Blum 和 Mitchell。

反事实公平性

#fairness

一种公平性指标,用于检查分类器是否 对一个人产生的结果与对另一个人产生的结果相同 除了上述一个或多个 敏感属性。评估分类器 反事实公平性是揭示潜在来源的 偏差。

请参阅 “当世界碰撞:整合不同的反事实”(When Worlds Collide) “公平性假设”一文,详细讨论了反事实 公平性。

覆盖偏差

#fairness

请参阅选择偏差

崩溃花

#language

含义不明确的句子或短语。 崩溃花是大自然界的重大问题 语言理解。 例如,标题“Red Tape Holds Up Skyscraper”是个 因为 NLU 模型可以逐字解读标题, 比喻。

评论员

#rl

深度 Q 网络的含义相同。

交叉熵

对数损失函数泛化到 多类别分类问题。交叉熵 量化了两个概率分布之间的差异。另请参阅 困惑度

交叉验证

一种机制,用于估算模型泛化效果的好坏 通过针对一个或多个不重叠的数据子集测试模型来创建新数据 训练集中未包含的个别样本。

累积分布函数 (CDF)

用于定义小于或等于 目标值。例如,假设连续值的正态分布。 CDF 表示约 50% 的样本应小于或等于 并且大约 84% 的样本应小于或等于 调整为比平均值高一个标准差。

D

数据分析

通过考虑样本、测量结果和 和可视化。数据分析在以下情况中会特别有用: 在构建第一个模型之前,先收到数据集。 在理解实验和调试问题时, 系统。

数据增强

#image

人为地提升 training 示例 将现有的 示例来创建更多示例。例如: 假设图片是 特征,但您的数据集没有 包含足够的图片样本,供模型学习有用的关联。 理想情况下 将标签的图片复制到您的数据集中, 确保模型正确训练。如果做不到这一点,数据增强 可以旋转、拉伸和反射每张图像, 这样可能会获得足够的加标签数据, 训练。

DataFrame

#fundamentals

一种热门的 Pandas 数据类型,用于表示 内存中的数据集

DataFrame 类似于表格或电子表格。数据中的每一列 DataFrame 有一个名称(标题),每一行都由一个 唯一编号。

DataFrame 中的每一列都采用类似于二维数组的结构,只是 您可以为每个列分配自己的数据类型。

另请参阅官方 pandas.DataFrame 参考 页面

数据并行处理

一种扩展训练推理的方法 将整个模型复制到 然后将一部分输入数据传递给每个设备。 数据并行处理可以 batch size;但数据并行处理要求 足够小,可以适应所有设备。

数据并行处理通常可以加快训练和推理的速度。

另请参阅模型并行处理

数据集或数据集

#fundamentals

原始数据的集合,通常(但并非专门)整理到一个 以下格式:

  • 电子表格
  • CSV(逗号分隔值)格式的文件

Dataset API (tf.data)

#TensorFlow

一种高阶 TensorFlow API,用于读取数据和 并将其转换为机器学习算法所需的形式。 tf.data.Dataset 对象表示一系列元素,其中 每个元素都包含一个或多个张量tf.data.Iterator 对象提供对 Dataset 元素的访问权限。

如需详细了解 Dataset API,请参阅 tf.data:构建 TensorFlow 输入流水线 (请参阅 TensorFlow 编程人员指南)。

决策边界

两者之间的分隔符 model 示例 二元类多类别分类问题。例如: 下面的图片中表示了一个二元分类问题, 决策边界是橙色类别和 蓝类:

两个类别之间明确定义的边界。

决策森林

#df

根据多个决策树创建的模型。 决策森林通过汇总以下各个方面的预测结果来进行预测 其决策树。常见的决策森林类型包括 随机森林梯度提升树

判定阈值

分类阈值的含义相同。

决策树

#df

一种监督式学习模型, conditionsleave 以分层方式组织。 例如,下面是一个决策树:

由四个条件组成的决策树
          层次结构,这可能导致五片叶子。

解码器

#language

一般来说,任何从经过处理的、密集的或 转换为更原始、稀疏或对外的表示法。

解码器通常是较大模型的一个组件, 与编码器配对。

序列到序列任务中,解码器 从编码器生成的内部状态开始, 序列。

如需了解解码器位于何处,请参阅 Transformer Transformer 架构。

深度模型

#fundamentals

包含多个神经网络的神经网络 隐藏层

深度模型也称为“深度神经网络”。

宽度模型相对。

一种非常流行的深度神经网络

深度模型的含义相同。

深度 Q 网络 (DQN)

#rl

Q-learning 中,深度神经网络 用于预测 Q 函数的模型。

评价是深度 Q-网络 (Deep Q-Network) 的同义词。

受众特征对等

#fairness

在以下情况下得到满足的公平性指标: 模型的分类结果不依赖于 指定的敏感属性

例如,如果“小人国”和“小人国”都适用于 格卢布达卜杜比大学,如果 允许小人国居民和小行星人的比例是一样的 无论某个群体是否平均而言更合格

均衡几率机会平等原则,它让 汇总的结果取决于敏感属性, 但不允许对某些指定的 依赖于敏感属性的标准答案标签。请参阅 “攻击 更加智能。” 在针对受众特征对等进行优化时权衡利弊。

去噪

#language

一种常见的自我监督式学习方法 其中:

  1. 噪声是人为添加到数据集中的一种方式。
  2. 模型会尝试移除噪声。

通过去噪功能,可以从无标签样本中学习。 原始数据集用作目标或 label 和 将噪声数据作为输入。

一些遮盖语言模型会使用去噪功能 如下所示:

  1. 通过遮盖部分句子,人为地向无标签句子添加噪声。 词元。
  2. 模型会尝试预测原始词元。

密集特征

#fundamentals

一种特征,其中大部分或所有值都是非零值,通常 浮点值的张量。例如,以下 10 元素张量是密集的,因为它的 9 个值是非零值:

8 3 7 5 2 4 0 4 9 6

稀疏特征相对。

密集层

全连接层的含义相同。

深度

#fundamentals

神经网络中的以下各项的总和:

例如,具有五个隐藏层和一个输出层的神经网络 深度为 6。

请注意,输入层 影响深度。

深度可分离卷积神经网络 (sepCNN)

#image

卷积神经网络 架构 《盗梦空间》、 但将 Inception 模块替换为深度可分离 卷积。也称为 Xception。

深度可分离卷积(也称为“可分离卷积”) 将标准 3D 卷积分解成两个单独的卷积运算 计算效率更高:首先是深度卷积, 深度为 1 (n iPhone n 倍 1),然后是逐点卷积, ,同时长度和宽度均为 1 (1 倍 1 倍 n)。

如需了解详情,请参阅 Xception:使用深度分离的深度学习 卷积

派生标签

代理标签的含义相同。

设备

#TensorFlow
#GoogleCloud

一个多含义术语,有以下两个可能的定义:

  1. 一类可运行 TensorFlow 会话的硬件,包括 CPU、GPU 和 TPU
  2. 加速器芯片上训练机器学习模型时 (GPU 或 TPU),实际上负责 张量嵌入。 设备在加速器芯片上运行。相反,主机 通常在 CPU 上运行

差分隐私

在机器学习中,采用匿名化方法保护任何敏感数据 (例如个人的个人信息) 训练集。这种方法可以确保 模型不能学习或记住太多关于特定主题的 。这是通过在模型期间采样并添加噪声来实现 通过训练来遮盖个别数据点,从而降低泄露风险 敏感训练数据。

差分隐私也用于机器学习之外。例如: 数据科学家有时会使用差分隐私来保护 计算不同受众特征的产品使用情况统计信息时的隐私权。

降维

减少用于表示特定特征的维度数量 通常由 转换为嵌入向量

尺寸

一个多含义术语,具有以下任意定义:

  • 张量中的坐标级别数量。例如:

    • 标量的维度为零例如 ["Hello"]
    • 向量有一个维度;例如 [3, 5, 7, 11]
    • 矩阵有两个维度:例如 [[2, 4, 18], [5, 7, 14]]

    您可以唯一指定一维矢量中的特定单元格 ;您需要用两个坐标来唯一地指定一个 二维矩阵中的特定单元格。

  • 特征向量中的条目数量。

  • 嵌入层中的元素数量。

直接提示

#language
#generativeAI

零样本提示的含义相同。

离散特征

#fundamentals

一种特征,包含有限个可能值。例如: 值只能是动物蔬菜矿物的特征是 离散(或分类)特征。

连续特征相对。

判别模型

一种模型,可基于一组标签预测标签或 更多功能。更正式地说,判别模型定义了 输出条件概率, weights;即:

p(output | features, weights)

例如,一个通过特征预测电子邮件是否为垃圾邮件的模型 而权重是一种判别模型。

绝大多数监督式学习模型,包括分类 和回归模型都是判别模型。

生成模型相对。

判别器

一种系统,用于确定样本是真实还是虚假。

或者,生成对抗模型中的子系统 网络决定着 生成器创建的样本是真实的还是虚构的。

不同的影响

#fairness

关于影响不同人群的决策 子群组。这通常是指 算法决策过程会带来负面影响或好处 某些子群组的数量要多于其他子群组。

例如,假设一种算法用于确定小人国的 微型房贷的资格条件 他们被标记为“不符合条件”包含特定的 邮政编码。如果大端小体动物更有可能具有 采用此邮政编码的邮寄地址比 那么此算法可能会产生截然不同的影响。

不同处理方式相对, 这种模型重点关注在子群体特征方面 是算法决策过程的显式输入。

不同处理

#fairness

对正文进行因式分解敏感属性 算法决策过程,以便不同的子群体 人受到不同的对待。

例如,假设有一个算法, 确定小人国的星球小额房贷的资格要求 他们在贷款申请中提供的数据。如果算法使用 作为输入 采取不同的对待。

截然不同的影响(侧重于效果)进行对比 算法决策对子群体的社会影响; 而不考虑这些子组是否为模型的输入。

蒸馏

#generativeAI

缩减一个模型(称为 教师)转换为一个较小的模型(称为学生),用于模拟 对原始模型的预测。蒸馏 小模型非常有用,因为相较于大模型, 模型(教师):

  • 缩短推理时间
  • 降低内存和能耗

然而,学生的预测通常不如 教师的预测。

蒸馏可以训练学生模型, 损失函数,基于输出之间的差异 学生和教师模型的预测。

使用以下术语比较和对比蒸馏:

内容分发

给定函数中不同值的频率和范围 featurelabel。 分布图捕获特定值的可能性。

下图显示了两种不同分布的直方图:

  • 左侧是财富与人数之间的幂律分配关系 让自己拥有这些财富。
  • 右侧是身高与人数的正态分布 达到这个高度

两个直方图。一个直方图显示了幂定律的分布情况
          x 轴表示财富,以及拥有该财富的人数
          Y 轴。大多数人的财富非常少,只有少数人拥有
          大量财富。另一个直方图显示正态分布
          x 轴表示身高,以及达到该身高的人数
          一个 Y 轴上的大多数人都集中在某个接近平均水平的位置。

了解每个特征和标签的分布有助于确定 对值进行归一化并检测离群值

短语不分发是指未出现在 或者很少见。例如,土星的图片将是 这是指在由猫图片组成的数据集中被视为超出分布的概率。

分裂式层次聚类

#clustering

请参阅层次聚类

downsampling

#image

一个多含义术语,可以理解为下列任一含义:

  • 在下列示例中,减少一个特征中的信息量: 以便更高效地训练模型。例如: 在训练图像识别模型之前,对高分辨率图像进行下采样, 转换为较低的分辨率格式。
  • 针对极低比例的弱势群体开展培训 class 来改进针对代表性不足的类别的模型训练。 例如,在分类不平衡中, 数据集,模型往往会学习很多关于 majority class(多数类),但对 少数类。降采样有助于 均衡多数类别和少数类别的训练量。

DQN

#rl

深度 Q-网络 的缩写。

丢弃正则化

一种在训练中有用的正则化形式 神经网络。丢弃正则化 移除在广告网络中随机选择的固定数量的单元 用于单个梯度步长。退出的单元越多, 正则化。这类似于训练网络进行模拟 呈指数级大的小型网络的集成学习。 如需了解完整详情,请参阅 Dropout:一种防止神经网络混淆的简单方法 过拟合

动态

#fundamentals

频繁或不断地处理某件事。 术语“动态”和“在线”是机器学习中的同义词。 以下是动态在线在机器中的常见用法 正在学习:

  • 动态模型(或在线模型)是一种模型, 。
  • 动态训练(或在线训练)是训练 频繁或持续不断
  • 动态推理(即在线推理)是 根据需求生成预测。

动态模型

#fundamentals

一个模型经常出现(甚至可能会持续) 重新训练。动态模型是一个“终身学习者”那个 适应不断演变的数据。动态模型也称为 在线模型

静态模型相对。

E

即刻执行

#TensorFlow

一种 TensorFlow 编程环境,其中运算 立即运行。相比之下,在 图执行在得到明确指定之前不会运行, 。Eager Execution 命令式接口 就像大多数编程语言中的代码一样。即刻执行程序 通常比图执行程序更容易调试。

早停法

#fundamentals

一种正则化方法,它涉及 training 训练损失结束之前 下降。在早停法中,您有意停止训练模型, 当验证数据集的损失开始增加到 increase;也就是 泛化效果变差。

土地玩家的距离 (EMD)

衡量两个分布的相对相似性的度量。 土地玩家的距离越小,分布越相似。

修改距离

#language

用于衡量两个文本字符串彼此相似度的指标。 在机器学习中,修改距离非常有用, 以及一种有效的方法,用于比较两个已知已知 或用于查找与给定字符串相似的字符串。

修改距离有多种定义,每个定义使用不同的字符串 操作。例如, <ph type="x-smartling-placeholder"></ph> 列文什泰因距离 表示使用最少的删除、插入和替换操作。

例如,字词“heart”之间的列文什泰因距离和“飞镖” 是 3,因为以下 3 次修改是将一个字词转换成的最少更改 复制到另一个对象中:

  1. 心形 → deart(将“h”替换为“d”)
  2. deart → dart(删除“e”)
  3. dart → darts(插入“s”)

Einsum 表示法

一种有效的表示法,用于描述如何定义两个张量 总和。将一个张量的元素相乘即可合并这些张量 另一个张量的元素,然后对乘积求和。 Einsum 表示法使用符号标识每个张量的轴,以及那些 重新排列这些符号以指定新生成的张量的形状。

NumPy 提供常见的 Einsum 实现。

嵌入层

#language
#fundamentals

一种特殊的隐藏层,用于基于 高维分类特征来 逐渐学习低维度嵌入向量。一个 嵌入层让神经网络能够训练更多 这比只使用高维分类特征进行训练更高效。

例如,Google 地球目前支持约 73,000 种树种。假设 树种是模型中的特征,所以模型的 输入层包含一个独热矢量,即 73000 元素。 例如,baobab 的表示形式如下:

包含 73,000 个元素的数组。前 6,232 个元素包含
     0.下一个元素持有值 1。最后的 66,767 个元素
     值为零。

包含 73,000 个元素的数组非常长。如果没有添加嵌入层 训练将非常耗时, 72,999 个零相乘。也许您会选择嵌入层, 共 12 个维度因此,嵌入层会逐渐学习 每个树种的新嵌入向量。

在某些情况下,哈希处理是一种合理的替代方案 嵌入层。

嵌入空间

#language

d 维向量空间,具有更高维的特征, 矢量空间的映射关系。理想情况下,嵌入空间包含一个 可得出有意义的数学结果的结构;例如 在理想的嵌入空间中, 可以解决文字类比任务。

点积 用于衡量两个嵌入之间的相似度。

嵌入向量

#language

从广义上讲,取自任意变量的浮点数数组 隐藏层,用于描述该隐藏层的输入。 通常,嵌入矢量是 嵌入层。例如,假设嵌入层必须学习 嵌入向量。或许, 以下数组是猴面包树的嵌入向量:

由 12 个元素组成的数组,每个元素分别包含一个浮点数
          介于 0.0 和 1.0 之间。

嵌入矢量不是一堆随机数字。嵌入层 通过训练确定这些值,类似于 神经网络在训练过程中学习其他权重。每个 数组是有关树种某个特征的评分。哪个 代表哪种树种的特征?太难了

嵌入向量在数学上值得注意的部分是 项具有类似的浮点数集。例如,类似 与树种相比, 不同的树种。红杉和红杉是相关的树种 因此它们会有一组更相似的浮点数 红杉和椰子树。嵌入矢量中的数字 每次重新训练模型都会更改,即使重新训练模型也是如此 完全相同的输入。

经验累积分布函数(eCDF 或 EDF)

累积分布函数 根据来自真实数据集的经验测量结果进行预测。 函数在 x 轴上的任意点处 小于或等于指定值的数据集。

经验风险最小化 (ERM)

选择可将训练集的损失最小化的函数。对比度 采用结构风险最小化策略。

编码器

#language

一般来说,任何从原始、稀疏或外部 处理成经过处理、更密集或更内部的表示形式。

编码器通常是较大模型的一个组成部分, 与解码器配对。一些 Transformer 将编码器与解码器配对,尽管其他 Transformer 仅使用 也可以只训练解码器。

有些系统使用编码器的输出作为分类或 回归网络。

序列到序列任务中,编码器 接受输入序列并返回内部状态(向量)。然后, 解码器使用该内部状态来预测下一个序列。

如需了解编码器的定义,请参阅 Transformer Transformer 架构。

集成学习

独立训练的一系列模型,其预测结果 均经过平均值或汇总处理。在很多情况下,集成学习 预测效果要优于单个模型。例如, 随机森林是由 决策树。请注意,并非所有 决策森林是集成学习。

#df

在 <ph type="x-smartling-placeholder"></ph> 信息理论, 即概率的 。或者,熵也定义为 每个示例包含的信息。一个分布有 当一个随机变量的所有值都达到 概率均相同。

有两个可能的值为“0”的集合的熵和“1”(例如, 二元分类问题中的标签) 公式如下:

<ph type="x-smartling-placeholder"></ph> H = -p log p - q log q = -p log p - (1-p) * log (1-p)

其中:

  • H 是熵。
  • p 是“1”的比例示例。
  • q 是“0”的比例q示例。请注意,q = (1 - p)
  • log 通常为 log2。在此例中, 单位。

例如,假设情况如下:

  • 100 个示例包含值“1”
  • 300 个示例包含值“0”

因此,熵值为:

  • p = 0.25
  • Q = 0.75
  • H = (-0.25)log2(0.25) - (0.75)log2(0.75) = 每个样本 0.81 位

完全平衡的集合(例如,200 个“0”和 200 个“1”) 每个样本的熵为 1.0 位。随着一组不断 不平衡,则其熵趋近于 0.0。

决策树中,熵有助于公式化 信息获取,帮助 splitter 选择条件 在分类决策树生长过程中出现的概率。

将熵与以下各项进行比较:

熵通常称为香农熵。

环境

#rl

在强化学习中,包含相应代理的世界 并允许代理观察该世界的状态。例如: 呈现的世界可以是象棋这样的游戏,也可以是像棋类这样的现实世界 迷宫。当代理对环境应用操作时, 然后环境在状态之间转换。

分集

#rl

在强化学习中, agent,以了解环境

周期数

#fundamentals

对整个训练集的完整训练遍历 以便每个样本都处理一次。

一个周期表示 N/批次大小 训练迭代,其中 N 是 样本总数。

例如,假设存在以下情况:

  • 该数据集包含 1000 个样本。
  • 批次大小为 50 个样本。

因此,一个周期需要 20 次迭代:

1 epoch = (N/batch size) = (1,000 / 50) = 20 iterations

艾普西隆贪欲政策

#rl

在强化学习中,一种政策遵循 随机策略采用 Epsilon 概率或 贪心政策。例如,如果 Epsilon 值是 0.9,则该政策有 90% 的时间会遵循随机政策,贪心 政策 50%

在连续的剧集中,该算法会按顺序降低 Epsilon 值 从遵循随机政策转变为遵循贪心政策。修改者 转换政策,则代理首先随机探索环境,然后 然后贪心地利用随机探索的结果。

机会平等

#fairness

一项公平性指标,用于评估模型是否 预测出理想的结果, sensitive attribute(敏感属性)。换句话说,如果 正类别、 目标是使真正例率成为 所有群组都一样

机会平等与机会均等相关, 这要求同时真正例率和 所有组的假正例率都相同。

假设格鲁布杜布德布里普大学同时允许小人人和大人小孩 一个严谨的数学程序。小人国小人国中学提供 拥有充实的数学课程,而且绝大多数学生 符合大学课程的资格条件。Brobdingnagians 的中学不 提供数学课的学生也就少得多 有效。已满足首选标签 “已允许”如果 符合条件的学生入读录取的概率相同 它们是小人国或大布丁纳吉人。

例如,假设 100 个小人国人和 100 个小人国人 格卢布达布大学和招生决定如下:

表 1. 小人国申请者(90% 合格)

  符合资格 不合格
已获准 45 3
已拒绝 45 7
总计 90 10
成功录取的学生比例:45/90 = 50%
不符合条件的学生所占百分比:7/10 = 70%
被录取的小人国学生占总比例:(45+3)/100 = 48%

 

表 2. Brobdingnagian 申请者(10% 符合条件):

  符合资格 不合格
已获准 5 9
已拒绝 5 81
总计 10 90
成功录取的学生比例:5/10 = 50%
不符合条件的学生所占百分比:81/90 = 90%
被录取的布布丁纳吉学生所占百分比:(5+9)/100 = 14%

以上示例满足机会均等的接受原则, 因为符合条件的小人国人和大人人都是符合条件的学生 有 50% 的成功机会获得批准

在满足机会均等性的同时,以下两个公平性指标 :

  • 受众特征对等:小人国人口和 布兰德纳吉人以不同的费率报读大学; 48% 的小人国学生可以录取,但只有 14% 的 布洛布丁纳吉亚的学生可以入学。
  • equalized odds:虽然合格小人国 和布罗布丁纳吉亚的学生都有机会被录取 这与非合格小人国和 两个国家有同样的机会被拒绝, 满意。不合格的小人国的拒绝率为 70%,而 不合格的 Brobdingnagian 的拒绝率为 90%。

请参阅“等于 监督式学习中的机会”一文,对此进行更详细的讨论。 机会平等原则。另请参阅 “攻击 更加智能。” 在为确保机会平等而进行优化时需要权衡利弊。

均等几率

#fairness

用于评估模型预测结果是否同等的公平性指标 适用于具有如下政策的敏感属性的所有值: 正类别负类别 - 而不仅仅是一个类别 。换句话说,真正例率假负例率应该相同 所有群组。

均衡几率涉及 机会平等,该原则仅注重 一个类别(正例或负例)的错误率。

例如,假设格鲁布达比大学允许小人国民众和 进行严谨的数学程序。小人国小人国次级 学校提供充实的数学课程,绝大多数 符合入学资格的学生。Brobdingnagians 的次级 学校根本不提供数学课 其学生就符合条件了。如果 无论申请者是小人国还是大布丁纳吉人, 符合条件,则获批参与该计划的可能性相同, 如果不符合条件,则被拒的可能性同样高

假设 100 名小人人和 100 名大人小人为格鲁布达卜星申请 大学和录取决定如下:

表 3. 小人国申请者(90% 合格)

  符合资格 不合格
已获准 45 2
已拒绝 45 8
总计 90 10
成功录取的学生比例:45/90 = 50%
不符合条件的学生所占百分比:8/10 = 80%
被录取的小人国学生占总比例:(45+2)/100 = 47%

 

表 4. Brobdingnagian 申请者(10% 合格):

  符合资格 不合格
已获准 5 18
已拒绝 5 72
总计 10 90
成功录取的学生比例:5/10 = 50%
不符合条件的学生所占百分比:72/90 = 80%
被录入的布布丁纳吉学生占总比例:(5+18)/100 = 23%

因为合格小人国和布罗布丁纳吉人而满足了均衡几率 有 50% 的学生通过考试, 而 Brobdingnagian 有 80% 的概率会被拒绝

均衡几率在 “相等性 “监督式学习中的机会”一文中指出: 在 与受保护的属性 A 和结果 Y 相关联(如果 福利 和 结果 A 独立), 条件。"

Estimator

#TensorFlow

已弃用的 TensorFlow API。请改用 tf.keras 大量 Estimator。

评估版

衡量机器学习模型质量的流程 预测。在开发模型时,您通常需要 不仅在训练集上应用评估指标 还可以基于验证集测试集。您还可以使用评估指标来比较 相互连接。

示例

#fundamentals

一行 features 的值,可能 一个标签。中的示例 监督式学习可分为两类 常规类别:

  • 有标签样本由一个或多个特征组成 和标签。有标签样本会在训练期间使用。
  • 无标签样本包含一个或 但没有标签。推理期间会使用无标签样本。

例如,假设您正在训练模型来确定 天气状况对学生考试分数的影响。以下是三个有标签的示例:

功能 标签
温度 湿度 压力 测试分数
15 47 998 良好
19 34 1020 极佳
18 92 1012

下面是三个无标签样本:

温度 湿度 压力  
12 62 1014  
21 47 1017  
19 41 1021  

数据集所在的行通常是样本的原始来源。 也就是说,一个样本通常包含 数据集。此外,样本中的特征还可以 合成特征,例如 特征组合

体验重放

#rl

在强化学习中,DQN 技术用于 减少训练数据中的时间相关性。代理 将状态转换存储在重放缓冲区中,然后 从重放缓冲区中采样转换以创建训练数据。

实验者偏差

#fairness

请参阅确认偏差

爆炸式梯度问题

#seq

梯度值 深度神经网络(尤其是 循环神经网络) 非常陡峭(高)。急剧的梯度通常会导致更新量非常大 每个节点权重 深度神经网络。

梯度爆炸问题导致的模型变得非常困难 或无法训练。渐变裁剪 可以缓解这一问题。

梯度消失问题相对。

F

F1

“总览”二元分类指标, 依赖于精确率召回率。 公式如下:

$$F{_1} = \frac{\text{2 * precision * recall}} {\text{precision + recall}}$$

例如,假设存在以下情况:

  • 精确率 = 0.6
  • 召回率 = 0.4
$$F{_1} = \frac{\text{2 * 0.6 * 0.4}} {\text{0.6 + 0.4}} = 0.48$$

当精确率和召回率高度相似(如上例所示)时, F1 接近其平均值。当精确率和召回率不同时 F1 更接近下限值。例如:

  • 精确率 = 0.9
  • 召回率 = 0.1
$$F{_1} = \frac{\text{2 * 0.9 * 0.1}} {\text{0.9 + 0.1}} = 0.18$$

公平性约束

#fairness
对算法应用限制条件以确保一个或多个定义 公平性得到满足。公平性限制的示例包括:

公平性指标

#fairness

“公平性”的数学定义可衡量的指标 一些常用的公平性指标包括:

许多公平性指标都是互斥的;请参阅 公平性指标不兼容

假负例 (FN)

#fundamentals

在一个示例中,模型错误地预测了 负类别。例如,模型 预测某封电子邮件不是垃圾邮件 (负类别),但该电子邮件实际上是垃圾邮件。

假负例率

模型错误判断的实际正例所占的比例 预测负类别。以下公式计算的是 负率:

$$\text{false negative rate} = \frac{\text{false negatives}}{\text{false negatives} + \text{true positives}}$$

假正例 (FP)

#fundamentals

在一个示例中,模型错误地预测了 正类别。例如,模型 某封电子邮件是垃圾邮件(正值),但是 电子邮件实际上不是垃圾邮件

假正例率 (FPR)

#fundamentals

模型错误的实际负例所占的比例 预测了正类别。以下公式计算的是 正面率:

$$\text{false positive rate} = \frac{\text{false positives}}{\text{false positives} + \text{true negatives}}$$

假正例率是 ROC 曲线的 x 轴。

功能

#fundamentals

机器学习模型的输入变量。示例 包含一个或多个特征例如,假设您在训练一个 以确定天气状况对学生考试分数的影响。 下表显示了三个示例,每个示例都包含 一个标签:

功能 标签
温度 湿度 压力 测试分数
15 47 998 92
19 34 1020 84
18 92 1012 87

标签相对。

特征组合

#fundamentals

由“组合”形成的合成特征 分类分桶特征。

例如,请考虑使用“情绪预测”该模型 以下 4 个存储分区中的其中一个:

  • freezing
  • chilly
  • temperate
  • warm

并表示以下三个分区之一中的风速:

  • still
  • light
  • windy

如果没有特征组合,线性模型会根据每个特征 前面七个不同的存储分区例如,该模型基于 freezing,而不考虑训练,例如, windy

或者,您也可以创建一个包含温度和 风速。此合成特征有以下 12 种可能: 值:

  • freezing-still
  • freezing-light
  • freezing-windy
  • chilly-still
  • chilly-light
  • chilly-windy
  • temperate-still
  • temperate-light
  • temperate-windy
  • warm-still
  • warm-light
  • warm-windy

得益于特征组合,模型可以学习情绪差异 介于 freezing-windy 天到 freezing-still 天之间。

如果您通过两个地图项创建合成地图项,而这两个地图项都包含大量 产生的特征组合将有大量 可能的组合。例如,如果一个特征有 1,000 个分桶, 另一个特征有 2,000 个分桶,生成的特征组合有 2,000,000 个 存储分区。

正式地说,交叉是一种 笛卡尔积

特征组合主要用于线性模型,很少使用 和神经网络。

特征工程

#fundamentals
#TensorFlow

此过程涉及以下步骤:

  1. 确定哪些特征可能有用 学习到的知识。
  2. 将数据集中的原始数据转换为 这些功能。

例如,您可以认为 temperature 可能是一个有用的 功能。然后,您可以尝试进行分桶。 优化模型可以从不同 temperature 范围学习到的内容。

特征工程有时称为 特征提取特征化

特征提取

一个多含义术语,具有下列含义之一:

特征重要性

#df

变量重要性的含义相同。

特征集

#fundamentals

您的机器学习的特征model 进行训练。 例如,邮政编码、房源大小和房源使用情况可能 为预测房价的模型包含一个简单的特征集。

特征规范

#TensorFlow

描述提取特征数据所需的信息 来自 tf.Example 协议缓冲区的数据。由于 tf.Example 协议缓冲区只是一个数据容器,您必须指定 以下:

  • 要提取的数据(即特征的键)
  • 数据类型(例如 float 或 int)
  • 长度(固定或可变)

特征向量

#fundamentals

feature 值数组,包含 示例。特征向量是输入的 训练推理期间。 例如,一个具有两个离散特征的模型的特征向量 可能是:

[0.92, 0.56]

四个层:一个输入层、两个隐藏层和一个输出层。
          输入层包含两个节点,
          另一个是 0.92,另一个是 0.56。

每个样本都为特征向量提供不同的值,因此 下一个示例的特征向量可能如下所示:

[0.73, 0.49]

特征工程决定了如何表示 特征向量中的特征。例如,一个二元分类特征 五个可能的值可以用 独热编码。在这种情况下, 特定样本的特征向量将包含四个零, 一个 1.0 放在第三个位置,如下所示:

[0.0, 0.0, 1.0, 0.0, 0.0]

再举一个例子,假设您的模型由三个特征组成:

  • 一个二元分类特征,具有五个可能的值,以 独热编码;例如:[0.0, 1.0, 0.0, 0.0, 0.0]
  • 另一个二元分类特征,其中有三个可能的值表示 采用独热编码;例如:[0.0, 0.0, 1.0]
  • 浮点特征;例如:8.3

在这种情况下,每个样本的特征向量将用 乘以 9 的值。根据上述列表中的示例值, 则特征向量为:

0.0
1.0
0.0
0.0
0.0
0.0
0.0
1.0
8.3

特征化

从输入源中提取特征的过程。 例如文档或视频,并将这些特征映射到 特征向量

一些机器学习专家将特征化用作 特征工程特征提取

联合学习

一种分布式机器学习方法,用于训练 机器学习模型(使用分散式模型) 示例(位于智能手机等设备上)。 在联邦学习中,一部分设备会下载当前模型 与中央协调服务器通信设备使用存储的样本 以便改进模型。然后,设备会上传 模型改进(而不是训练示例) 并与其他更新进行汇总,以生成改进的 全局模型。汇总后,由设备计算的模型更新 是不再需要的,可以将其舍弃。

由于训练样本从未上传,因此联邦学习会遵循 集中式数据收集和数据最少化原则方面的隐私权原则。

如需详细了解联邦学习, 请参阅本教程

反馈环

#fundamentals

在机器学习中,模型的预测会影响 同一模型或其他模型的训练数据。例如,一个模型 推荐的电影会影响用户观看的电影 影响后续的电影推荐模型。

前馈神经网络 (FFN)

没有循环或递归连接的神经网络。例如: 传统的深度神经网络 前馈神经网络。与循环神经对比 网络,属于循环性质。

少样本学习

一种机器学习方法,通常用于对象分类, 旨在仅通过少量样本数据来训练出有效的分类器, 训练样本。

另请参阅单样本学习零样本学习

少样本提示

#language
#generativeAI

包含多个(“几个”)示例的提示 演示了大语言模型 响应。例如,以下很长的提示包含两个 显示大型语言模型如何回答查询的示例。

一个提示的组成部分 备注
指定国家/地区的官方货币是什么? 您希望 LLM 回答的问题。
法国:欧元 一个例子。
英国:英镑 再举一个例子。
印度 实际查询。

与少样本提示相比,少样本提示通常会 零样本提示单样本提示。然而,少样本提示 需要更长的提示。

少样本提示是一种少样本学习形式 已应用于基于提示的学习

小提琴

#language

Python 优先的 configuration 库,用于设置 函数和类的值,而无需侵入性代码或基础架构。 对于 Pax 和其他机器学习代码库,这些函数和 类别代表模型训练 超参数

小提琴 假设机器学习代码库通常分为以下几类:

  • 库代码,用于定义层和优化器。
  • 数据集“粘合剂”这些代码会调用这些库,并将所有内容连接在一起。

Fiddle 会在未评估和 可变形式。

微调

#language
#image
#generativeAI

对 BERT 模型进行第二次特定任务的训练, 预训练模型,用于针对 应用场景。例如,某些完整训练过程的 大语言模型如下所示:

  1. 预训练:利用庞大的常规数据集训练大语言模型。 例如所有英文版的维基百科网页。
  2. 微调:训练预训练模型以执行特定任务, 例如回复医疗查询微调通常涉及 成百上千个侧重于具体任务的示例。

再举一个例子,大型图片模型的完整训练序列是 如下:

  1. 预训练:使用大型一般图片训练大型图片模型 例如维基共享资源中的所有图像。
  2. 微调:训练预训练模型以执行特定任务, 例如生成虎鲸的图片。

微调可包含以下策略的任意组合:

  • 修改所有预训练模型现有的 parameters。这有时称为“全面微调”。
  • 仅修改预训练模型的部分现有参数 (通常是最接近输出层的层), 同时保持其他现有参数不变(通常情况下, 最接近输入层)。请参阅 参数高效微调
  • 添加更多图层,通常在最靠近 输出层。

微调是一种迁移学习形式。 因此,微调可能会使用不同的损失函数或不同的模型, 与用于训练预训练模型的 ID 相比。例如,你可以 微调预训练的大图像模型,以生成回归模型, 返回输入图片中的鸟类数量。

使用以下术语比较和对比微调:

亚麻

#language

高性能开源 基于 JAX 构建的深度学习。Flax 提供各种功能 训练 神经网络 作为评估其效果的方法。

毛发素

#language

开源 Transformer 、 基于主要用于自然语言处理的 Flax 构建 和多模态研究。

忘记关口

#seq

长期短期记忆的一部分 控制通过细胞的信息流。 不保存关口可通过决定要舍弃的信息来维护上下文 从细胞状态开始。

完整 softmax

softmax 的含义相同。

候选采样相对。

全连接层

一个隐藏层,其中每个节点 会连接到后续隐藏层中的每个节点。

全连接层又称为密集层

函数转换

一个将某个函数作为输入并返回转换后的函数的函数 作为输出。JAX 使用函数转换。

G

GAN

生成对抗的缩写 网络

泛化

#fundamentals

模型能够根据新数据 之前未见过的数据。相反,可以泛化的模型

Gemini

#language
#image
#generativeAI

由 Google 最先进的 AI 技术组成的生态系统。生态系统的构成要素 包括:

Gemini 模型

#language
#image
#generativeAI

基于 Google 最先进的 Transformer 技术 多模态模型。Gemini 模型 旨在与代理集成。

用户可以通过多种方式与 Gemini 模型互动,包括通过 交互式对话框界面。

泛化曲线

#fundamentals

训练损失验证损失 迭代

泛化曲线可以帮助您检测 过拟合。例如,以下 泛化曲线表明出现过拟合, 最终明显高于训练损失。

笛卡尔图,其中 y 轴标记为损失,x 轴
          标注的迭代。系统会显示两个图表。一个曲线图显示的是
          另一个显示的是验证损失。
          两个曲线的起点类似,但训练损失最终
          则远低于验证损失。

广义线性模型

最小二乘回归的泛化 这些模型 高斯语 噪声 基于其他类型的噪声的模型,例如 泊松噪声 或 分类噪声。广义线性模型的示例包括:

广义线性模型的参数可通过 凸优化

广义线性模型具有以下属性:

  • 最优最小二乘回归模型的平均预测结果为 与训练数据的平均标签数相等。
  • 最优逻辑回归预测的平均概率 与训练数据的平均标签相等。

广义线性模型的功能受其特征的限制。取消点赞 广义线性模型无法“学习新特征”。

生成对抗网络 (GAN)

用于创建新数据的系统,生成器会在该系统中创建 数据和判别器会确定 创建的数据是否有效。

生成式 AI

#language
#image
#generativeAI

一个新兴的变革性领域,没有正式定义。 尽管如此,大多数专家也同意,生成式 AI 模型 创建(“生成”)内容:

  • 复杂
  • 连贯
  • 原图

例如,生成式 AI 模型可以构建复杂的 论文或图片。

一些早期的技术,包括 LSTMsRNN 也可以生成原始和 连贯的内容一些专家认为这些早期的技术 而其他人则认为真正的生成式 AI 需要更复杂的

预测性机器学习相对。

生成模型

实际上,一个可以执行以下任一操作的模型:

  • 从训练数据集创建(生成)新样本。 例如,生成模型可以在训练之后创作诗歌 诗歌数据集。生成器部分 生成对抗网络 都属于此类别。
  • 确定新样本来自 或者通过与创建模型训练集的相同机制 训练集。例如, 一个由英语句子组成的数据集, 确定新输入是有效英文句子的概率。

从理论上说,生成模型可以辨别样本的分布情况 或数据集中的特定特征。具体来说:

p(examples)

非监督式学习模型是生成式的。

判别模型相对。

generator

生成式对抗模型中的子系统 广告网络 用于创建新样本

判别模型相对。

基尼杂质

#df

一个与类似的指标。分割器 使用从基尼杂质或熵衍生出的值 分类条件 决策树信息增益由熵得出。 对于派生的指标,没有公认的等效术语 不过,这个未命名的指标与 信息增益。

基尼杂质也称为 gini 索引,或简称为 gini

golden 数据集

一组用于捕获标准答案的手动精选数据。 团队可以使用一个或多个黄金数据集来评估模型的质量。

一些黄金数据集会捕获标准答案的不同子网域。例如: 用于图片分类的黄金数据集可以捕获光照条件 和图片分辨率。

GPT(生成式预训练 Transformer)

#language

一系列基于 Transformer大语言模型OpenAI

GPT 变体可适用于多种模态,包括:

  • 图片生成(例如 ImageGPT)
  • 生成文本到图像(例如, DALL-E)。

gradient

偏导数相对于 所有自变量。在机器学习中,梯度 模型函数偏导数的向量。梯度点 在最速上升的方向上

梯度累积

一种反向传播技术,用于更新 parameters每个周期一次,而不是每个周期一次 迭代。处理完每个小批次后, accumulation 只更新梯度的运行总计。接着, 处理周期中的最后一小批次,系统最终更新 基于所有梯度变化的总计值调整参数。

批次大小为 与用于训练的可用内存相比要大得多。 当内存有问题时,自然倾向于减小批量大小。 不过,减小正常反向传播算法中的批量大小会增加 参数更新次数。梯度累积使模型能够 以避免内存问题,同时仍能高效地训练。

梯度提升(决策)树 (GBT)

#df

一种决策林,其中:

梯度增强

#df

一种训练算法,其中弱模型经过训练, 提高有效模型的质量(减少损失)。例如: 而弱模型可以是线性模型,也可以是小型决策树模型。 强模型成为之前训练过的所有弱模型的总和。

在最简单的梯度提升形式中,每次迭代时, 来预测强模型的损失梯度。然后, 通过减去预测的梯度来更新强模型的输出, 类似于梯度下降法

$$F_{0} = 0$$ $$F_{i+1} = F_i - \xi f_i $$

其中:

  • $F_{0}$ 为起始强模型。
  • $F_{i+1}$ 是紧随其后的强大模型。
  • $F_{i}$ 是当前的强模型。
  • $\xi$ 是一个介于 0.0 和 1.0 之间的值,称为收缩, 类似于 学习速率: 梯度下降法。
  • $f_{i}$ 是训练过的弱模型,用于预测 $F_{i}$.

梯度提升的现代变体也包括第二导数 (海森斯)计算中损失的概率。

决策树 梯度提升。请参阅 梯度提升(决策)树

梯度裁剪

#seq

降低风险的常用机制 梯度爆炸问题 使用 梯度下降法:用于训练模型。

梯度下降法

#fundamentals

一种最小化损失的数学技术。 梯度下降法以迭代方式 权重偏差, 逐渐找到最佳组合,以最大限度降低损失。

梯度下降法的年代比机器学习晚得多。

图表

#TensorFlow

TensorFlow 中的一种计算规范。图中的节点 代表操作。边缘具有方向,表示传递结果 运算(张量)作为 一个操作数转换为另一个操作。使用 TensorBoard:用于直观呈现图。

图执行 (图执行)

#TensorFlow

TensorFlow 编程环境,程序在此环境中首先构建 一个,然后执行该图的全部或部分内容。图表 执行是 TensorFlow 1.x 中的默认执行模式。

即刻执行相对。

贪婪政策

#rl

在强化学习中,始终会选择 预期回报率最高的操作。

标准答案

#fundamentals

真人秀。

实际发生的事情。

例如,假设有一个二元分类 该模型会预测学生在大学的第一年 将在六年内升级此模型的标准答案是 并不是说毕业的学生在六年内就毕业了

群体归因偏差

#fairness

假设一个人的真实情况也适用于所有人 。群体归因偏差的影响可能会加剧 如果是便利抽样, 用于收集数据。在非代表性样本中,归因 制作的内容可能无法反映现实

另请参阅群外同质性偏差群内偏差

H

幻觉

#language

由一个 AI 技术人员生成看似看似 但实际上不正确的输出 生成式 AI 模型, 与现实世界有关的断言。 例如,某个生成式 AI 模型声称贝拉克·奥巴马 (Barack Obama) 于 1865 年去世 具有幻觉性

哈希技术

在机器学习中,分桶机制 分类数据,尤其是当 类别很大,但实际出现的类别的数量 相对较小。

例如,地球上约有 73,000 种树木。您可以 代表了 73,000 个独立分类中的 73,000 个树种 存储分区。另外,如果这些树种中的 那么您可以使用哈希技术将树种分为 大约有 500 个存储分区

一个存储分区可能包含多个树种。例如,对 可以放置猴面包树红枫 - 两种基因相异的树 归入同一存储分区。无论如何,哈希处理仍然是 将大型分类集映射到所选数量的存储分区。哈希技术可将 包含大量可能值, 将对象分组中的值 确定性的方法。

启发法

一种简单且快速实现的问题解决方案。例如: “通过启发法,我们实现了 86% 的准确率。当我们改用 深度神经网络,准确率上升到 98%。”

隐藏层

#fundamentals

神经网络中的一层 输入层(特征)和 输出层(预测)。 每个隐藏层都包含一个或多个神经元 例如,下面的神经网络包含两个隐藏层, 第一个有三个神经元,第二个有两个神经元:

四层。第一层是输入层,包含两个
          功能。第二层是隐藏层,
          神经元。第三层是隐藏层,
          神经元。第四层是输出层。每项功能
          包含三条边,每条边指向不同的神经元
          数据模型。第二层中的每个神经元
          包含两个边,每条边指向不同的神经元
          第三层。第三层中的每个神经元都包含
          每条边都指向输出层。

深度神经网络包含多个 隐藏层。例如,上图展示了深度神经元, 因为模型包含两个隐藏层。

层次聚类

#clustering

一类聚类算法,用于创建树 集群数量。分层聚类非常适合用于分层数据, 例如植物分类。层级结构 聚类算法:

  • 凝聚式聚类首先将每个样本分配到其自己的聚类, 并以迭代方式合并最近的聚类, 树。
  • 分裂式聚类首先将所有样本分组到一个集群中,然后 以迭代方式将聚类划分为层次树。

形心聚类相对。

合页损失函数 (hinge loss)

一系列损失函数,用于 分类功能,旨在找出 决策边界 从每个训练样本中选取的, 从而最大化样本和边界之间的外边距。 KSVM 使用合页损失函数(或相关函数,例如 平方合页损失函数)。对于二元分类,合页损失函数 定义如下:

$$\text{loss} = \text{max}(0, 1 - (y * y'))$$

其中 y 是真实标签,-1 或 +1,y' 是原始输出。 分类器模型的另一个特征:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

因此,合页损失与 (y * y') 的关系图如下所示:

由两个相连的线段组成的笛卡尔图。第一个
          以 (-3, 4) 开始,以 (1, 0) 结束。第二行
          线段从 (1, 0) 开始,一直有斜率
          为 0。

历史偏差

#fairness

一种偏差已经存在于现实世界中,并且 被导入数据集。这些偏见往往会反映 文化成见、人口不平等以及对某些群体的偏见 社会团体。

例如,假设有一个分类模型, 用于预测贷款申请人是否会拖欠贷款 对 20 世纪 80 年代的历史贷款违约数据进行了训练,该数据来自 不同社区如果社区 A 的过往申请者增加 6 倍 可能会学习历史偏差,导致模型不太可能 在社区 A 中批准贷款,即使 社区中较高的默认比率不再适用。

留出数据

训练期间故意不使用(“留出”)的样本验证数据集测试数据集都属于留出数据。维持数据 有助于评估模型泛化到除 训练数据。基于留出集的损失有助于 基于未见过的数据集的损失预估值 训练集。

主机

#TensorFlow
#GoogleCloud

加速器芯片上训练机器学习模型时 (GPU 或 TPU),系统的一部分 可控制以下两项:

  • 代码的整体流。
  • 输入流水线的提取和转换。

主机通常在 CPU 上运行,而不是在加速器芯片上运行;该 device 操控 加速器芯片。

超参数

#fundamentals

您或超参数调节服务的变量 在模型连续运行期间进行调整。例如: 学习速率是一种超参数。您可以 将学习速率设置为 0.01。如果您 0.01 过高,可以将学习 下一个训练课程的预测比率为 0.003。

相反,参数则是各种不同的 模型的权重偏差 在训练期间学习

超平面

将空间分隔为两个子空间的边界。例如,线条是 二维超平面,而平面在三维空间中是超平面。 在机器学习中,更常见的是超平面 高维空间。核支持向量机使用 超平面将正类别与负类别区分开来, 高维空间。

I

i.i.d.

独立同分布的缩写。

图像识别

#image

对图片中的对象、图案或概念进行分类的过程。 图像识别也称为图像分类

如需了解详情,请参阅 机器学习实践课程:图像分类

不平衡的数据集

分类不平衡的数据集的含义相同。

隐性偏差

#fairness

根据自己的想法自动建立关联或假设 模型和记忆。隐性偏差会影响以下方面:

  • 数据的收集和分类方式。
  • 机器学习系统的设计和开发方式。

例如,在构建识别婚礼照片的分类器时, 工程师可以使用照片中的白色连衣裙作为特征。 然而,白色裙子只是某些时代才开始流行 某些文化。

另请参阅确认偏差

插补

简短形式的价值插补

公平性指标不兼容

#fairness

某些公平概念是互不相容的, 无法同时满足。因此, 用于量化公平性的通用指标 这种模型可以应用于所有机器学习问题。

虽然这似乎令人沮丧,但公平性指标的不兼容 并不意味着公平的努力是徒劳无益的。而是显示 对于给定的机器学习问题,必须从上下文中定义公平性, 以防止应用场景特有的危害。

请参阅“在 (不)公平性”

情境学习

#language
#generativeAI

相当于少样本提示

独立同分布 (i.i.d)

#fundamentals

数据来自不会变化的分布,其中每个值 绘制不依赖于之前绘制的值。i.i.d. 是理想气体 机器 学习 - 一种实用的数学结构,但几乎从未发现过 真实世界。例如,某个网页的访问者分布情况 可能是 i.i.d.短时间内;也就是说,分布 但通常只有一次人光顾 而不受他人访问的影响。不过,如果您延长该时间范围 网页访问者的季节性差异就可能表现出来。

另请参阅非平稳性

个人公平性

#fairness

用于检查相似个体是否被分类的公平性指标 。例如,Brobdingnagian Academy 可能希望满足 确保两名成绩相同的学生获得个人公平性 且标准化考试分数获得入学的几率相同。

请注意,个体公平性完全取决于您对“相似性”的定义 (这里是指成绩和考试分数), 在相似性指标遗漏重要的信息时,引入新的公平性问题 信息(例如学生课程的严谨性)。

请参阅“公平性 感知”一文,更详细地讨论个人公平性。

推理

#fundamentals

在机器学习中, 将经过训练的模型应用于无标签样本

推理在统计学中具有不同的含义。 请参阅 <ph type="x-smartling-placeholder"></ph> 维基百科中有关统计推断的文章

推理路径

#df

决策树中,在推理期间: 特定示例root 改为其他条件,终止以 叶子。例如,在以下决策树中, 较粗的箭头表示示例的推理路径,该示例 特征值:

  • x = 7
  • y = 12
  • z = -3

下图中的推理路径经过三个 条件才会到达叶项 (Zeta)。

一棵决策树,由四个条件和五叶子组成。
          根条件是 (x > 0)。由于答案是“是”,
          推理路径从根到下一个条件 (y > 0)。
          由于答案是“是”,因此推理路径将前往
          下一个条件 (z > 0)。由于答案为“否”,推理路径
          到达其最终节点,即叶子 (Zeta)。

三个粗箭头表示推理路径。

信息增益

#df

决策森林中, 节点的和加权值(通过样本数) 其子节点的熵的总和。节点的熵就是熵 所有样本。

例如,请考虑以下熵值:

  • 父节点的熵 = 0.6
  • 一个含 16 个相关样本的子节点的熵 = 0.2
  • 具有 24 个相关样本的另一个子节点的熵 = 0.1

因此,40% 的样本位于一个子节点中,60% 位于 另一个子节点。因此:

  • 子节点的加权熵和 = (0.4 * 0.2) + (0.6 * 0.1) = 0.14

因此,信息增益为:

  • 信息增益 = 父节点的熵 - 子节点的加权熵总和
  • 信息增益 = 0.6 - 0.14 = 0.46

大多数分隔符都会尝试创建条件 最大程度地获取信息。

群内偏差

#fairness

表现出对自己所属群体或特征的偏向。 如果测试人员或评分者由机器学习开发者的朋友组成, 家人或同事,则群内偏差可能会导致产品测试无效 或数据集。

群内偏差是一种 群体归因偏差。 另请参阅群外同质性偏差

输入生成器

数据加载机制 神经网络

输入生成器可以看作是一个负责 将原始数据转换为张量,然后进行迭代以生成批量 训练、评估和推理。

输入层

#fundamentals

神经网络的神经网络 存储的是特征向量。也就是说,输入层 为训练或提供示例 推理。例如,下面的输入层 包含两个特征:

四个层:一个输入层、两个隐藏层和一个输出层。

内嵌条件

#df

决策树中,条件 用于测试一组项中是否存在某个项。 例如,以下是 in-set 条件:

  house-style in [tudor, colonial, cape]

在推理期间,如果房屋样式feature的值 为 tudorcolonialcape,则此条件的评估结果为“是”。如果 房屋风格地图项的值是其他值(例如 ranch), 则此条件的评估结果为“否”。

相较于预设条件,通常会产生更有效的决策树 用于测试独热编码特征的条件。

实例

样本的含义相同。

指令调优

#generativeAI

一种微调形式,可改进 生成式 AI 模型的能力, 操作说明。指令调优涉及使用序列训练模型 指导提示,通常涉及 处理各种任务然后,生成的指令调优模型往往 针对零样本提示生成有用的回答 执行各种任务

比较和对比以下内容:

可解释性

#fundamentals

能够解释或呈现机器学习模型的推理过程 简单易懂的词汇

例如,大多数线性回归模型的性能高度 可解释。(您只需看一看每项训练的 feature.)决策森林也具有高度可解释性。然而,有些模型 需要进行复杂的可视化处理才能变得可解释。

您可以使用 Learning Interpretability Tool (LIT) 来解读机器学习模型。

评分者间一致性信度

用于衡量人工审核者在执行某项任务时同意的频率。 如果评分者有异议,任务说明可能需要改进。 有时也称为注释者间协议评分者之间的可靠性。另请参阅 Cohen's kappa, 这是最常用的评分者间一致性信度衡量指标之一。

交并比 (IoU)

#image

两组的交集除以其并集。在机器学习领域 IoU 用于衡量模型 标准答案边界框。在这种情况下, 两个方框表示重叠面积与总面积的比率; 其值的范围为 0(预测边界框和标准答案不重叠) 设置为 1(预测边界框和标准答案边界框具有 完全相同的坐标)。

例如,在以下图片中:

  • 预测的边界框(分隔模型 紫色轮廓线。
  • 标准答案边界框(分隔夜晚地点的坐标

梵高画作《文森特的卧室在阿尔勒》,
          床边的夜桌周围的边界框。标准答案
          边框(绿色)完美贴合了床边桌。通过
          预测边界框(紫色)向下和向右偏移 50%
          真实值边界框的大小;它包含右下四分之一
          但没找到桌子上的其他区域。

这里,预测的边界框与标准答案的交集 为 1,预测的边界框的并集 标准答案(右下方)为 7,因此 IoU 为 \(\frac{1}{7}\)。

与上图相同,但每个边界框分为四个
          象限。总共有七个象限,如右下方的
          作为真实数据边界框的象限,
          预测边界框的象限彼此重叠。这个
          重叠部分(以绿色突出显示)代表
          交集,其面积为 1。 与上图相同,但每个边界框分为四个
          象限。总共有七个象限,如右下方的
          作为真实数据边界框的象限,
          预测边界框的象限彼此重叠。
          被两个边界框包围的整个内部
          (以绿色突出显示)代表并集,并且具有
          即 7 的面积

IoU

intersection over union 的缩写。

项矩阵

#recsystems

推荐系统中, 由嵌入向量矩阵分解 包含有关每个推荐项的潜在信号。 项矩阵的每一行存储单个潜在值 功能。 以电影推荐系统为例。每列 都表示一部电影。潜在信号 可能代表不同的流派,或者可能难以解读 涉及类型、明星和角色之间复杂互动的信号, 电影上映时间或其他因素

项矩阵与目标矩阵具有相同的列数 要分解的矩阵。例如,假设某部电影 该推荐系统可评估 10,000 部电影, 项矩阵将有 10000 列。

items

#recsystems

推荐系统中, 是系统推荐的例如,视频是指视频商店 而书籍是书店推荐的商品。

迭代

#fundamentals

模型参数的一次更新,即模型的 权重偏差 - 期间 训练批次大小决定 模型在单次迭代中处理的样本数。例如, 如果批次大小为 20,则模型会先处理 20 个样本, 调整参数。

在训练神经网络时,单次迭代 涉及以下两个卡券:

  1. 用于评估单个批次的损失的前向传播。
  2. 反向传播(反向传播),用于调整 根据损失和学习速率调整模型参数。

J

JAX

汇集了 XLA(加速线性代数)和自动微分 进行高性能数值计算。JAX 提供了一种简单而强大的 用于通过可组合转换编写加速数值代码的 API。 JAX 提供如下功能:

  • grad(自动微分)
  • jit(即时编译)
  • vmap(自动矢量化或批处理)
  • pmap(并行化)

JAX 是一种用于表达和编写数值转换 与 Python 的 NumPy 类似,但范围要大得多 库。(实际上,JAX 下的 .numpy 库在功能上等效, 而是完全重写的 Python NumPy 库版本。)

JAX 特别适合用于加快许多机器学习任务的速度 通过将模型和数据转换为适合并行处理的形式, 跨 GPU 和 TPU 加速器芯片

FlaxOptaxPax 以及许多其他 库都是在 JAX 基础架构上构建的。

K

Keras

一种热门的 Python 机器学习 API。 Keras 运行位置 多个深度学习框架,包括 TensorFlow, 名称为 tf.keras

核支持向量机 (KSVM)

一种分类算法,旨在最大化 正面负类别:通过映射输入数据向量来 进入更高维度空间。例如,假设有一个分类 输入数据集的输入数据集 包含一百个特征为了最大限度地增加 KSVM 可以在内部将这些特征映射到 百万维度空间。KSVM 使用 合页损失

关键点

#image

图片中特定特征的坐标。例如,对于 图像识别模型, 例如,每个花瓣的中心、茎 和雄性等。

k-fold 交叉验证

一种算法,用于预测模型 泛化到新数据。k-fold 中的 k 是指 将数据集的样本划分为若干个相等组的数量;也就是说, 对模型进行 k 次测试。对于每一轮训练和测试, 另一组为测试集,其余所有组都成为训练集 。经过 k 轮训练和测试后,计算 所选测试指标的标准差。

例如,假设您的数据集包含 120 个样本。再假设, 您决定将 k 设为 4。因此,在重排样本后, 您将数据集分成四个相等的组,每组包含 30 个样本,然后进行四个训练 训练/测试轮次:

一个数据集,分成四个相同的样本组。在第 1 轮中,
          前三组用于训练,最后一组
          用于测试。在第 2 轮中,前两组和最后一组
          用于训练,而第三个组用于
          测试。在第 3 轮中,第一组和最后两组
          而第二组用于测试。
          在第 4 轮中,第一组用于测试,而最后一组用于测试
          三个组用于训练。

例如,均方误差 (MSE) 可能 是线性回归模型最有意义的指标。因此,您可以 会得到所有四轮次 MSE 的均值和标准差。

k-means

#clustering

一种热门的聚类算法,可将样本分组 用于非监督式学习。k-means 算法基本上会执行以下操作:

  • 以迭代方式确定最佳的 k 中心点(已知 看作形心)。
  • 将每个样本分配到最近的形心。最接近 同一个形心属于同一个组。

k-means 算法会挑选形心位置,以最大限度地减少累积 每个样本到其最接近形心的距离的平方

例如,请考虑以下狗狗身高与狗狗宽度的关系图:

包含数十个数据点的笛卡尔曲线图。

如果 k=3,则 k-means 算法将确定三个形心。每个示例 被分配到最接近的形心,从而产生三个组:

除了与上图相同的直角坐标曲线图相同,
          添加了三个形心
          之前的数据点被划分为三个不同的组,
          其中每个组都代表最接近某个特定
          形心。

假设制造商希望确定适合小尺寸、 中号和大号狗毛衣。三个形心分别表示 该集群中每只狗的身高和平均宽度。因此,制造商 毛衣尺寸应该基于这三个形心。请注意, 聚类的形心通常不是聚类中的样本。

上图显示了 k-means 应用于 两个特征(高度和宽度)。请注意,k-means 可将样本分组 进行训练。

k 中位数

#clustering

k-means 密切相关的聚类算法。通过 两者的实际区别如下:

  • 对于 k-means,确定形心的方法是, 候选形心与各形心之间的距离的平方 示例。
  • 对于 k-median,确定形心的方法是, 候选形心与它的每个样本之间的距离。

请注意,距离的定义也不同:

  • K-means 依赖 欧几里得距离: 形心。(从两个维度来看,欧几里得星系 距离指使用勾股定理计算 斜边。)例如,(2,2) 且 (5,-2) 为:
$$ {\text{Euclidean distance}} = {\sqrt {(2-5)^2 + (2--2)^2}} = 5 $$
  • k-median 采用 曼哈顿距离 从形心变为样本。该距离是 绝对增量。例如,k-median (2,2) 与 (5,-2) 之间的距离为:
$$ {\text{Manhattan distance}} = \lvert 2-5 \rvert + \lvert 2--2 \rvert = 7 $$

L

L0 正则化

#fundamentals

一种正则化, 会降低非零权重总数 模型中。例如,一个具有 11 个非零权重的模型 会比具有 10 个非零权重的类似模型受到的惩罚更多。

L0 正则化有时称为 L0 正则化

L1 损失

#fundamentals

用于计算绝对值的损失函数 实际标签值和 由模型预测的值。例如,以下是 在 5 的 batch 中计算 L1 损失 示例

样本的实际值 模型的预测值 增量的绝对值
7 6 1
5 4 1
8 11 3
4 6 2
9 8 1
  8 = L1 损失

L1 损失对离群值不太敏感 与 L2 损失相比。

平均绝对误差是 每个样本的 L1 损失。

L1 正则化

#fundamentals

一种正则化,用于执行惩罚 权重, 权重。L1 正则化有助于提升不相关的 或几乎不相关特征设为 0。一项具有以下特征的功能: 权重为 0 就相当于从模型中移除了权重。

L2 正则化相对。

L2 损失

#fundamentals

损失函数,用于计算平方 实际标签值和 由模型预测的值。例如,以下是 在 5 的 batch 中计算 L2 损失 示例

样本的实际值 模型的预测值 增量平方
7 6 1
5 4 1
8 11 9
4 6 4
9 8 1
  16 = L2 损失

由于平方,L2 损失放大了 离群值。 也就是说,L2 损失对不良预测的反应比 L1 损失。例如,L1 损失函数 应为 8,而不是 16。请注意, 16 个模型中有 9 个来自离群值。

回归模型通常使用 L2 损失函数 作为损失函数。

均方误差是 每个样本的 L2 损失。 平方损失是 L2 损失的别名。

L2 正则化

#fundamentals

一种正则化,用于执行惩罚 权重,与权重的平方和成比例。 L2 正则化有助于增加离群值权重( 具有较大正值或较小负值)且接近于 0,但并非正好为 0。 值非常接近 0 的特征将保留在模型中 但对模型的预测没有太大影响。

L2 正则化始终可以改进泛化, 线性模型

L1 正则化相对。

标签

#fundamentals

监督式机器学习中, “接听”或“result”部分(位于示例中)。

每个有标签样本包含一个或多个 特征和标签。例如,在“垃圾内容”文件夹中 则标签可能为“spam”或 “这不是垃圾邮件”在雨量数据集中,标签可能是 在特定时期落下的雨

有标签样本

#fundamentals

一个示例包含一个或多个特征和一个 label。例如,下表显示了 房屋估价模型中的有标签样本,每个样本都有三个特征 和一个标签:

卧室数量 浴室数量 房龄 房价(标签)
3 2 15 345,000 美元
2 1 72 179,000 美元
4 2 34 392,000 美元

监督式机器学习中, 这些模型会基于有标签样本进行训练, 无标签样本

对比有标签样本与无标签样本。

标签泄露

一种模型设计缺陷,其中某个特征label。例如,假设 二元分类模型, 潜在客户是否会购买特定产品。 假设模型的一个特征是名为 SpokeToCustomerAgent。进一步假设客户代理 在潜在客户实际购买产品/服务后分配 产品。在训练期间,模型会快速学习 介于 SpokeToCustomerAgent 和该标签之间。

lambda

#fundamentals

正则化率的含义相同。

lambda 是一个多含义术语。我们在此重点介绍 正则化中的定义。

LaMDA(对话应用语言模型)

#language

基于 Transformer 由 Google 开发的大语言模型, 可生成真实对话回复的大型对话数据集。

LaMDA:我们的突破性对话 技术提供了概览。

landmarks

#image

关键点的含义相同。

语言模型

#language

用于估算某个词元的概率的模型 词元序列。

大语言模型

#language

一个语言模型至少应该有一个非常大的数值, 共 个参数。更非正式地说, 基于 Transformer 的语言模型,例如 GeminiGPT

潜在空间

#language

嵌入空间的含义相同。

图层

#fundamentals

一组神经元 神经网络。三种常见的图层类型 如下:

例如,下图显示了 一个输入层、两个隐藏层和一个输出层:

具有一个输入层、两个隐藏层和一个
          输出层。输入层包含两个特征。第一个
          由三个神经元和第二个隐藏层组成,
          由两个神经元组成。输出层由单个节点组成。

TensorFlow 中,也是 Python 函数, 张量和配置选项作为输入和 生成其他张量作为输出。

Layers API (tf.layers)

#TensorFlow

用于构建深度神经网络的 TensorFlow API 作为层的组合。Layers API 可用来构建 图层的类型,例如:

  • tf.layers.Dense,适用于全连接层
  • tf.layers.Conv2D,表示卷积层。

Layers API 遵循 Keras Layers API 规范。 也就是说,除了前缀不同之外,Layers API 中的所有函数 具有与 Keras 中的对应项相同的名称和签名 图层 API。

叶子

#df

决策树中的任何端点。取消喜欢 condition,则叶项不会执行测试。 更确切地说,叶项是一种可能的预测。一片叶子也代表着终端 推理路径节点

例如,下面的决策树包含三叶树:

一棵决策树,包含两个条件,分别指向三片叶子。

Learning Interpretability Tool (LIT)

一种直观的交互式模型理解和数据可视化工具。

您可以使用开源 LIT 解释模型,或者直观呈现文本、图片和 表格数据。

学习速率

#fundamentals

一个告知梯度下降法的浮点数 算法调整权重和偏差的幅度, 迭代。例如,如果学习速率为 0.3, 权重和偏差的调整幅度是学习速率的三倍 为 0.1。

学习速率是一个重要的超参数。如果您将 学习速率太低,训练所需的时间会太长。如果 因为如果将学习速率设置得过高,梯度下降法通常 实现收敛

最小二乘回归

一种通过最小化最小化方法训练的线性回归模型, L2 损失

线性

#fundamentals

两个或多个变量之间的关系,这些变量可以单独表示 通过加法和乘法得出的结果。

线性关系的曲线图是一条直线。

非线性相对。

线性模型

#fundamentals

一种模型,为每个模型分配一个权重 feature,用于进行预测。 (线性模型也包含偏差。)相比之下, 深度模型中特征与预测的关系 通常是非线性的。

线性模型通常更容易训练,而且 可解释性。不过, 深度模型可以学习特征之间的复杂关系。

线性回归逻辑回归是两种类型的线性模型。

线性回归

#fundamentals

一种同时满足以下两个条件的机器学习模型:

  • 该模型是一个线性模型
  • 预测结果为浮点值。(这是 fallback线性回归的一部分。)

对比线性回归与逻辑回归 此外,请将回归与分类进行比较。

LIT

缩写词 Learning Interpretability Tool (LIT), 该工具之前称为“语言可解释性工具”

LLM

#language

大语言模型的缩写。

逻辑回归

#fundamentals

一种可预测概率的回归模型。 逻辑回归模型具有以下特征:

  • 此标签是分类标签。术语“逻辑” 回归通常是指二元逻辑回归,即 一个模型,该模型计算具有两个可能值的标签的概率。 不太常见的变体是多项逻辑回归,用于计算 标签概率。
  • 训练期间的损失函数为对数损失函数 (对于标签,可以并行放置多个对数损失单元 可能的值超过两个)。
  • 该模型具有线性架构,而不是深度神经网络。 不过,该定义的其余部分也适用于 深度模型,用于预测概率, 。

例如,假设某个逻辑回归模型计算 垃圾邮件或非垃圾邮件的概率。 在推理期间,假设模型预测值为 0.72。因此, 模型正在估算:

  • 有 72% 的电子邮件是垃圾邮件。
  • 电子邮件不是垃圾邮件的可能性为 28%。

逻辑回归模型使用以下两步式架构:

  1. 模型通过应用线性函数生成原始预测 (y') 输出特征。
  2. 模型将该原始预测用作输入, S 型函数,将原始 预测为 0 到 1 之间的值(不含 0 和 1)。

与任何回归模型一样,逻辑回归模型可以预测数字。 然而,这个数字通常成为二元分类的一部分。 如下所示:

  • 如果预测数字大于 分类阈值、 二元分类模型可预测正类别。
  • 如果预测数量小于分类阈值, 二元分类模型会预测负类别。

logits

分类法原始(非标准化)预测的向量 该模型生成的输出通常会传递给归一化函数。 如果模型解析的是多类别分类, 通常,logits 会成为 softmax 函数。 然后,softmax 函数生成一个 并为每个可能的类别提供一个值。

对数损失函数

#fundamentals

二进制程序中使用的损失函数 逻辑回归

对数几率

#fundamentals

某些事件的发生几率的对数。

长/短期记忆 (LSTM)

#seq

循环神经网络,用于处理 数据序列和文本序列, 翻译和图片标注。LSTM 会解决 梯度消失问题 在训练 RNN 之前, 基于新输入和先前单元中的上下文的内部内存状态 之间的差异。

LoRA

#language
#generativeAI

低排名自适应的缩写。

#fundamentals

监督式模型,用于衡量 模型的预测结果源自其标签

损失函数计算损失。

损失聚合器

一种机器学习算法, 可提升模型性能 方法是结合多个模型的预测结果和 基于这些预测进行单次预测。因此 损失聚合器可以减少预测的方差, 提高预测的准确率

损失曲线

#fundamentals

损失作为训练次数的函数图 迭代。以下曲线图显示了典型的损失 曲线:

损失与训练迭代的笛卡尔图,显示了
          初始迭代的损失迅速下降,然后逐渐下降
          在最后一次迭代期间,下降,然后呈现平缓的趋势。

损失曲线可以帮助您确定模型 收敛过拟合

损失曲线可以绘制以下所有类型的损失:

另请参阅泛化曲线

损失函数

#fundamentals

训练或测试期间, 数学函数,用于计算 一批样本的损失。损失函数返回的损失较低, 较之准确预测模型, 预测不佳。

训练的目标是尽可能减小损失函数的 回车。

存在许多不同类型的损失函数。选择合适的损失 函数。例如:

损失曲面

权重与损失的图表。梯度下降法的目标是 找到损失曲面在局部最低点的权重。

低排名自适应 (LoRA)

#language
#generativeAI

用于执行优化的算法 参数高效微调 微调大语言模型的参数。 LoRA 具有以下优势:

  • 相较于需要微调模型的所有 参数。
  • 降低模型中推理的计算成本, 经过微调的模型。

使用 LoRA 调优的模型可以维持或提升其预测质量。

LoRA 支持模型的多个专用版本。

LSTM

#seq

Long Short-Term Memory 的缩写。

M

机器学习

#fundamentals

用于训练 model。经过训练的模型 根据从以下数据中抽取的新(以前从未见过)数据做出有用的预测: 与用于训练模型的分布相同。

机器学习也指 程序或系统。

多数类

#fundamentals

视频中更常见的标签 分类不平衡的数据集。例如: 假设一个数据集包含 99% 负类别标签和 1% 正类别标签, 负类别标签是多数类别。

少数类相对。

马尔可夫决策过程 (MDP)

#rl

一张表示决策模式的图表, (或操作)可在一系列 马尔可夫属性持有。在 强化学习, 会返回一个数字形式的奖励

马尔可夫属性

#rl

某些环境的属性,其中州或省/直辖市/自治区 完全由模板中隐含的信息决定 当前状态和代理的操作

遮盖语言模型

#language

一个语言模型,用于预测 用于在序列中填空的候选词元。例如, 遮盖语言模型可以计算候选字词的概率 替换以下句子中的下划线:

帽子里的 ____ 回来了。

文献通常使用字符串“MASK”而不是下划线。 例如:

“面具”都归来了

大多数现代的遮盖语言模型都是双向模型。

matplotlib

一个开源 Python 2D 绘图库。 matplotlib 可以帮助您 机器学习的各个不同方面。

矩阵分解

#recsystems

在数学中,一种机制用于寻找其点积近似于 目标矩阵。

推荐系统中,目标矩阵 通常包含items上的评分。例如,目标 电影推荐系统的输入矩阵可能类似于 其中正整数代表用户评分,0 表示用户未给电影评分:

  卡萨布兰卡 《费城故事》 Black Panther 神奇女侠 《低俗小说》
用户 1 5.0 3.0 0.0 2.0 0.0
用户 2 4.0 0.0 0.0 1.0 5.0
用户 3 3.0 1.0 4.0 5.0 0.0

影片推荐系统旨在预测出 未分级电影。例如,用户 1 会喜欢《黑豹》吗?

推荐系统的一种方法是使用矩阵 因式分解生成以下两个矩阵:

  • 用户矩阵,形状为用户数量 X 嵌入维度的数量。
  • 项矩阵,形状为嵌入数量 维度 X 以及项目数量。

例如,对我们的三个用户和五个推荐项使用矩阵因式分解 可以生成以下用户矩阵和项矩阵:

User Matrix                 Item Matrix

1.1   2.3           0.9   0.2   1.4    2.0   1.2
0.6   2.0           1.7   1.2   1.2   -0.1   2.1
2.5   0.5

通过用户矩阵和项矩阵的点积得出推荐值 该矩阵不仅包含原始用户评分,还包含预测 为每个用户未看过的电影 例如,假设用户 1 对“卡萨布兰卡”的评分为 5.0,圆点 与推荐矩阵中该单元对应的产品应该 最好在 5.0 左右,并且:

(1.1 * 0.9) + (2.3 * 1.7) = 4.9

更重要的是,用户 1 会喜欢《黑豹》吗?计算点积 与第三行和第三列相对应, 将得到一个预测值, 4.3 分:

(1.1 * 1.4) + (2.3 * 1.2) = 4.3

矩阵分解通常会生成用户矩阵和项矩阵, 它们的集合明显比目标矩阵更为紧凑。

平均绝对误差 (MAE)

L1 损失为 。按如下方式计算平均绝对误差:

  1. 计算一个批次的 L1 损失。
  2. 将 L1 损失除以该批次中的样本数。

以我们计算的 L1 损失为例, 分为五个样本:

样本的实际值 模型的预测值 损失(实际值与预测值之间的差异)
7 6 1
5 4 1
8 11 3
4 6 2
9 8 1
  8 = L1 损失

因此,L1 损失为 8,样本数量为 5。 因此,平均绝对误差为:

Mean Absolute Error = L1 loss / Number of Examples
Mean Absolute Error = 8/5 = 1.6

对比平均绝对误差与均方误差均方根误差

均方误差 (MSE)

L2 损失为 。按如下方式计算均方误差:

  1. 计算一个批次的 L2 损失。
  2. 将 L2 损失除以该批次中的样本数。

以以下五个样本批次的损失为例:

实际值 模型的预测 损失 平方损失
7 6 1 1
5 4 1 1
8 11 3 9
4 6 2 4
9 8 1 1
16 = L2 损失

因此,均方误差为:

Mean Squared Error = L2 loss / Number of Examples
Mean Squared Error = 16/5 = 3.2

均方误差是一种常用的训练优化器, 尤其是对于线性回归

对比均方误差 平均绝对误差均方根误差

TensorFlow Playground 使用均方误差 计算损失值。

网格

#TensorFlow
#GoogleCloud

在机器学习并行编程中,这个术语与分配数据和 并定义这些值的分片或复制方式。

网格是一个重载术语,可能表示以下任何一种:

  • TPU 芯片的物理布局。
  • 用于将数据和模型映射到 TPU 的抽象逻辑结构 条状标签。

无论是哪种情况,网格均指定为形状

元学习

#language

机器学习的一部分,用于发现或改进学习算法。 元学习系统也可以用来训练模型,以便快速学习新的 少量数据或在之前的任务中积累的经验。 元学习算法通常会尝试实现以下目标:

  • 改进或学习手动设计的功能(例如初始化程序或 优化器)。
  • 提高数据效率和计算效率。
  • 改进泛化。

元学习与少样本学习相关。

指标

#TensorFlow

您关心的统计信息。

目标是机器学习系统提供的一个指标, 尝试进行优化

Metrics API (tf.metrics)

一种用于评估模型的 TensorFlow API。例如:tf.metrics.accuracy 决定了模型的预测结果与标签匹配的频率。

小批次

#fundamentals

在一个集中处理的批次中随机选择的一小部分 迭代。 小批次的批次大小通常是 10 到 1,000 个样本。

例如,假设整个训练集(全批量) 包含 1000 个样本。进一步假设您将 将每个小批次的批次大小设置为 20。因此,每个 从 1000 个样本中随机选择 20 个样本确定损失,然后 会相应地调整权重偏差

相较于基于模型的预测, 损失。

小批次随机梯度下降法

梯度下降法,它使用 小批次。也就是说,小批次随机 梯度下降法会根据 训练数据。常规随机梯度下降法使用 一个大小为 1 的小批次。

极小损失函数 (minimax loss)

损失函数 生成对抗网络, 基于分布之间的交叉熵 和真实数据的特征。

最小损失用于 第一篇论文来描述 生成对抗网络。

少数类

#fundamentals

中不常见的标签 分类不平衡的数据集。例如: 假设一个数据集包含 99% 负类别标签和 1% 正类别标签, 正类别标签是少数类。

大多数类别相对。

专家组合

#language
#generativeAI

一种将神经网络效率提高到 只使用一部分参数(称为专家)来处理 给定输入词元示例。答 门控网络将每个输入令牌或示例路由到适当的专家。

如需了解详情,请参阅以下文章之一:

机器学习

机器学习的缩写。

MMIT

#language
#image
#generativeAI

缩写 多模态指令优化

MNIST

#image

由 LeCun、Cortes 和 Burges 编译的公共领域数据集,其中包含 60,000 张图片,每张图片显示了人类如何手动编写特定的 0 到 9 之间的数字。每张图片都存储为一个 28x28 的整数数组,其中 每个整数都是 0 到 255(含)之间的灰度值。

MNIST 是机器学习的规范数据集,通常用于测试 机器学习方法。有关详情,请参阅 <ph type="x-smartling-placeholder"></ph> MNIST 手写数字数据库

modality

#language

高级数据类别。例如数字、文字、图片、视频和 有五种不同的模态。

模型

#fundamentals

一般来说,任何处理输入数据并返回数据的数学结构 输出。换句话说,模型是一系列参数和结构, 是系统进行预测所需的。 在监督式机器学习中, 模型将样本作为输入,并推断出 预测作为输出结果。在监督式机器学习中, 模型有所不同。例如:

  • 线性回归模型由一组权重组成 和偏差
  • 神经网络模型由以下部分组成:
    • 一组隐藏层,每个隐藏层包含一个或多个隐藏层, 更多神经元
    • 与每个神经元相关的权重和偏差。
  • 决策树模型由以下部分组成:
    • 树木的形状;即条件模式 和叶子相连。
    • 条件开,叶子。

您可以保存、恢复模型或制作模型副本。

非监督式机器学习 生成模型,通常是一个函数,可将输入样本 最合适的集群

模型能力

模型可以学习的问题的复杂性。代码越复杂, 模型可以学习的问题,模型的能力就越高。模型的 容量通常随着模型参数的增加而增加。对于 分类器能力的正式定义,请参阅 VC 维度

模型级联

#generativeAI

为特定推理挑选理想模型的系统 查询。

假设有一组模型,范围非常大(很多 parameters)小得多(参数要少得多)。 超大型模型会消耗更多计算资源, 推理时间。但是, 通常可以推断出比小型模型更复杂的请求。 模型级联决定了推理查询的复杂性,然后 选择适当的模型进行推理。 模型级联的主要目的是减少推理成本,具体方法是 通常会选择较小的模型, 复杂查询。

假设某个小型模型在手机上运行,而该模型的放大版本 在远程服务器上运行良好的模型级联可减少费用和延迟时间, 使较小的模型能够处理简单的请求,并且仅调用 远程模型来处理复杂的请求。

另请参阅型号路由器

模型并行处理

#language

一种扩缩训练或推理的方法,将一个内容的不同部分 model 在不同的设备上运行。模型并行处理 可以让模型因过大而无法适应单一设备。

为了实现模型并行处理,系统通常会执行以下操作:

  1. 将模型分片(划分)为更小的部分。
  2. 将这些较小部分的训练分布到多个处理器。 每个处理器都会训练自己的模型部分。
  3. 组合结果以创建一个模型。

模型并行处理会减慢训练速度。

另请参阅数据并行处理

型号路由器

#generativeAI

为模型确定理想模型的算法, 模型级联中的推理。 模型路由器本身通常是机器学习模型, 会逐渐学习如何为给定输入选择最佳模型。 不过,模型路由器有时可能更为简单, 非机器学习算法。

模型训练

确定最佳模型的过程。

造势

一种先进的梯度下降法,学习步长取决于该算法 不仅要看当前步骤中的导数, 紧接其后的步骤。动量涉及计算 梯度随时间变化的指数加权移动平均值,类似 也就是物理学中的动量势头有时会阻止学习 卡在局部最小值的位置。

MOE

#language
#image
#generativeAI

多名专家的缩写。

多类别分类

#fundamentals

在监督式学习中,分类问题 其中数据集包含两个以上的 。 例如,Iris 数据集中的标签必须是下列其中一项 三个类:

  • 山鸢尾
  • 维吉尼亚鸢尾
  • 变色鸢尾

一个根据 Iris 数据集训练的模型,用于根据新示例预测鸢尾花类型 执行多类别分类。

相比之下,区分两种问题的分类问题则是 类别是二元分类模型 例如,预测“垃圾邮件”或“非垃圾邮件”的电子邮件模型 是一种二元分类模型。

在聚类问题中,多类别分类是指 两个集群中。

多类别逻辑回归

使用逻辑回归 多类别分类问题。

多头自注意力

#language

自注意力的扩展,应用 输入序列中每个位置的自注意力机制。

Transformer 引入了多头自注意力机制。

多模态模型

#language

其输入和/或输出包含多个的模型 模态。例如,假设一个模型同时接受 图片和文本说明(两种模态)作为特征,以及 会输出一个分数,以指示文本说明与图像的适宜程度。 因此,该模型的输入是多模态,而输出是单模态。

多模态指令微调

#language

一个指令微调模型,可以处理输入 文本,例如图片、视频和音频。

多项分类

多类别分类的含义相同。

多项回归

同义词 多类别逻辑回归

多任务

一种机器学习技术,采用这种技术时,系统会调用单个模型 经过训练后可执行多项任务

多任务模型通过基于适合应用场景的数据进行训练而创建, 完成每项不同的任务这样,模型就能够学习 信息,这有助于模型更有效地学习。

针对多项任务训练的模型通常具有提高泛化能力 可以更可靠地处理不同类型的数据。

NaN 陷阱

当模型中的一个数字变为 NaN 时 这会导致模型中的许多或所有其他数字 最终会变成 NaN。

NaN 是“N”(数字)的缩写。

自然语言理解

#language

根据用户输入或说出的内容确定用户的意图。 例如,搜索引擎使用自然语言理解来 根据用户输入或说出的内容确定用户正在搜索的内容。

负类别

#fundamentals

二元分类中,一个类别是 另一个称为“正面”,另一个称为“否定”。正类别为 模型要测试的事物或事件,负类别 例如:

  • 在医学检查中,负类别可以是“非肿瘤”。
  • 电子邮件分类器中的负类别可能是“非垃圾邮件”。

正类别相对。

负采样

候选采样的含义相同。

神经架构搜索 (NAS)

自动设计架构的 神经网络。NAS 算法可以减少 训练神经网络所需的时间和资源。

NAS 通常使用:

  • 搜索空间,即一组可能的架构。
  • 一种健身函数,用于衡量特定指标 架构在给定任务上的表现。

NAS 算法通常从一小部分可能的架构开始, 逐渐扩大搜索空间,因为算法会更详细地了解 架构是否有效。健身函数通常基于 架构性能,其算法是 通常使用 强化学习技术。

经证实,NAS 算法能有效地找到 完成各种任务,包括映像、 分类、文本分类 和机器翻译。

输出表示

#fundamentals

至少包含一个模型 隐藏层深度神经网络 包含多个隐藏层。例如,下图中的 显示了包含两个隐藏层的深度神经网络。

一个神经网络,具有一个输入层、两个隐藏层和一个
          输出层。

神经网络中的每个神经元都连接到下一层中的所有节点。 例如,在上图中,请注意三个神经元 在第一个隐藏层中, 分别与 Transformer 模型中的两个神经元 第二个隐藏层。

在计算机上实现的神经网络有时称为 人工神经网络, 大脑和其他神经系统中存在的神经网络。

一些神经网络可以模拟极其复杂的非线性关系 不同特征和标签之间的差异。

另请参阅卷积神经网络循环神经网络

神经元

#fundamentals

在机器学习中,隐藏层中的一个不同单元 属于神经网络的一部分。每个神经元执行以下任务: 以下两步操作:

  1. 计算输入值相乘的加权和 权重。
  2. 将加权和作为输入传递给 激活函数

第一个隐藏层中的神经元接受来自特征值的输入。 在输入层中。之后的任何隐藏层中的神经元, 第一个隐藏层接受来自前一个隐藏层中神经元的输入。 例如,第二个隐藏层中的神经元接受来自 神经元。

下图突出显示了两个神经元及其 输入。

一个神经网络,具有一个输入层、两个隐藏层和一个
          输出层。突出显示两个神经元:第一个神经元
          一个隐藏层,另一个位于第二个隐藏层。突出显示的
          第一个隐藏层中的神经元可接收来自两个特征的输入。
          输入层中。第二个隐藏层中突出显示的神经元
          从第一个隐藏层中的三个神经元中分别接收输入,
          层。

神经网络中的神经元会模仿大脑中神经元的行为, 神经系统的其他部分。

N 元语法

#seq
#language

N 个单词的有序序列。例如,“truly madly”属于二元语法。因为 顺序相关,“疯狂”是与“真正疯狂”不同的二元语法。

此类 N 元语法的名称 示例
2 二元语法 去、去、吃午餐、吃晚餐
3 三元语法 ate too more、three blind mice、the bell tolls
4 四元语法 公园漫步,风中的尘土,男孩吃扁豆

许多自然语言理解 模型依赖 N 元语法来预测用户将输入的下一个字词 或者说。例如,假设用户输入了“three blind”。 基于三元语法的 NLU 模型可能会预测出 接下来,用户将输入 mice

将 N 元语法与词袋进行比较,词袋是 无序的字词集。

NLU

#language

自然语言的缩写 理解

节点(决策树)

#df

决策树中, conditionleaf

一棵有两个条件和三叶树的决策树。

节点(神经网络)

#fundamentals

隐藏层中的神经元

节点(TensorFlow 图)

#TensorFlow

TensorFlow 中的操作。

噪音

一般来说,是指对数据集中的信号进行模糊处理的任何项目。噪音 可能会以多种方式引入数据。例如:

  • 人工审核者在添加标签时出错。
  • 人类和仪器错误记录或省略特征值。

非二元条件

#df

包含两种以上可能结果的条件。 例如,以下非二元条件包含三种可能的 结果:

一种情况 (number_of_legs = ?),可导致三种可能的
          结果。一种结果 (number_of_legs = 8) 引出一片叶子
          名为“蜘蛛”程序第二个结果 (number_of_legs = 4) 导致
          一片名为狗的叶子。第三个结果 (number_of_legs = 2) 导致
          一片名为企鹅的叶子。

非线性

#fundamentals

无法只表示两个或多个变量之间的关系 通过加法和乘法得出的结果。线性关系 可以用一条线来表示非线性关系 以一条线表示例如,假设有两个模型 映射到单个标签。左侧的模型是线性模型 而右侧的模型为非线性模型:

两个曲线图。一个曲线图是一条直线,因此这是线性关系。
          另一个曲线图是曲线,因此这是非线性关系。

未回答偏差

#fairness

请参阅选择偏差

非平稳性

#fundamentals

其值在一个或多个维度(通常是时间)会发生变化的特征。 以下面的非平稳性示例为例:

  • 特定商店销售的泳衣数量因季节而异。
  • 特定地区特定水果收获的数量 在一年的大部分时间里都是零,但在短期内较大。
  • 由于气候变化,年度平均气温正在发生变化。

平稳性相对。

归一化

#fundamentals

从广义上讲,转换变量实际范围的过程 转换为标准的值范围,例如:

  • -1 至 +1
  • 0 至 1
  • Z 评分(大致介于 -3 到 +3 之间)

例如,假设某个特征的值的实际范围是 800 至 2,400。在特征工程中, 您可以将实际值归一化为一个标准范围,例如 以 -1 为 +1。

归一化是 特征工程。模型的训练速度通常更快 模型中的每个数值特征, 特征向量的范围大致相同。

新奇性检测

确定新(新)样本是否来自同一个流程 用作训练集。也就是说, 基于训练集进行训练,新颖性检测决定了新的 样本(在推理过程中或额外训练期间) 离群值

离群值检测相对。

数值数据

#fundamentals

用整数或实数表示的特征。 例如,房屋估价模型可能会将房屋估价 (以平方英尺或平方米为单位)。表示 一种数值数据,表示该特征的值 与标签的数学关系。 也就是说,房屋的平方米数 与房屋价值的数学关系。

并非所有整数数据都应表示为数值数据。例如: 世界上某些地区的邮政编码是整数;但是,整数邮政 在模型中不应表示为数值数据。这是因为 邮政编码 20000 的效果不是邮政编码的两倍(或一半) 10,000。此外,虽然不同的邮政编码确实对应不同的 则我们无法假设邮政编码的房地产价值 在邮政编码为 10000 时,20000 的价值是房地产价值的两倍。 邮政编码应表示为分类数据

数值特征有时也称为 连续特征

NumPy

开源数学库 ,后者可在 Python 中提供高效的数组操作。 Pandas 是基于 NumPy 构建的。

O

目标

算法尝试优化的指标。

目标函数

模型旨在优化的数学公式或指标。 例如, 线性回归通常采用 均方损失。因此,在训练一个 线性回归模型,训练旨在最大限度地降低均方损失。

在某些情况下,目标是最大化目标函数。 例如,如果目标函数是准确率,则目标为 以最大限度地提高准确性。

另请参阅损失

斜面

#df

决策树中, 包含多个项的条件 feature。例如,如果高度和宽度都是特征, 则以下为倾斜条件:

  height > width

轴对齐条件相对。

离线

#fundamentals

相当于 static

离线推理

#fundamentals

模型生成一批预测的过程 然后缓存(保存)这些预测。然后,应用便可以访问 从缓存中进行预测,而不是重新运行模型。

例如,假设一个模型生成本地天气预报 (预测)。每个模型运行后,系统会 缓存所有本地天气预报。天气应用会检索天气预报 从缓存中移除

离线推理也称为静态推理

在线推理相对。

独热编码

#fundamentals

将分类数据表示为向量,其中:

  • 一个元素设置为 1。
  • 所有其他元素均设为 0。

独热编码通常用于表示字符串或标识符, 具有一组有限的可能值。 例如,假设某个分类特征名为 Scandinavia 有五个可能的值:

  • “丹麦”
  • “瑞典”
  • “挪威”
  • “芬兰”
  • “冰岛”

独热编码可以表示这五个值中的每个值,如下所示:

country 矢量
“丹麦” 1 0 0 0 0
“瑞典” 0 1 0 0 0
“挪威” 0 0 1 0 0
“芬兰” 0 0 0 1 0
“冰岛” 0 0 0 0 1

得益于独热编码,模型可以学习 。

将特征表示为数值数据是一种 是独热编码的替代方案。遗憾的是,代表 从数量来看,斯堪的纳维亚国家并不是一个好的选择。例如: 请考虑以下数字表示形式:

  • “丹麦”为 0
  • “瑞典”为 1
  • “挪威”是 2
  • “芬兰”是 3
  • “冰岛”是 4

通过数字编码,模型可以解读原始数字 并尝试利用这些数字进行训练。 然而,冰岛实际上并不是 因此模型会得出一些奇怪的结论。

单样本学习

一种机器学习方法,通常用于对象分类, 旨在通过单个训练示例学习有效的分类器。

另请参阅少样本学习 零样本学习

单样本提示

#language
#generativeAI

一个提示,其中包含一个示例,演示了 大语言模型应做出响应。例如: 以下提示包含一个示例,该示例展示了大型语言模型 应该能够回答查询

一个提示的组成部分 备注
指定国家/地区的官方货币是什么? 您希望 LLM 回答的问题。
法国:欧元 一个例子。
印度 实际查询。

单样本提示与以下术语进行比较和对比:

一对多

#fundamentals

假设存在一个 N 类别的分类问题, 由 N 个单独的 二元分类器 - 一个二元分类器, 可能的结果。例如,假设有一个对样本进行分类的模型 一对多解决方案,可以提供 三个独立的二元分类器:

  • 动物和非动物
  • 蔬菜和非蔬菜
  • 矿物和非矿物

在线

#fundamentals

动态的含义相同。

在线推理

#fundamentals

根据需求生成预测。例如: 假设某个应用将输入传递给模型,并针对 预测。 使用在线推理的系统通过运行 模型(并将预测结果返回给应用)。

离线推理相对。

操作 (op)

#TensorFlow

在 TensorFlow 中,任何创建、 会操纵或销毁张量。对于 例如,矩阵乘法就是将两个张量作为 并生成一个张量作为输出。

Optax

适用于 JAX 的梯度处理和优化库。 Optax 提供了可用于研究的基块, 以自定义方式进行重新组合,以优化参数模型,例如 深度神经网络。其他目标包括:

  • 提供可读、经过充分测试且高效的实现 核心组件。
  • 能够将低水平成分组合在一起,从而提高效率 到自定义优化器(或其他梯度处理组件)中。
  • 让所有人都能轻松采用新想法,加快采用速度 参与贡献。

优化器

梯度下降法的一种具体实现 算法。热门优化器包括:

  • AdaGrad(表示 ADAptive GRADient descent)。
  • Adam,全称为 ADAptive with Momentum。

群外同质性偏差

#fairness

认为群外成员比群内成员更相似的趋势 比较态度、价值观、性格特征 特征。群内是指您经常互动的人; 群外是指您不经常互动的人。如果您 通过要求用户提供相关属性来创建数据集 群体之外的群体,这些属性可能没那么细微,而是更有偏见 比参与者为组内人员列出的属性要好得多。

例如,小人国人可能会描述其他小人人民众的房屋 其中指出了建筑风格、窗户、 门和尺寸然而,同样的小人国人可能直接声明 兄弟姐妹们都住在相同的房子里。

群外同质性偏差是一种 群体归因偏差

另请参阅群内偏差

离群值检测

识别数据中离群值的过程 训练集

新颖性检测相对。

离群数据

与大多数其他值差别很大的值。在机器学习中, 以下为离群值:

  • 值超过大约 3 个标准差的输入数据 。
  • 绝对值较高的权重
  • 与实际值相差很大的预测值。

例如,假设 widget-price 是某个模型的特征。 假设平均 widget-price 为 7 欧元,带标准差 即 1 欧元包含 12 欧元或 2 欧元的 widget-price 的示例 就会被视为离群值 5 个标准差。

离群值通常是由拼写错误或其他输入错误导致的。在其他情况下 离群值并非错误;毕竟,值为 5 个标准差 很少有,但几乎不可能。

离群值常常会导致模型训练出现问题。裁剪 是管理离群值的一种方法。

开箱评估(OOB 评估)

#df

一种用于评估 决策森林,具体做法是测试每个 决策树 示例 该决策树的训练。例如,在 可以看到,系统会对每个决策树进行训练, 基于三分之二的样本,然后根据 所剩三分之一的样本。

决策森林由三个决策树组成。
          一个决策树针对三分之二的样本进行训练
          然后将剩余的三分之一用于 OOB 评估。
          第二个决策树在不同的三分之二处进行训练
          与上一个决策树相比,
          使用的三分之一用于 OOB 评估,
          先前的决策树。

袋子评估是一种高效且保守的计算方法 交叉验证机制的近似值。 在交叉验证中,每个交叉验证轮次都训练一个模型 (例如,10 次交叉验证中训练了 10 个模型)。 采用 OOB 评估时,只会训练单个模型。因为bagging 会在训练期间从每个树中保留一些数据,OOB 评估可以使用 将数据用于近似交叉验证。

输出层

#fundamentals

“最终版本”是神经网络的一层。输出层包含预测结果。

下图显示了一个带输入的小型深度神经网络, 、两个隐藏层和一个输出层:

具有一个输入层、两个隐藏层和一个
          输出层。输入层包含两个特征。第一个
          由三个神经元和第二个隐藏层组成,
          由两个神经元组成。输出层由单个节点组成。

过拟合

#fundamentals

创建与所选模型匹配的 训练数据过于紧密,以致于模型无法 根据新数据做出正确的预测。

正则化可以减少过拟合。 使用庞大而多样的训练集进行训练也可以减少过拟合。

oversampling

重复使用少数类样本 , 创建一个更均衡的训练集

例如,假设有一种二元分类 一个问题,即大多数群体与 少数类为 5,000:1。如果数据集包含 100 万个样本,则 该数据集仅包含约 200 个少数类的样本, 样本太少,无法有效训练。为了克服这一缺陷, 可能会对这 200 个样本进行多次过采样(重复使用) 足够的样本来进行有用训练。

当出现过拟合现象时,您需要注意过过拟合的情况。 过采样。

欠采样相对。

P

打包数据

一种更高效地存储数据的方法。

封装数据使用压缩格式或在 以便更高效地访问数据 打包数据可最大限度减少处理集群时所需的内存和计算量 从而加快训练速度和提高模型推断效率。

封装数据通常与其他技术一起使用, 数据增强正则化,进一步提高模型的性能 models(模型)。

pandas

#fundamentals

基于 numpy 构建的面向列的数据分析 API。 许多机器学习框架 包括 TensorFlow,支持将 Pandas 数据结构作为输入。请参阅 Pandas 文档 了解详情。

参数

#fundamentals

模型学习的权重偏差 training. 的。例如,在 线性回归模型,其参数包括 偏差 (b) 和所有权重(w1w2、 等)。

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

相比之下,超参数(或超参数调优服务)提供给模型。 例如,学习速率就是一种超参数。

参数高效微调

#language
#generativeAI

一组用于微调大型广告的技术 预训练语言模型 (PLM) 比完全微调的效率更高。参数高效 “微调”通常对参数进行微调要比完整参数少得多 微调,但通常会生成 大语言模型, 大型语言模型, 微调。

将参数高效调优与以下各项进行比较和对比:

参数高效微调也称为“参数高效微调”

参数服务器 (PS)

#TensorFlow

一个作业,负责跟踪模型参数的 分布式设置

参数更新

调整模型参数的操作: 通常在一次迭代中 梯度下降法

偏导数

一种导数,除一个变量之外的所有变量都被视为常数。 例如,f(x, y) 相对于 x 的偏导数为 f 的导数被视为 x 本身的函数(即保持 y 常量)。f 相对于 x 的偏导数仅关注 xx 如何变化并忽略方程中的其他所有变量。

参与偏差

#fairness

与未回答偏差的含义相同。请参阅选择偏差

划分策略

划分变量的算法 参数服务器

Pax

一个专为训练大型语言模型 神经网络 模型,非常大 它们跨多个 TPU 加速器芯片 切片Pod

Pax 基于 Flax 构建,而后者基于 JAX 构建。

指示 Pax 在软件堆栈中位置的图表。
          Pax 基于 JAX 构建。Pax 本身包含三个
          层。最底层包含 TensorStore 和 Flax。
          中间层包含 Optax 和 Flaxformer。顶部
          图层包含 Praxis Modeling Library。Fiddle 已建成
          放在 Pax 上。

感知机

接受一个或多个输入值的系统(硬件或软件); 对输入的加权和运行函数,并计算单个 输出值。在机器学习中,函数通常是非线性函数,如 ReLUsigmoidtanh。 例如,以下感知器依赖 S 型函数来处理 三个输入值:

$$f(x_1, x_2, x_3) = \text{sigmoid}(w_1 x_1 + w_2 x_2 + w_3 x_3)$$

在下图中,感知机接受三项输入, 本身经权重修改后才进入感知器:

接收 3 个输入的感知机,每个输入乘以单独的
          权重。感知机输出单个值。

感知机是人类社会中的神经元神经网络

performance

多含义术语,含义如下:

  • 软件工程中的标准含义。即: 软件是否(或高效)运行?
  • 机器学习中的含义。在这里,效果回答了 以下问题:此模型的准确度如何?也就是说, 模型的预测有多好?

排列变量重要性

#df

一种变量重要性,用于评估 将模型进行排列处理后,模型预测误差的增长幅度 特征值。排列变量重要性与模型无关 指标。

困惑度

一种衡量指标,用于衡量模型完成任务的效果。 例如,假设您的任务是读出一个单词的前几个字母 用户使用手机键盘输入文字,并提供一系列可 补全字词。此任务的困惑度 P 约为 您需要提供的猜测数量,这样您的列表中才能包含 用户尝试输入的字词。

困惑度与交叉熵的关系如下:

$$P= 2^{-\text{cross entropy}}$$

管道

机器学习算法的基础架构。流水线 包括收集数据、将数据放入训练数据文件、 训练一个或多个模型,然后将模型导出到生产环境。

流水线

#language

模型并行处理的一种形式,即模型的 处理过程分为连续的阶段, 在不同设备上当一个阶段处理一个批次时,上一个阶段会处理一个批次, 可以处理下一批次。

另请参阅分阶段训练

Pjit

一个 JAX 函数,用于拆分代码以在多个环境中运行 加速器芯片。用户向 pjit 传递一个函数, 该函数会返回一个具有等效语义但被编译为 转换为可跨设备运行的 XLA 计算 (例如 GPU 或 TPU 核心)。

pjit 让用户能够将计算分片化,而不必使用 SPMD 分区。

截至 2023 年 3 月,pjit 已与 jit 合并。请参阅 分布式阵列和自动 并行处理 了解详情。

PLM

#language
#generativeAI

预训练语言模型的缩写。

Pmap

执行输入函数副本的 JAX 函数 在多个底层硬件设备上 (CPU、GPU 或 TPU),具有不同的输入值。 pmap 依赖于 SPMD

policy

#rl

在强化学习中,代理的概率映射 从状态变为操作

池化

#image

减少由先验算法创建的一个或多个矩阵 卷积层转换为较小的矩阵。 池化通常涉及取最大值或平均值 泳池区域例如,假设我们有 以下 3x3 矩阵:

3x3 矩阵 [[5,3,1], [8,2,5], [9,4,3]]。

池化运算和卷积运算类似, 然后将该卷积运算 strides。例如,假设池化运算 以 1x1 步长将卷积矩阵分割为 2x2 个切片。 如下图所示,发生了四个池化运算。 假设每个池化运算都选择 四个选项:

输入矩阵为 3x3,值为 [[5,3,1], [8,2,5], [9,4,3]]。
          输入矩阵左上角的 2x2 子矩阵为 [[5,3], [8,2]],因此
          左上角的池化运算得出值 8(即
          (最多 5、3、8 和 2)。输入值的右上角 2x2 子矩阵
          矩阵为 [[3,1], [2,5]],因此右上角的池化运算可产生
          值为 5。输入矩阵左下角的 2x2 子矩阵为
          [[8,2], [9,4]],因此左下角池化运算得出值
          9.输入矩阵右下角的 2x2 子矩阵为
          [[2,5], [4,3]],因此右下角池化运算得出值
          5.总而言之,池化运算可生成 2x2 矩阵
          [[8,5], [9,5]]。

池化有助于强制执行 输入矩阵中的平移不变性

对于视觉应用,池化的更正式名称为空间池化。 时间序列应用通常将池化称为时序池化。 按照不太正式的说法,池化通常称为下采样降采样

位置编码

#language

一种将有关词元在序列中的位置的信息添加到 词元的嵌入。Transformer 模型使用位置 以便更好地了解数据中不同部分之间的关系, 序列。

位置编码的常见实现是使用正弦函数。 (具体而言,正弦函数的频率和振幅为 取决于词元在序列中的位置。)这种方法 Transformer 模型可以学习处理 序列。

正类别

#fundamentals

要测试的类。

例如,癌症模型中的正类别可以是“肿瘤”。 在电子邮件分类器中,正类别可以是“垃圾邮件”。

负类别相对。

后处理

#fairness
#fundamentals

运行模型后调整模型的输出。 后处理可用于强制执行公平性约束, 自己修改模型的过程。

例如,可以将后处理应用于二元分类器 方法是设置分类阈值, 保持机会平等 检查真正例率 都是相同的。

PR AUC(PR 曲线下的面积)

插值下的面积 精确率/召回率曲线,通过绘制 (召回率、精确率)点来表示 分类阈值。这取决于 PR AUC 可能等于 模型的平均精确率

Praxis

Pax 的高性能核心机器学习库。Praxis 通常是 名为“图层库”。

Praxis 不仅包含 Layer 类的定义,而且包含大多数 其支持组件,包括:

Praxis 提供了 Model 类的定义。

精确度

一种分类模型指标,可回答 以下问题:

当模型预测为正类别时, 正确预测的比例是多少?

公式如下:

$$\text{Precision} = \frac{\text{true positives}} {\text{true positives} + \text{false positives}}$$

其中:

  • 真正例意味着模型正确预测了正类别。
  • 假正例是指模型错误地预测了正类别。

例如,假设某个模型进行了 200 次正向预测。 在这 200 个正例预测中:

  • 其中 150 个为真正例。
  • 其中 50 为假正例。

在此示例中:

$$\text{Precision} = \frac{\text{150}} {\text{150} + \text{50}} = 0.75$$

准确率召回率相对。

精确率与召回率曲线

精确率召回率在不同时间点之间的曲线 分类阈值

预测

#fundamentals

模型的输出。例如:

  • 二元分类模型的预测结果要么是正例, 类别或负类别。
  • 多类别分类模型的预测是一个类别。
  • 线性回归模型的预测结果是一个数字。

预测偏差

一个值,表示 预测数据取自标签的平均值 数据集中。

请勿与机器学习模型中的偏差项混淆。 或存在道德和公平性偏差

预测性机器学习

任何标准(“经典”)机器学习系统。

“预测性机器学习”一词没有正式定义。 实际上,该术语用于区分一类机器学习系统,而不是根据 生成式 AI

预测性对等

#fairness

一项公平性指标,用于检查: 对于给定分类器,精确率率 对于所考虑的子群体而言是等效的。

例如,预测大学录取信息的模型将满足 国籍的预测对等(如果精确率相同) 小人国和大陆人。

预测性对等有时也称为“预测性比率对等”。

有关详情,请参阅“公平性定义” 已说明”(第 3.2.1 节) ,详细了解预测对等性。

预测率对等

#fairness

预测性对等的别名。

预处理

#fairness
在将数据用于训练模型之前对其进行处理。预处理 就像从英语文本库中删除不 出现在英语字典中,或者可能很复杂, 以消除尽可能多与 敏感属性。 预处理有助于满足公平性限制

预训练模型

#language
#image
#generativeAI

模型或模型组件(例如 嵌入向量)。 有时,您需要将预训练嵌入向量馈送到 神经网络。其他时候,您的模型将训练 嵌入向量本身,而不是依赖于预训练嵌入。

“预训练的语言模型”一词是指 前面介绍的大语言模型 预训练

预训练 (pre-training)

#language
#image
#generativeAI

基于大型数据集进行模型的初始训练。一些预训练模型 都是笨拙的巨人,通常必须通过额外训练加以改善。 例如,机器学习专家可能会 基于大型文本数据集的大语言模型, 例如维基百科中的所有英文页面。在预训练之后, 我们可以通过以下任一方式进一步优化生成的模型 方法:

先验信念

在开始用数据进行训练之前,您对该数据有何看法。 例如,L2 正则化依赖于 并且认为权重应该很小且正常, 分布在零左右。

概率回归模型

一个回归模型,它不仅使用 每个特征权重,以及 权重的不确定性。概率回归模型 以及预测的不确定性。例如, 预测结果为 325, 标准差为 12。如需详细了解概率回归 请参阅此Colab tensorflow.org.

概率密度函数

一个函数,用于标识正好具有 特定值。当数据集的值是连续浮点值时 则很少出现完全匹配。不过,如果对概率进行积分, 从值 x 到值 y 的密度函数求得 xy之间的数据样本。

例如,假设正态分布的平均值为 200, 标准差 30。确定数据样本的预期频率 211.4 到 218.7 之间的值,就可以对概率 211.4 到 218.7 的正态分布的密度函数。

提示符

#language
#generativeAI

作为输入到大语言模型的任何文本 来调节模型以特定方式的行为。提示可短至 短语或任意长度的内容(例如,小说的整段文字)。提示 分为多个类别,包括下表中显示的类别:

提示类别 示例 备注
问题 鸽子能飞多快?
指令 写一首有关套利的趣味诗。 要求大语言模型执行某项操作的提示。
示例 将 Markdown 代码翻译为 HTML。例如:
Markdown:* 列表项
HTML:<ul><li>列表项</li>&lt;/ul&gt;
此示例提示中的第一句话是一条指令。 提示的其余部分就是示例。
角色 解释为什么在机器学习训练中使用梯度下降法 拥有物理学博士学位。 句子的第一部分是指令;短语 “获得物理学博士学位”是角色部分
模型要完成的部分输入 英国首相住在 部分输入提示可能会出现突然结束的情况(本例就是这样) 或以下划线结尾。

生成式 AI 模型可以使用文本来回答提示, 代码、图片、嵌入、视频等几乎任何内容。

提示式学习

#language
#generativeAI

某些模型具备适应能力 对任意文本输入的响应行为(提示)。 在基于提示的典型学习范式中, 大语言模型会通过以下方式响应提示: 生成文本。例如,假设用户输入以下提示:

总结牛顿第三运动定律。

能够基于提示进行学习的模型并未经过专门训练, 上一个提示。相反,模型“知道”我们可以看到很多关于物理学的知识 一般语言规则,以及一般语言规则的构成要素, 有用的答案。这些知识足以提供(有希望)实用的帮助 回答。其他人工反馈(“那个答案太复杂了。”或 “什么是反应?”)可让一些基于提示的学习系统逐渐 提高答案的实用性。

提示设计

#language
#generativeAI

提示工程的含义相同。

提示工程

#language
#generativeAI

创建可触发所需回答的提示的技巧 构建自大语言模型。人工执行提示 工程。撰写结构合理的提示是确保 生成有用的响应。提示工程依赖于 许多因素,包括:

请参阅 提示设计简介 详细了解如何撰写实用提示。

提示设计是提示工程的同义词。

提示调优

#language
#generativeAI

参数高效微调机制 学习“前缀”的系统会将前缀 实际的提示

提示调优(有时称为前缀调优)的一种变体是 请在每一层前添加该前缀。相比之下,大多数提示调优都只 向输入层添加前缀。

代理标签

#fundamentals

用于粗略在数据集内无法直接提供的标签的数据。

例如,假设您必须训练模型来预测员工 压力水平。您的数据集包含很多预测特征, 未包含名为压力水平的标签。 信心十足,拿出“工作场所事故”用作 压力水平。毕竟,承受高压力的员工会 而不是让员工平静下来真的吗?可能是工作场所事故 实际上是出于多种原因的。

再举个例子,假设您要将 is it raining? 设为布尔值标签。 但您的数据集不包含雨水数据。如果 您就可以创建一些人物照片 遮阳伞作为“在下雨吗?”的代理标签。你说的是不是 一个合适的代理标签?有可能,但某些文化背景的人 相比下雨,人们更有可能带伞防晒。

代理标签通常并不完善。请尽可能选择实际标签, 代理标签。也就是说,如果没有实际标签,请选择代理 标签,选择最不严重的候选代理标签。

代理(敏感属性)

#fairness
用作广告 ID 的替代属性 sensitive 属性。例如, 个人的邮政编码可用作其收入的替代项 种族或民族。

纯函数

一个函数,其输出仅基于其输入,且没有边 效果。具体来说,纯函数不使用或更改任何全局状态, 例如文件的内容或函数外的变量值。

纯函数可用于创建线程安全代码, 将模型代码分片到多个 加速器芯片

JAX 函数转换方法需要 输入函数是纯函数。

Q

Q 函数

#rl

强化学习中, 用于预测通过购买渠道获得的预计回报 action(在 state,然后遵循指定的政策

Q 函数也称为状态-操作值函数

Q 学习

#rl

强化学习 允许代理 以学习优化的 Q 函数 马尔可夫决策过程贝尔曼方程式。马尔可夫决策过程模型 环境

分位数

分位数分桶中的每个分桶。

分位数分桶

将一个特征的值分布到分桶中, 相同(或几乎相同)的样本数量。例如: 下图将 44 个点分为 4 个存储分区,每个存储分区 包含 11 个点。为使图中的每个桶都包含 但有些分区跨越不同宽度的 x 值。

44 个数据点分为 4 个存储分区,每个存储分区 11 个点。
          虽然每个存储分区包含相同数量的数据点,
          有些存储分区包含的特征值范围要比其他存储分区
          存储分区。

量化

一个多含义术语,可用于以下任何用途:

  • 实现分位数分桶 特定功能
  • 将数据转换为零和零,以加快存储、训练和 和推理。由于布尔值数据比 其他格式,量化可以提高模型的正确性。 量化技术包括舍入、截断和 分箱
  • 减少用于存储模型 parameters。例如,假设某个模型的参数为 存储为 32 位浮点数。量化 从 32 位到 4 位、8 位或 16 位。量化可减少 以下:

    • 计算、内存、磁盘和网络用量
    • 推断预测所需的时间
    • 功耗

    然而,量化有时会降低模型的正确性, 预测。

队列

#TensorFlow

一种 TensorFlow 操作,用于实现队列数据 结构。通常用于 I/O 操作。

R

RAG

#fundamentals

缩写 检索增强生成

随机森林

#df

决策树集成学习, 每个决策树都使用特定的随机噪声进行训练, 例如 bagging

随机森林是一种决策森林

随机政策

#rl

强化学习中, policy,它选择 操作

排名

一种监督式学习, 对一系列商品进行排序。

秩(序数)

一个类别在机器学习问题中的序数位置, 从高到低的顺序。例如,行为排名 系统可以将狗狗的奖励从高到低(牛排) 最低的(枯萎的羽衣甘蓝)。

秩(张量)

#TensorFlow

张量中的维数。例如: 标量的秩为 0,向量的秩为 1,矩阵的秩为 2。

请勿与排名(序数)混淆。

标注者

#fundamentals

样本提供标签的人员。 “注释者”是标注者的别称。

召回

一种分类模型指标,可回答 以下问题:

标准答案正类别:有多大比例的预测属于正类别 模型被正确识别为正类别呢?

公式如下:

\[\text{Recall} = \frac{\text{true positives}} {\text{true positives} + \text{false negatives}} \]

其中:

  • 真正例意味着模型正确预测了正类别。
  • 假负例意味着模型错误地预测了 负类别

例如,假设您的模型对 标准答案是正类别。在这 200 条预测中:

  • 其中 180 个为真正例。
  • 其中 20 个为假负例。

在此示例中:

\[\text{Recall} = \frac{\text{180}} {\text{180} + \text{20}} = 0.9 \]

推荐系统

#recsystems

一种系统,为每个用户选择相对较小的所需集合 items。 例如,视频推荐系统可能会推荐两个视频 从包含 10 万个视频的语料库中选择“Casablanca”,然后 第一位用户是《费城故事》《神奇女侠》《黑豹》。视频推荐系统可能会 的推荐基于以下因素:

  • 同类用户已评分或观看过的电影。
  • 类型、导演、演员、目标人群...

修正线性单元 (ReLU)

#fundamentals

一个具有以下行为的激活函数

  • 如果输入为负或 0,则输出为 0。
  • 如果输入为正数,则输出等于输入。

例如:

  • 如果输入为 -3,则输出为 0。
  • 如果输入为 +3,则输出为 3.0。

以下是 ReLU 的一个曲线图:

两条直线的笛卡尔图。第一行有一个常量,
          y 值为 0,沿 x 轴运行,范围为 -无穷大,0 到 0,-0。
          第二行从 0,0 开始。这条线的斜率为 +1,因此
          范围为 0,0 到 +无穷大,+无穷大。

ReLU 是一种非常流行的激活函数。虽然行为简单, ReLU 仍然能让神经网络学习非线性函数 特征标签之间的关系。

循环神经网络

#seq

故意运行多个神经网络 每次运行的一部分会馈入到下一次运行。具体而言, 隐藏层提供 传递给同一个隐藏层。循环神经网络 对评估序列特别有用, 可以从神经网络之前在 序列。

例如,下图显示了一个循环神经网络, 运行四次。请注意,从隐藏层中学到的值 第一次运行会成为相同隐藏层的输入的一部分, 第二次运行时。同样,在隐藏层中学习的值 第二次运行成为模型中同一隐藏层的输入。 第三次运行。通过这种方式,循环神经网络 预测整个序列的含义,而不仅仅是 组成。

运行四次以处理四个输入词的 RNN。

回归模型

#fundamentals

通俗地说,是指生成数值预测的模型。(相比之下, 分类模型会生成一个类, prediction.)例如,以下都是回归模型:

  • 用于预测某个房屋价值(例如 423,000 欧元)的模型。
  • 用于预测某棵树的预期寿命(如 23.2 年)的模型。
  • 一个用于预测某个城市降雨量的模型 例如“0.18 英寸”

两种常见的回归模型类型是:

  • 线性回归,用于找出最接近 使标签值适合特征。
  • 逻辑回归,生成 之后系统映射到某个类别的概率, 预测。

并非所有输出数值预测结果的模型都是回归模型。 在某些情况下,数字预测实际上只是一种分类模型 恰好具有数字类名称的事件。例如,预测 数字邮政编码属于分类模型,而不是回归模型。

正则化

#fundamentals

任何可减少过拟合的机制。 常见的正则化类型包括:

正则化还可以定义为对模型复杂度的惩罚。

正则化率

#fundamentals

一个数字,用于指定 正则化。提升 正则化率可以降低过拟合,但 降低模型的预测能力。相反,减少或省略 正则化率会增加过拟合。

强化学习 (RL)

#rl

学习最优政策的一系列算法,其目标 尽可能提高回报 环境。 例如,大多数游戏的最终奖励是胜利。 强化学习系统可以成为玩复杂游戏的专家 通过评估最终 最终导致失败。

基于人类反馈的强化学习 (RLHF)

#generativeAI
#rl

根据人工审核者的反馈来提高模型回答的质量。 例如,RLHF 机制可以要求用户对模型的 用 👍? 或 👎? 表情符号回复。然后,该系统可以调整其未来的响应 。

ReLU

#fundamentals

校正线性单元的缩写。

重放缓冲区

#rl

在类 DQN 算法中,代理使用的内存 存储状态转换以便在 体验重放

副本

训练集模型的副本; 通常是在另一台机器上例如,系统可以使用以下代码 实现数据并行处理的策略:

  1. 将现有模型的副本布置在多台机器上。
  2. 将训练集的不同子集发送到每个副本。
  3. 聚合参数更新。

报告偏差

#fairness

人们撰写有关行动的频率高, 或属性并不能反映真实情况 频率或属性的特征程度 是一类人。报告偏差可能会影响受众群体的构成 可供机器学习系统学习的数据。

例如,在书中,大笑一词比 呼吸。一个机器学习模型, 笑声和呼吸方式或许能确定 哈哈大笑比呼吸更常见

相同的矢量表示。

将数据映射到实用特征的过程。

重排序

#recsystems

推荐系统的最后阶段, 在此期间,系统可能会根据其他一些信息, (通常是非机器学习)算法。重新排名会评估项列表 在打分阶段生成的内容,例如:

  • 删除用户已购买的商品。
  • 提高较新项的得分。

检索增强生成 (RAG)

#fundamentals

提高网页质量的 大语言模型 (LLM) 输出 将模型与在模型训练完成后检索到的知识来源结合起来进行分析。 RAG 通过为训练好的 LLM 提供 访问从可信知识库或文档中检索到的信息。

使用检索增强生成的常见动机包括:

  • 提高模型所生成回答的事实准确性。
  • 让模型可以访问未用于训练的知识。
  • 改变模型使用的知识。
  • 启用模型以引用来源。

例如,假设化学应用使用 PaLM API,用于生成摘要。 与用户查询的内容相关当应用后端收到查询时,会执行以下操作:

  1. 搜索(“检索”)与用户查询相关的数据。
  2. 将相关化学数据附加(“增强功能”)到用户的查询中。
  3. 指示 LLM 根据附加的数据创建摘要。

回车键

#rl

在强化学习中,给定特定政策和特定状态, 回报率是客服人员提供的所有奖励的总和 您按照政策操作后会收到的 state分集的末尾。代理 通过打折奖励机制来考虑预期奖励的延迟性质 获取奖励所需的状态转换。

因此,如果折扣系数为 \(\gamma\),而 \(r_0, \ldots, r_{N}\) 表示奖励直至剧集结束,然后计算回报率 如下所示:

$$\text{Return} = r_0 + \gamma r_1 + \gamma^2 r_2 + \ldots + \gamma^{N-1} r_{N-1}$$

奖励

#rl

在强化学习中, 处于状态action,由 环境

岭正则化

L2 正则化的含义相同。字词 岭正则化更常用于纯统计学领域 而 L2 正则化则更为常用。 机器学习。

RNN

#seq

循环神经网络的缩写。

ROC(接收者操作特征)曲线

#fundamentals

真正例率与 不同指标的假正例率 分类阈值(以二进制形式) 分类。

ROC 曲线的形状表明二元分类模型的能力 来区分正类别和负类别。例如,假设 二元分类模型完全 全部正类别中的权重:

一个数轴,右侧是 8 个正例;
          左侧为 7 个反例。

上述模型的 ROC 曲线如下所示:

ROC 曲线。x 轴表示假正例率,y 轴表示
          是真正例率。曲线为反转的 L 形。曲线
          从 (0.0,0.0) 开始,一直向上延伸到 (0.0,1.0)。然后曲线
          从 (0.0,1.0) 到 (1.0,1.0)。

相比之下,下图则显示了原始逻辑回归 也就是无法区分负类别和负类别的 正类别:

包含正例和负类别的数轴

此模型的 ROC 曲线如下所示:

ROC 曲线,实际上是 (0.0,0.0) 的直线
          到 (1.0,1.0)。

与此同时,在现实世界中,大多数二元分类模型 正类别和负类别都在一定程度上,但通常并不完美。因此, 典型的 ROC 曲线介于以下两个极端之间:

ROC 曲线。x 轴表示假正例率,y 轴表示
          是真正例率。ROC 曲线近似于摇动的弧形
          从西向北遍历罗盘点

理论上,ROC 曲线上最接近 (0.0,1.0) 的点可识别 理想的分类阈值。不过,现实生活中的一些其他问题 影响对理想分类阈值的选择。例如: 假负例比假正例更能带来痛苦。

一种称为AUC的数值指标将 ROC 曲线总结为 单个浮点值。

角色提示

#language
#generativeAI

提示的可选部分,用于标识目标对象群组 生成式 AI 模型的回答。没有角色 大型语言模型提供的答案不一定有用, 。使用角色提示、大型语言模型 模型能够以更合适、更有用的方式 特定目标受众群体。例如,下面的“角色提示”部分 以粗体显示的提示:

  • 总结一下获得经济学博士学位这篇文章。
  • 描述潮汐如何适用于 10 岁儿童
  • 解释 2008 年金融危机。像对待年幼的孩子一样, 或金毛寻回犬。

#df

起始节点(第一个 条件树)位于决策树中。 按照惯例,图表会将根置于决策树的顶部。 例如:

一棵有两个条件和三叶树的决策树。通过
          起始条件 (x > 2) 为根。

根目录

#TensorFlow

您指定的用于托管 TensorFlow 子目录的目录 多个模型的检查点和事件文件。

均方根误差 (RMSE)

#fundamentals

均方误差的平方根。

旋转不变性

#image

在图像分类问题中,算法成功识别图像的能力 即使图像的方向发生变化,也可以对图像进行分类。例如: 无论球拍是否朝上,算法仍能识别 或向下拉请注意,旋转不变性并非总是不可取的; 例如,倒置的 9 不应归类为 9。

另请参阅平移不变性大小不变性

R 平方

回归指标,指示 label 是单个特征或某个特征集引起的。 R 平方值是介于 0 到 1 之间的值,您可以将其解读如下:

  • R 平方值为 0 表示标签的变化并非由 特征集。
  • R 平方值为 1 表示标签的所有变化都由 特征集。
  • 0 到 1 之间的 R 平方表示标签的 可以根据特定特征或特征集预测变体。 例如,如果 R 平方值为 0.10,则表示方差为 10%。 R 平方为 0.20, 20% 取决于特征集,依此类推。

R 平方是 皮尔逊相关 系数 模型预测的值与标准答案之间的差异。

S

采样偏差

#fairness

请参阅选择偏差

采样并替换

#df

一种从一组具有相同候选字词的候选字词中选择字词的方法, 可以被多次选中。短语“带替换”含义 每次选择后,所选内容都会返回到池中 候选字词。反向方法,即不进行替换采样, 表示一个候选项只能被选择一次。

例如,请考虑以下水果组合:

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

假设系统随机选择 fig 作为第一项。 如果使用带替换的抽样,则由系统选择 以下集合中的第二项:

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

是的,这和之前一样,所以系统可能会 再选择“fig”。

如果使用抽样而不替换,则一旦选取,便无法再抽样 重新选择。例如,如果系统随机选择 fig 作为 第一个样本,则无法再次选择 fig。因此,系统会 从以下(经过缩减的)集合中选择第二个样本:

fruit = {kiwi, apple, pear, cherry, lime, mango}

SavedModel

#TensorFlow

保存和恢复 TensorFlow 模型的推荐格式。SavedModel 是一种与语言无关且可恢复的序列化格式, 用于生成、使用和转换 TensorFlow 的较高级别的系统和工具, 模型。

请参阅保存和恢复一章。 。

实惠

#TensorFlow

一个 TensorFlow 对象 负责保存模型检查点。

标量

可以表示为 为 0 的 tensor例如,以下 每行代码都会在 TensorFlow 中创建一个标量:

breed = tf.Variable("poodle", tf.string)
temperature = tf.Variable(27, tf.int16)
precision = tf.Variable(0.982375101275, tf.float64)

调节

任何会改变标签范围的数学转换或技术 和/或特征值。某些形式的缩放对于转换非常有用 例如标准化

在机器学习中,常见的扩缩形式包括:

  • 线性缩放,通常结合使用减法和 将原始值替换为介于 -1 和 +1 之间的数字,或者 介于 0 和 1 之间。
  • 对数缩放,将原始值替换为 对数。
  • Z-score 标准化:取代了 原始值包含一个浮点值,该浮点值表示 该特征平均值的标准差。

scikit-learn

一种热门的开源机器学习平台。请参阅 scikit-learn.org

评分

#recsystems

推荐系统的一部分, 提供由 候选集生成阶段。

选择偏差

#fairness

由于选择过程而导致根据抽样数据得出的结论有误 该函数会在数据中观察到的样本之间产生系统性差异 和未观察到的数据。存在以下形式的选择偏差:

  • 覆盖偏差:在数据集中表示的人口不 与机器学习模型的样本集匹配, 相关预测。
  • 抽样偏差:数据不是从目标群体中随机收集的。
  • 未回答偏差(也称为参与偏差):来自 某些群体选择不参与问卷调查的比率与选择参与问卷调查的用户的比率不同 其他群组。

例如,假设您要创建一个机器学习模型, 让观众对电影的喜爱为了收集训练数据, 你向剧院前排的每个人发一份调查问卷 显示影片的画面。顺便说一下,这可能是合理的 收集数据集;但这种形式的数据收集可能会 会引入以下形式的选择偏差:

  • 覆盖率偏差:从选择观看广告的用户群体中抽样 那么模型的预测可能不会泛化到人们 对这部影片没有表现出浓厚兴趣的用户。
  • 采样偏差:而不是从 目标人群(电影中的所有人),而您仅对 前排的观众。坐着的人有可能 排在前排的观众对这部电影更感兴趣, 其他行。
  • 未回答偏差:一般来说,具有强烈观点的人倾向于 较轻度 意见。由于电影调查问卷是可选的,因此回复 更有可能形成 双模分布 而不是正态(钟形)分布。

自注意力层(也称为自注意力层)

#language

一个神经网络层, 嵌入(例如令牌嵌入) 转换为另一个嵌入序列。输出序列中的每个嵌入都是 通过从输入序列元素中集成信息来构造 通过注意力机制实现。

自注意力self 部分是指参与 而不是指向其他上下文。自注意力是 转换器构建块,并使用字典查询功能 查询字词,例如“查询”、“键”和“值”。

自注意力层始于一系列输入表示, 。单词的输入表示可以是简单的 嵌入。对于输入序列中的每个字词,网络 对字词与整个序列中每个元素的相关性进行评分, 字词。相关性得分决定了该单词的最终表示形式 会合并其他字词的表示形式。

例如,请思考以下句子:

动物没有过马路,因为它太累了。

下图(摘自 Transformer:一种新的语言神经网络架构 了解) 显示了代词 it 的自注意力层的注意力模式,其中 每一行的黑暗程度都表示每个字词对 表示法:

下面这句话出现了两次:动物没有越过
          因为它太累了。用线将人称代词连接起来
          一句话到五个词元(The、Animal、Street、it
          句号)。人称代词“it”之间的界限
          而“动物”这个词的强度也最高。

自注意力层会突出显示与“it”相关的字词。在本课中, 注意力层已经学会突出显示动物指定最高权重。

对于一系列n 词元,自注意力机制可将一个序列转换为 嵌入的 n 个单独时间,在序列中的每个位置一次。

另请参阅注意多头自注意力

自监督学习

一系列用于转换 非监督式机器学习问题 监督式机器学习问题 方法是从数据集内创建代理标签无标签样本

一些基于 Transformer 的模型(例如 BERT)会使用 自监督学习。

自监督训练是一种 半监督式学习方法。

自我训练

一种自我监督式学习的变体, 在满足以下所有条件时尤其有用:

自训练的工作原理是迭代以下两个步骤,直到模型 不再改善:

  1. 使用监督式机器学习: 利用有标签样本来训练模型。
  2. 使用第 1 步中创建的模型根据 将置信度高的样本移至 带有预测标签的有标签样本。

请注意,第 2 步的每次迭代都会为第 1 步和 列车。

半监督式学习

使用某些训练样本带有标签但 其他人则没有。半监督式学习的一种方法是推断 然后使用推断出的标签进行训练, 模型。如果获取标签的成本高昂,半监督式学习可能会非常有用 但无标签样本也非常多。

自训练是一种半监督式方法, 学习。

敏感属性

#fairness
法律、 道德、社会或个人原因。

情感分析

#language

使用统计或机器学习算法确定组的 对于某个服务、产品、服务、 组织或主题例如,使用 自然语言理解, 一种算法可以对文本反馈进行情感分析, 以确定学生可以获得哪些学位 喜欢或不喜欢这门课程。

序列模型

#seq

一种模型,其输入具有顺序依赖性。例如,预测 从之前观看的一系列视频中挑选下一个观看的视频。

序列到序列任务

#language

令牌的输入序列转换为输出的任务 词元序列。例如,两种常见的序列到序列 任务:

  • 译者: <ph type="x-smartling-placeholder">
      </ph>
    • 输入序列示例:“I love you。”
    • 示例输出序列:“Je t'aime”。
  • 问答: <ph type="x-smartling-placeholder">
      </ph>
    • 示例输入序列:“Do I need my car in New York City?”(在纽约市需要我的车吗?)
    • 示例输出序列:“No.请把车放在家里。”

人份

将经过训练的模型设为可用于提供预测的过程, 在线推理离线推理

形状(张量)

一个维度中每个维度中的元素数量 张量。形状以整数列表的形式表示。例如: 以下二维张量的形状为 [3,4]:

[[5, 7, 6, 4],
 [2, 9, 4, 8],
 [3, 6, 5, 1]]

TensorFlow 使用行主(C 样式)格式来表示 因此 TensorFlow 中的形状是 [3,4],而不是 [4,3]。换句话说,在二维 TensorFlow 张量中, 是 [number of rows, number of columns]

静态形状是编译时已知的张量形状。

动态形状在编译时是未知的, 因此依赖于运行时数据。这个张量可以用一个 占位符维度,如 [3, ?]

分片

#TensorFlow
#GoogleCloud

训练集model。通常,某些进程通过将 将样本参数导入(通常) 平均分块。然后,每个分片都会分配给不同的机器。

将模型分片称为模型并行处理 将数据分片称为数据并行处理

收缩

#df

以下项目中的超参数梯度增强,用于控制 过拟合。梯度提升中的收缩 类似于梯度下降法。收缩率是小数 介于 0.0 和 1.0 之间的值。较小的收缩值可以降低过拟合 大于较大的收缩值。

S 型函数

#fundamentals

一个数学函数,将输入值限制在受限范围内, 通常为 0 到 1 或 -1 到 +1。也就是说,您可以将任意数字(二、一百万、 负十亿)加 S 型函数,则输出值仍然会 限制范围。 S 型激活函数的曲线图如下所示:

x 值跨越网域的二维曲线图
          -无穷大到 +正,而 y 值的范围几乎是 0 到 +正
          几乎是 1。当 x 为 0 时,y 为 0.5。曲线的斜率始终为
          正值,最大斜率为 0,0.5,然后逐渐减少
          随着 x 的绝对值增加而变化。

S 型函数在机器学习中有多种用途,包括:

相似度度量

#clustering

聚类算法中,用于确定 任意两个样本的相似度。

单程序 / 多数据 (SPMD)

对不同输入运行相同计算的并行技术 并行处理数据。SPMD 的目标是获得结果 这是最常见的并行编程样式。

大小不变性 (size invariance)

#image

在图像分类问题中,算法成功识别图像的能力 即使图像大小发生变化,也可以对图像进行分类。例如: 算法仍然可以识别 cat 是 200 万像素还是 20 万像素。请注意,即使是最好的 图像分类算法在大小不变性方面仍然存在实际限制。 例如,某个算法(或人工)不太可能对 只耗用了 20 像素的猫图片。

另请参阅平移不变性旋转不变性

素描

#clustering

非监督式机器学习中, 一类算法,用于执行初步相似度分析 示例。素描算法使用 <ph type="x-smartling-placeholder"></ph> 局部敏感哈希函数 找出可能相似的点,然后将 分到存储分区中

草图可减少相似度计算所需的计算 大型语言模型。我们不再为每个关键字计算相似度, 我们只计算每个样本的相似度, 每个存储分区中的一对点。

跳过-语法

#language

可能会省略(或“跳过”)原始字词的 n 元语法 上下文,这意味着 N 个字词最初可能并不相邻。更多 “k-skip-n-gram”是一个 N 元语法,其中最多有 k 个字词 已跳过。

例如:"the quick brown fox"可能的两元语法:

  • “快节奏”
  • "快速棕色"
  • “棕色的狐狸”

“1-skip-2-gram”是指之间最多包含 1 个字词的一对字词。 因此,“The quick brown fox”具有以下 1-skip 2-gram:

  • “棕色的”
  • “quick fox”

此外,所有 2-gram 也都是 1-skip-2-gram,因为较少 可能会跳过一个字词。

跳过语法对于理解字词上下文的更多上下文非常有用。 在此示例中,即“fox”与“快速”在 1-skip-2-gram,但不在 2-gram 集合中。

Skip-gram 帮助训练 词嵌入模型。

softmax

#fundamentals

这个函数用于确定 多类别分类模型。概率相加 精确到 1.0。例如,下表显示了 softmax 的 概率:

图片是... Probability
0.85
0.13
0.02

Softmax 也称为完整 softmax。

候选采样相对。

软提示调优

#language
#generativeAI

大语言模型进行调参的方法 用于特定任务,而无需占用大量资源 微调。您不必重新训练 模型中的权重、软提示调优 自动调整提示,以实现相同的目标。

给定文本提示、软提示调优 通常会将额外的词元嵌入附加到提示,并使用 以优化输入。

“困难”提示包含实际词元,而不是词元嵌入。

稀疏特征

#language
#fundamentals

一种特征,其值主要为零或为空。 例如,包含单个 1 值和一百万个 0 值的特征 即 Sparse。相比之下,密集特征则具有 则不为零或为空。

在机器学习中,数量惊人的特征是稀疏特征。 分类特征通常是稀疏特征。 例如,某森林内有 300 种可能的树种, 可能只是“枫树”。或者,在数以百万计的 视频库中可能存在的视频,那么可能只用一个示例 只有“Casablanca”

在模型中,您通常使用 独热编码。如果独热编码很大, 就可以将嵌入层 进行独热编码,以提高效率。

稀疏表示法

#language
#fundamentals

仅存储稀疏特征中非零元素的位置

例如,假设名为 species 的分类特征标识了 36 特定森林中的树木品种。进一步假设每个 example 仅标识一个物种。

您可以使用独热矢量来表示每个样本中的树种。 独热矢量将包含一个 1(用来表示 以及 35 个 0(表示 有 35 个树种,因此,独热表示法 的 maple 可能如下所示:

一个矢量,其中位置 0 到 23 存储值 0,即位置
          24 存储值 1,位置 25 到 35 存储值 0。

或者,稀疏表示法则直接确定 特定物种。如果 maple 位于位置 24,则使用稀疏表示法 的 maple 可能只是:

24

请注意,稀疏表示法比独热表示法更紧凑 表示。

稀疏向量 (sparse vector)

#fundamentals

一个值大部分为零的向量。另请参阅稀疏 特征稀疏性

稀疏性

向量或矩阵中设置为零(或 null)的元素数除以 除以该矢量或矩阵中的条目总数。例如: 假设一个 100 元素的矩阵,其中 98 个单元格包含 0。计算 如下:

$$ {\text{sparsity}} = \frac{\text{98}} {\text{100}} = {\text{0.98}} $$

特征稀疏性是指特征向量的稀疏性; 模型稀疏性是指模型权重的稀疏性。

空间池化

#image

请参阅 pooling

拆分

#df

决策树中, condition [使用情况] 属性。

分离器

#df

在训练决策树时,例程 和算法)来找出最合适的 每个节点上的条件

SPMD

单计划 / 多数据的缩写。

平方合页损失函数

合页损失函数的平方。平方合页损失函数惩罚 比常规合页损失更严重。

平方损失

#fundamentals

L2 损失的含义相同。

分阶段训练

#language

一种以一系列离散阶段训练模型的策略。目标可以是 以加快训练过程或获得更好的模型质量。

下图展示了渐进式堆叠方法:

  • 阶段 1 包含 3 个隐藏层,阶段 2 包含 6 个隐藏层, 第 3 阶段包含 12 个隐藏层。
  • 第 2 阶段开始使用 3 个隐藏层中学到的权重进行训练 。第 3 阶段开始使用第 6 层中学到的权重 隐藏层。

三个阶段,分别标记为阶段 1、阶段 2 和阶段 3。
          每个阶段包含的图层数量不同:第 1 阶段包含
          阶段 2 包含 6 个图层,阶段 3 包含 12 个图层。
          第 1 阶段的 3 个图层成为第 2 阶段的前 3 个图层。
          同样,第 2 阶段中的 6 层会成为
          第 3 阶段:

另请参阅流水线

#rl

在强化学习中, 代理使用这一环境配置 选择一项操作

state-action value 函数

#rl

Q 函数的含义相同。

静态

#fundamentals

某件事只执行一次,而不是一直进行。 术语“静态”和“离线”是同义词。 以下是静态离线在机器中的常见用法 学习:

  • 静态模型(也称为“离线模型”)是指训练一次、然后 一段时间了
  • 静态训练(即离线训练)是训练 静态模型。
  • 静态推理(也称作离线推理)是一种 模型一次生成一批预测的过程。

动态相对。

静态推理

#fundamentals

离线推理的含义相同。

平稳性

#fundamentals

一种特征,其值在一个或多个维度内(通常是时间)不会改变。 例如,某个特征在 2021 年值看起来大致相同, 2023 年展现出平稳性。

在现实世界中,很少有特征展现平稳性。均匀分配功能 “稳定性”(如海平面)随时间变化的同义词。

不平稳相对。

一个批次的前向传播和反向传播。

如需了解详情,请参阅反向传播 前向传播和反向传播。

步长 (step size)

学习速率的含义相同。

随机梯度下降法 (SGD)

#fundamentals

梯度下降法,其中 batch size 为 1。换句话说,SGD 在 随机选择了一个样本, 从训练集中随机选择。

步幅

#image

在卷积运算或池化中,每个维度的增量 输入序列。例如,下面的动画 展示了卷积运算过程中的 (1,1) 步长。因此, 下一个输入切片从上一个输入右侧的一个位置开始 。当操作到达右边缘时,下一个切片将 移动到左侧,但往下移一个位置

一个 5x5 输入矩阵和一个 3x3 卷积过滤器。由于
     步长为 (1,1),卷积过滤器将应用 9 次。第一个
     卷积切片评估输入值左上角的 3x3 子矩阵
     模型。第二个 Slice 用于评估顶部中间的 3x3
     子矩阵。第三个卷积切片评估右上角的 3x3。
     子矩阵。第四个切片用于评估中间左侧的 3x3 子矩阵。
     第五个切片对中间的 3x3 子矩阵进行评估。第六个切片
     计算右侧中间的 3x3 子矩阵。第七个切片
     左下方的 3x3 子矩阵。第八个切片
     下中 3x3 子矩阵。第九个切片计算的是右下角 3x3
     子矩阵。

前面的示例展示了二维步长。如果输入 矩阵也是三维的,步长也是三维的。

结构风险最小化 (SRM)

一种算法,用于平衡两个目标:

  • 需要构建最具预测性的模型(例如,损失最低)。
  • 需要使模型尽可能简单(例如, 正则化)。

例如,一个将损失和正则化最小化在 训练集是一种结构风险最小化算法。

经验风险最小化相对。

下采样

#image

请参阅 pooling

子词词元

#language

语言模型中,令牌是 单词的子字符串,可以是整个单词。

例如,输入“itemize”可能会分成多个“项” (根词)和“ize”(一个后缀),其中每个后缀都由其 令牌。将不常见的字词拆分为这样的片段(称为子字词) 来对单词的更常见组成部分进行操作, 例如前缀和后缀

与“参加”等常用词语相反可能不会被分解 由单个词元表示。

摘要

#TensorFlow

在 TensorFlow 中, step,通常用于在训练期间跟踪模型指标。

监督式机器学习

#fundamentals

利用特征及其学习特征来训练模型 相应的标签。监督式机器学习 也就是研究一系列问题及其对应的 相应的回答。在掌握了问题和 这样,学生就可以针对未曾见过的新问题 就同一主题提出问题。

比较对象 非监督式机器学习

合成特征

#fundamentals

某个特征不在输入特征中,但 由其中一项或多项组合而成创建合成特征的方法 包括:

  • 对连续特征进行分桶,将其拆分为多个范围分箱。
  • 创建一个特征组合
  • 将一个特征值与其他特征值相乘(或相除) 或单独使用。例如,如果 ab 是输入特征,则 以下是合成特征的示例:
    • ab
    • a2
  • 对特征值应用先验函数。例如,如果 c 是输入特征,那么以下是合成特征的示例:
    • sin(c)
    • ln(c)

通过归一化缩放创建的特征 不会被视为合成特征。

T

T5

#language

文本到文本迁移学习 模型 引入 2020 年的 Google AI。 T5 是一个编码器-解码器模型, Transformer 架构,基于超大型模型 数据集。它可有效处理各种自然语言处理任务, 例如生成文本、翻译语言、回答 对话形式。

T5 得名于“文本到文本传输转换器”中的五个 T。

T5X

#language

一个设计出来的开源机器学习框架 构建和训练大规模自然语言处理模型, (NLP) 模型。T5 在 T5X 代码库(即 基于 JAXFlax 构建)。

表格式 Q 学习

#rl

强化学习中, 问答学习:使用表来存储 对每个指标组合使用 Q 函数 stateaction

目标

标签的含义相同。

目标网络

#rl

深度 Q 学习中,一种神经网络 主神经网络的近似值, 会实现 Q 函数政策。 然后,您可以使用目标层预测的 Q 值来训练主网络 。因此可以防止在主 基于自身预测的 Q 值训练网络。避免此类反馈 训练稳定性。

任务

可以使用机器学习技术解决的问题,例如:

温度

#language
#image
#generativeAI

用于控制随机性程度的超参数 模型输出。温度越高,输出的随机性越强, 而较低的温度产生的随机输出较少。

选择最佳温度取决于具体应用和 模型输出的首选属性。例如,您应 可能会在创建应用 生成广告素材输出相反,您可能会降低温度 并构建用于对图片或文本进行分类的模型,以改进 模型的准确性和一致性。

温度通常与 softmax 一起使用。

时态数据

在不同时间点记录的数据。例如,冬季外套促销 一年中每一天的记录都属于时间数据。

张量

#TensorFlow

TensorFlow 程序中的主要数据结构。张量是 N 维 (其中 N 可能非常大)数据结构,最常见的标量、矢量、 或矩阵。张量的元素可以包含整数、浮点数、 或字符串值。

TensorBoard

#TensorFlow

一个信息中心,显示在执行一个或多个 更多 TensorFlow 程序。

TensorFlow

#TensorFlow

一个大型分布式机器学习平台。该术语还指代 TensorFlow 堆栈中的基础 API 层,支持常规计算 详细介绍 Dataflow 图。

虽然 TensorFlow 主要用于机器学习,但您也可以使用 使用 TensorFlow 处理需要数值计算的非机器学习任务: 数据流图。

TensorFlow Playground

#TensorFlow

一个直观显示数据差异的程序, 超参数影响模型 (主要是神经网络)训练。 转到 <ph type="x-smartling-placeholder"></ph> http://playground.tensorflow.org 来试用 TensorFlow Playground。

TensorFlow Serving

#TensorFlow

一个用于在生产环境中部署经过训练的模型的平台。

张量处理单元 (TPU)

#TensorFlow
#GoogleCloud

一种应用专用集成电路 (ASIC),用于优化 机器学习工作负载的性能。这些 ASIC 部署为 TPU 设备上的多个 TPU 芯片

张量的阶

#TensorFlow

请参阅秩(张量)

张量形状

#TensorFlow

张量在不同维度中包含的元素数量。 例如,[5, 10] 张量在一个维度的形状为 5,10 另一个文件。

张量大小

#TensorFlow

张量包含的标量总数。例如, [5, 10] 张量的大小为 50。

TensorStore

一个,用于高效阅读和 编写大型多维数组的过程。

终止条件

#rl

强化学习中, 确定分集何时结束,例如当客服人员 某种状态或超过阈值次数的状态转换。 例如,在 tic-tac-toe(同样 称为“noughts”和“crossed”),当玩家标记 三个连续空格或已标记所有空格。

test

#df

决策树中, condition [使用情况] 属性。

测试损失

#fundamentals

一个指标,表示模型相对于损失 测试集。构建模型时,您需要 通常会尽量减小测试损失。这是因为低测试损失 与低训练损失相比,信号质量更强;或者 验证损失低。

测试损失与训练损失或验证损失之间有时会有很大的差距 建议您增加 正则化率

测试集

为测试预留的数据集的子集 一个经过训练的模型

传统上,您需要将数据集中的样本分成以下三个样本: 不同的子集:

数据集中的每个样本都应仅属于上述子集中的一个。 例如,一个样本不应同时属于训练集和 测试集。

训练集和验证集都与训练模型紧密相关。 由于测试集仅与训练间接关联, 测试损失是一种偏差较小且质量指标 训练损失验证损失

文本跨度

#language

与文本字符串的特定子部分关联的数组索引 span。 例如,Python 字符串 s="Be good now" 中的单词 good 占据 文本范围为 3 到 6。

tf.Example

#TensorFlow

标准 <ph type="x-smartling-placeholder"></ph> 协议缓冲区 描述用于机器学习模型训练或推断的输入数据。

tf.keras

#TensorFlow

已集成至 Keras 的实现 TensorFlow

阈值(适用于决策树)

#df

轴对齐条件中, 正在与feature进行比较。例如,75 表示 阈值条件:

grade >= 75

时序分析

#clustering

机器学习和统计学的一个子领域, 时态数据。许多类型的机器学习 需要进行时间序列分析,包括分类、聚类 预测和异常值检测例如,您可以使用 时间序列分析,用于按月预测冬外套的未来销量 根据历史销售数据预测

时步

#seq

一个“展开”位于 循环神经网络。 例如,下图显示了三个时间步(标记为 下标 t-1、t 和 t+1):

循环神经网络中的三个时间步。此
          第一个时间步成为第二个时间步的输入。输出
          第二个时间步的 100 倍会成为第三个时间步的输入。

token

#language

语言模型中,模型采用的原子单位 基于这些特征进行训练并进行预测。令牌通常是 以下:

  • 字词,例如短语“狗像猫”包含三个单词 “dogs”、“like”和“cats”。
  • 字符,例如短语“自行车鱼”包含 9 个 字符标记。(请注意,空格也算作其中一个标记。)
  • 子词 - 其中单个词可以是单个词法单元,也可以是多个词法单元。 子词由根词、前缀或后缀组成。例如: 使用子词作为词元的语言模型可能会看到“dogs” 作为两个词元(根词“dog”和复数后缀“s”)表示。同样的 因此,语言模型可能会看到单个单词“taller”作为两个子词(即 根词“高”和后缀“er”)。

在语言模型以外的领域,令牌可以表示其他类型的 原子单元。例如,在计算机视觉中,一个词元可能是 图像。

深度神经网络的一个组件, 一个深度神经网络。在某些情况下,每个信号塔从 而且这些信号塔会保持独立,直到它们 将输出组合到最后一层。在其他情况下(例如,在 编码器解码器堆叠 很多 Transformer),塔具有交叉连接 相互通信。

TPU

#TensorFlow
#GoogleCloud

张量处理单元的缩写。

TPU 芯片

#TensorFlow
#GoogleCloud

具有片上高带宽存储器的可编程线性代数加速器 针对机器学习工作负载进行了优化的 Kubernetes 集群。 一个 TPU 设备上部署了多个 TPU 芯片。

TPU 设备

#TensorFlow
#GoogleCloud

具有多个 TPU 芯片的印刷电路板 (PCB); 高带宽网络接口和系统冷却硬件。

TPU 主实例

#TensorFlow
#GoogleCloud

在主机上运行的中央协调进程, 接收数据、结果、计划、性能和系统健康信息 TPU 工作器。TPU 主实例还负责管理设置 和关停 TPU 设备

TPU 节点

#TensorFlow
#GoogleCloud

Google Cloud 上的 TPU 资源,具有特定的 TPU 类型。TPU 节点会连接到您的 VPC 网络 对等 VPC 网络。 TPU 节点是 Cloud TPU API

TPU Pod

#TensorFlow
#GoogleCloud

Google 中 TPU 设备的特定配置 数据中心。TPU Pod 中的所有设备彼此连接 通过专用高速网络传输数据TPU Pod 是最大的配置 适用于特定 TPU 版本的 TPU 设备

TPU 资源

#TensorFlow
#GoogleCloud

您可以在 Google Cloud 上创建、管理或使用 TPU 实体。对于 TPU 节点TPU 类型 TPU 资源。

TPU 切片

#TensorFlow
#GoogleCloud

TPU 切片是整个行业中 TPU 设备的一小部分 一个 TPU Pod。TPU 切片中的所有设备均已连接 通过专用高速网络相互传输。

TPU 类型

#TensorFlow
#GoogleCloud

由一个或多个具有特定特定 ID 的 TPU 设备 TPU 硬件版本。您在创建容器时选择 TPU 类型 Google Cloud 上的 TPU 节点。例如,v2-8 TPU 类型是具有 8 个核心的单个 TPU v2 设备。一个 v3-2048 TPU 类型具有 256 联网 TPU v3 设备,总共 2048 个核心。TPU 类型是 定义 Cloud TPU API

TPU 工作器

#TensorFlow
#GoogleCloud

在宿主机上运行并执行机器学习程序的进程 TPU 设备

训练

#fundamentals

确定理想参数(权重和 构建一个模型。在训练期间,系统会 样本,然后逐步调整参数。训练使用 从几倍到数十亿次不等。

训练损失

#fundamentals

一个指标,代表模型损失 特定的训练迭代。例如,假设损失函数 是均方误差。训练损失(平均 平方误差),第 10 次迭代的训练损失为 2.2, 则第 100 次迭代为 1.9。

损失曲线绘制了训练损失与 迭代。损失曲线提供有关训练的以下提示:

  • 下降斜率表示模型在改进。
  • 斜率上升表示模型在变差。
  • 斜率表示模型已达到 收敛

例如,下面的一些理想化的损失曲线 显示:

  • 初始迭代期间出现急剧下降的斜坡,这意味着 快速改进模型。
  • 呈逐渐变平(但仍在向下)的斜坡,直至接近终点 模型在某种程度上得到了持续改进, 速度会比初始迭代慢慢一些。
  • 接近训练结束的斜率,表示已收敛。

训练损失与迭代次数的曲线图。这条损失曲线始于
     陡峭的斜坡斜坡逐渐变平,直到
     斜率为零。

虽然训练损失很重要,另请参阅 泛化

训练-应用偏差

#fundamentals

模型在运行期间 训练和同一模型的性能 serving

训练集

#fundamentals

用于训练模型数据集的子集。

按照传统,数据集中的样本分为以下三个 不同的子集:

理想情况下,数据集中的每个样本都应仅属于 前面的子集。例如,一个示例不应属于 训练集和验证集。

轨迹

#rl

强化学习中, 元组 代理的一系列状态转换, 其中每个元组都对应状态 action奖励以及给定状态转换的下一个状态。

迁移学习

将信息从一个机器学习任务转移到另一个机器学习任务。 例如,在多任务学习中,一个模型可以解决多项任务, 例如具有不同输出节点的深度模型 不同任务。迁移学习可能涉及转移知识 从较简单的任务解决方案转变为较复杂的任务,或者 将知识从具有更多数据的任务转移到 因为数据量较少

大多数机器学习系统都只能完成一项任务。迁移学习是 我们逐渐步入人工智能领域,单程序就可以解决 多个任务。

Transformer

#language

由 Google 开发的神经网络架构, 依靠自注意力机制来将 将输入嵌入序列转换为 嵌入,而无需依赖于卷积循环神经网络。Transformer 可以 自注意力层堆栈。

Transformer 可以包含以下任何内容:

编码器将一系列嵌入转换为 相同长度的编码器包括 N 个相同的层,每个层包含两个 子层。这两个子层在输入层的每个位置应用, 嵌入序列,将序列的每个元素转换为新的 嵌入。第一个编码器子层汇总来自 输入序列。第二个编码器子层将聚合的 输出嵌入。

解码器将一系列输入嵌入转换为 输出嵌入,可能长度不同。解码器还包括 N 个相同的层,包含三个子层,其中两个子层类似于 编码器子层。第三个解码器子层将 并将自注意力机制应用于 并从中收集信息

博文 Transformer:一种新的语言神经网络架构 了解 对 Transformer 进行了很好的介绍。

平移不变性

#image

在图像分类问题中,算法成功识别图像的能力 即使图像内对象的位置发生变化,也可以对图像进行分类。 例如,算法仍然可以识别一只狗,无论它是否出现在 位于画面中央或画面左侧

另请参阅大小不变性旋转不变性

三元语法

#seq
#language

一种 N 元语法,其中 N=3。

真负例 (TN)

#fundamentals

在样本中,模型会正确预测出 负类别。例如,模型推断出 特定电子邮件并非垃圾邮件,且该邮件确实是 这不是垃圾邮件

真正例 (TP)

#fundamentals

在样本中,模型会正确预测出 正类别。例如,模型推断出 某封电子邮件是垃圾邮件,而该邮件确实是垃圾邮件。

真正例率 (TPR)

#fundamentals

召回率的含义相同。具体来说:

$$\text{true positive rate} = \frac{\text{true positives}} {\text{true positives} + \text{false negatives}}$$

真正例率是 ROC 曲线的 y 轴。

U

不了解(针对敏感属性)

#fairness

存在敏感属性的情况 但不包含在训练数据中。因为敏感属性 通常与自己的数据的其他属性相关, 对某个敏感属性一无所知的情况下 差异化的影响 或违反其他公平性限制

欠拟合

#fundamentals

生成预测能力较差的模型,因为模型 未能完全体现训练数据的复杂性。有很多问题 可能会导致欠拟合,包括:

欠采样

样本中移除 大多数类别中的 类别不平衡数据集, 创建一个更均衡的训练集

例如,假设某个数据集中的多数类别与 少数群体的比例是 20:1。为了克服此类 则可以创建一个训练集,其中包含所有少数群体 但只有大多数类别样本中的十分之一, 创建 2:1 的训练集类别比例。由于采样不足, 均衡的训练集可能会产生更好的模型。或者, 更加均衡的训练集可能包含没有足够的样本来训练 有效模型。

过采样oversampling相对。

单向

#language

系统只评估文本的目标部分之前的文本。 相反,双向系统会同时评估 在文本目标部分之前和之后的文本。 如需了解详情,请参阅双向

单向语言模型

#language

一种语言模型,该模型仅根据 令牌出现在目标令牌之前,而不是之后。双向语言模型相对。

无标签样本

#fundamentals

包含特征但没有标签的样本。 例如,下表显示了来自某栋房屋的三个无标签样本 评估模型,每个模型都具有三个特征,但没有房屋价值:

卧室数量 浴室数量 房龄
3 2 15
2 1 72
4 2 34

监督式机器学习中, 这些模型会基于有标签样本进行训练, 无标签样本

半监督式非监督式学习 在训练期间使用无标签样本。

对比无标签样本与有标签样本

非监督式机器学习

#clustering
#fundamentals

训练模型以找出数据集(通常是 未加标签的数据集。

非监督式机器学习最常见的用途是 cluster 数据 分为一组相似的样本。例如,无监督机器 学习算法可以根据各种属性对歌曲进行聚类 生成的集群可以作为其他机器的输入。 学习算法(例如音乐推荐服务)。 当有用标签稀缺或缺失时,聚类可能有所帮助。 例如,在反滥用和反欺诈等领域,聚类分析法有助于 能够更好地理解数据

监督式机器学习相对。

效果提升情况建模分析

营销中常用的一种根据模型估算转化技术, “因果效应”(也称为“增量影响”) “treatment”以“个人”为目标以下是两个示例:

  • 医生可能会使用效果提升幅度模型来预测死亡率的降低情况 (因果效应)的差异,具体取决于 患者(个体)的年龄和病史。
  • 营销者可以使用效果提升模型来预测 购买概率(因果效应) (治疗)对个人(个人)。

提升效果建模不同于分类回归, 二元处理方式中的标签)在提升幅度建模中始终缺失。 例如,患者可能接受或未接受治疗; 因此,我们只能观察患者是好转还是 在这两种情况中的一种时不会愈合(但绝不能同时在两种情况下恢复)。 提升模型的主要优势在于,可以生成预测结果 用于计算未观察到的情况(即反事实), 因果效应。

权重上调

降采样类别相等 为您降采样所依据的因数。

用户矩阵

#recsystems

推荐系统中, 嵌入矢量,由 矩阵分解 存储着关于用户偏好的潜在信号。 用户矩阵的每一行都包含有关 不同潜在信号的强度。 以电影推荐系统为例。在此系统中, 用户矩阵中的潜在信号可能代表每个用户的兴趣, 或者是难以解读的信号, 涉及多个因素的复杂相互作用。

用户矩阵有一列对应每个潜在特征,一行对应每个用户。 也就是说,用户矩阵与目标矩阵具有相同的行数 要分解的矩阵。例如,假设某部电影 推荐系统, 将有 1,000,000 行。

V

validation

#fundamentals

对模型质量的初始评估。 验证工具会根据 验证集

由于验证集与训练集不同, 验证有助于防止出现过拟合

您可能会认为根据验证集评估模型, 根据实际数据, test set 作为第二轮测试。

验证损失

#fundamentals

一个指标,表示模型在预测时给出的损失 在特定测试期间的验证集 训练的迭代

另请参阅泛化曲线

验证集

#fundamentals

数据集中执行初始操作的子集 根据经过训练的模型进行评估。通常,您需要评估 根据验证集 多次,然后才能根据测试集评估模型。

传统上,您需要将数据集中的样本分成以下三个样本: 不同的子集:

理想情况下,数据集中的每个样本都应仅属于 前面的子集。例如,一个示例不应属于 训练集和验证集。

价值插补

使用可接受的替代值替换缺失值的过程。 如果某个值缺失,您可以舍弃整个示例,也可以 可以使用价值插补来挽救样本。

例如,假设某个数据集包含一个 temperature 特征,该特征 应该每小时录制一次。不过,体温读数为 特定时段不可用以下是该数据集的一部分:

时间戳 温度
1680561000 10
1680564600 12
1680568200 缺失
1680571800 20
1680575400 21
1680579000 21

系统要么删除缺失的样本,要么使用推断出缺失的样本 温度设为 12、16、18 或 20,具体取决于插补算法。

梯度消失问题

#seq

早期隐藏层的梯度趋势 一些深度神经网络的学习, 出乎意料地平坦(低)。梯度值越低, 使深度神经网络中节点上的权重出现较小的变化, 很少学习或根本不学习。遭受梯度消失问题影响的模型 变得困难或无法训练。 Long Short-Term Memory 单元格可以解决这个问题。

梯度爆炸问题相对。

重要性可变

#df

一组分数,指示每个类别的相对重要性 feature

例如,假设有一个决策树, 估算房价。假设这个决策树使用三个 尺寸、适用年龄和样式。如果一组可变重要性 计算这三个特征的值 {size=5.8, age=2.5, style=4.7},那么尺寸对 决策树,而不是年龄或风格。

存在不同的变量重要性指标,这可以作为 机器学习专家,介绍模型的不同方面。

变分自编码器 (VAE)

#language

一种利用差异的自动编码器 以生成输入的修改版本。 变分自动编码器对于生成式 AI 非常有用。

VAE 基于变分推断,这是一种 参数。

vector

一个非常多的术语,其含义因不同的数学概念而异 和科学领域。在机器学习中,向量有两个属性:

  • 数据类型:机器学习中的矢量通常存储浮点数。
  • 元素数:这是矢量的长度或尺寸。

例如,假设某个特征向量包含 8 个 浮点数。此特征向量的长度或维度为 8。 请注意,机器学习矢量通常具有大量的维度。

您可以将许多不同类型的信息表示为向量。例如:

  • 地球表面上的任何位置都可以表示为二维空间 其中一个维度是纬度,另一个是经度。
  • 500 支股票的当前价格可表示为 500 维矢量。
  • 有限数量类别的概率分布 表示为矢量。例如, 多类别分类系统, 用于预测三种输出颜色(红色、绿色或黄色)中的一种 矢量 (0.3, 0.2, 0.5) 表示 P[red]=0.3, P[green]=0.2, P[yellow]=0.5

向量可以串联起来;因此,各种各样的媒体 以单个向量表示。一些模型直接在 多个独热编码的串联。

TPU 等专业处理器经过优化,可以执行 向量上的数学运算。

矢量是 rank 1 的张量

W

Wasserstein 损失

其中一个损失函数 生成式对抗网络 生成数据和实际数据的分布情况。

重量

#fundamentals

一个模型与另一个值相乘的值。 训练是确定模型理想权重的过程; 推理是使用学到的权重 进行预测。

加权交替最小二乘 (WALS)

#recsystems

优化目标函数的 矩阵分解 推荐系统: 减少样本的权重。WALS 将加权 原始矩阵与重构后的模型之间的平方误差, 在修复行分解和列分解之间交替进行。 所有这些优化都可以通过最小二乘 凸优化。有关详情,请参阅 推荐系统课程

加权和

#fundamentals

所有相关输入值的总和乘以对应的 权重。例如,假设相关输入包含以下内容:

输入值 输入权重
2 -1.3
-1 0.6
3 0.4

因此,加权和为:

weighted sum = (2)(-1.3) + (-1)(0.6) + (3)(0.4) = -2.0

加权和是 激活函数

宽度模型

一个线性模型,通常具有许多 稀疏输入特征。我们将其称为“宽幅”自 这种模型是一种特殊类型的神经网络,具有 大量直接连接到输出节点的输入。宽度模型 通常比深度模型更容易调试和检查。 虽然较宽模型 无法通过隐藏层表示非线性规律, 这些模型可以使用 特征组合分桶,以不同的方式为非线性关系建模。

深度模型相对。

width

特定中的神经元数量神经网络的基础。

群体的智慧

#df

对一个大群体的意见或估计取平均值的想法 的人(群体)通常能取得意想不到的好结果。 例如,假设有一款游戏,玩家需要猜测 将果冻豆打包在一个大罐子里。虽然大多数人 因此所有猜测的平均值 实验结果显示的结果与 罐装果冻豆。

Ensembles 是一种模拟群体智慧的软件。 即使个别模型做出的预测极不准确, 对许多模型的预测取平均值,往往会产生意想不到的 。例如,虽然某个人 决策树可能做出很糟糕的预测, 决策森林通常能够做出非常好的预测。

字词嵌入

#language

表示 embedding 向量;也就是说,将每个字词表示为 介于 0.0 和 1.0 之间的浮点值的向量。包含类似字词的字词 与具有不同含义的字词相比,“词汇”具有更相似的表征。 例如,“carrots”“celery”和“cucumbers” 这种表示方式, 包括飞机太阳镜牙膏

X

XLA(加速线性代数)

一款适用于 GPU、CPU 和机器学习加速器的开源机器学习编译器。

XLA 编译器从常用机器学习框架获取模型,例如 PyTorch, TensorFlowJAX,并对其进行优化 以便在不同硬件平台(包括 GPU、CPU 和机器学习加速器

Z

零样本学习

一种机器学习训练,其中 模型可对任务进行预测 模型之前未专门对其进行过训练。换句话说, 没有提供针对特定任务的训练样本,但被要求 以便对该任务进行推理

零样本提示

#language
#generativeAI

提示提供您希望 大语言模型做出响应。例如:

一个提示的组成部分 备注
指定国家/地区的官方货币是什么? 您希望 LLM 回答的问题。
印度 实际查询。

大语言模型可能会返回以下任一项作为响应:

  • 卢比符号
  • INR
  • 印度卢比
  • 卢比
  • 印度卢比

所有答案都正确,但您可能更喜欢某种特定格式。

零样本提示与以下术语进行比较和对比:

Z 评分归一化

#fundamentals

一种缩放技术,用于替换原始图片 feature 值,其中的浮点值表示 表示与该特征平均值相差的标准差数。 例如,假设某个特征的平均值为 800,标准 偏差为 100。下表显示了如何将 Z-score 归一化 会将原始值映射到其 Z 得分:

原始值 Z 分数
800 0
950 +1.5
575 -2.25

然后,机器学习模型根据 Z 分数进行训练 而不是原始值。