机器学习术语表:Google Cloud

本页面包含 Google Cloud 术语表中的术语。如需查看所有术语表术语,请点击此处

A

加速器芯片

#GoogleCloud

一类专用硬件组件,旨在执行深度学习算法所需的关键计算。

与通用 CPU 相比,加速器芯片(简称加速器)可以显著提高训练和推理任务的速度和效率。它们非常适合训练神经网络和执行类似的计算密集型任务。

加速器芯片的示例包括:

  • Google 的张量处理单元 (TPU),配备专用于深度学习的硬件。
  • NVIDIA 的 GPU 虽然最初是为图形处理而设计的,但其设计支持并行处理,这可以显著提高处理速度。

B

批量推理

#TensorFlow
#GoogleCloud

对分为较小子集(“批次”)的多个未标记示例进行推理预测的过程。

批量推理可以利用加速器芯片的并行处理功能。也就是说,多个加速器可以同时对不同批量的未标记示例进行推理预测,从而显著提高每秒的推理次数。

如需了解详情,请参阅机器学习速成课程中的生产机器学习系统:静态推理与动态推理

C

Cloud TPU

#TensorFlow
#GoogleCloud

一种专用硬件加速器,旨在加速处理在 Google Cloud 上的机器学习工作负载。

D

设备

#TensorFlow
#GoogleCloud

一个具有多重含义的术语,具有以下两种可能的定义:

  1. 一类可运行 TensorFlow 会话的硬件,包括 CPU、GPU 和 TPU
  2. 加速器芯片(GPU 或 TPU)上训练机器学习模型时,系统中实际操控张量嵌入的部分。该设备搭载加速器芯片。相比之下,主机通常在 CPU 上运行。

H

主机

#TensorFlow
#GoogleCloud

加速器芯片(GPU 或 TPU)上训练机器学习模型时,系统的以下部分会同时控制这两项:

  • 代码的整体流程。
  • 输入流水线的提取和转换。

主机通常在 CPU 上运行,而不是在加速器芯片上运行;设备在加速器芯片上操控张量

M

网格

#TensorFlow
#GoogleCloud

在机器学习并行编程中,与将数据和模型分配给 TPU 芯片以及定义这些值的分片或复制方式相关的术语。

“网格”是一个多含义术语,可以理解为下列两种含义之一:

  • TPU 芯片的物理布局。
  • 用于将数据和模型映射到 TPU 芯片的抽象逻辑结构。

无论是哪种情况,网格都指定为形状

S

分片

#TensorFlow
#GoogleCloud

训练集模型的逻辑划分。通常,某些进程会通过将示例参数划分为(通常)大小相同的块来创建分片。然后,每个分片都会分配到不同的机器。

对模型进行分片称为模型并行处理;对数据进行分片称为数据并行处理

T

张量处理单元 (TPU)

#TensorFlow
#GoogleCloud

一种应用专用集成电路 (ASIC),用于优化机器学习工作负载的性能。这些 ASIC 会作为多个 TPU 芯片部署在 TPU 设备上。

TPU

#TensorFlow
#GoogleCloud

张量处理单元的缩写。

TPU 芯片

#TensorFlow
#GoogleCloud

一种可编程的线性代数加速器,具有针对机器学习工作负载进行了优化的片上高带宽内存。多个 TPU 芯片部署在 TPU 设备上。

TPU 设备

#TensorFlow
#GoogleCloud

包含多个 TPU 芯片、高带宽网络接口和系统冷却硬件的印刷电路板 (PCB)。

TPU 主进程

#TensorFlow
#GoogleCloud

在主机上运行的中央协调进程,用于接收数据、结果、程序、性能和系统运行状况信息,并将其发送给 TPU 工作进程。TPU 主进程还管理 TPU 设备的设置和关闭。

TPU 节点

#TensorFlow
#GoogleCloud

Google Cloud 上具有特定 TPU 类型的 TPU 资源。TPU 节点从对等 VPC 网络连接到您的 VPC 网络。TPU 节点是 Cloud TPU API 中定义的资源。

TPU Pod

#TensorFlow
#GoogleCloud

Google 数据中心中 TPU 设备的特定配置。TPU Pod 中的所有设备都通过专用高速网络互相连接。TPU Pod 是特定 TPU 版本可用的 TPU 设备配置的最大值。

TPU 资源

#TensorFlow
#GoogleCloud

您在 Google Cloud 上创建、管理或使用的 TPU 实体。例如,TPU 节点TPU 类型是 TPU 资源。

TPU 切片

#TensorFlow
#GoogleCloud

TPU 切片是 TPU PodTPU 设备的一部分。TPU 切片中的所有设备都通过专用高速网络互相连接。

TPU 类型

#TensorFlow
#GoogleCloud

一个或多个具有特定 TPU 硬件版本的 TPU 设备的配置。您可以在 Google Cloud 上创建 TPU 节点时选择 TPU 类型。例如,v2-8 TPU 类型是具有 8 个核心的单个 TPU v2 设备。v3-2048 TPU 类型具有 256 个联网的 TPU v3 设备,总共 2048 个核心。TPU 类型是 Cloud TPU API 中定义的资源。

TPU 工作进程

#TensorFlow
#GoogleCloud

在宿主机上运行的进程,用于在 TPU 设备上执行机器学习程序。