机器学习术语表:Google Cloud

本页面包含 Google Cloud 术语表术语。如需查看所有术语表术语,请点击此处

A

加速器芯片

#GoogleCloud

一类专用硬件组件,旨在执行深度学习算法所需的关键计算。

与通用 CPU 相比,加速器芯片(简称“加速器”)可以显著提高训练和推理任务的速度和效率。非常适合用于训练神经网络和类似的计算密集型任务。

加速器芯片的示例包括:

  • Google 的张量处理单元 (TPU),配备用于深度学习的专用硬件。
  • 虽然最初是为图形处理设计的,但 NVIDIA 的 GPU 支持并行处理,因而可显著提高处理速度。

B

批量推理

#TensorFlow
#GoogleCloud

根据多个无标签样本推断预测结果的过程,该样本分为较小的子集(“批量”)。

批量推理可以利用加速器芯片的并行化功能。也就是说,多个加速器可以同时推断不同批次的无标签样本的预测,从而大大增加每秒推断次数。

C

Cloud TPU

#TensorFlow
#GoogleCloud

一种专门的硬件加速器,旨在加速 Google Cloud 上的机器学习工作负载。

D

设备

#TensorFlow
#GoogleCloud

一个重载的术语,具有以下两种可能的定义:

  1. 一类可运行 TensorFlow 会话的硬件,包括 CPU、GPU 和 TPU
  2. 加速器芯片(GPU 或 TPU)上训练机器学习模型时,系统实际上操作张量嵌入的部分。该设备在加速器芯片上运行。相比之下,主机通常在 CPU 上运行。

H

主办方

#TensorFlow
#GoogleCloud

加速器芯片(GPU 或 TPU)上训练机器学习模型时:

  • 整个代码流程。
  • 输入流水线的提取和转换。

主机通常在 CPU 上运行,而不是在加速器芯片上运行;设备会操控加速器芯片上的张量

M

网格

#TensorFlow
#GoogleCloud

在机器学习并行编程中,与将数据和模型分配给 TPU 芯片以及定义这些值的分片或复制方式相关的术语。

网格是一个重载术语,可以理解为下列含义之一:

  • TPU 芯片的物理布局。
  • 用于将数据和模型映射到 TPU 芯片的抽象逻辑结构。

这两种情况都可以将网格指定为形状

分片

#TensorFlow
#GoogleCloud

训练集模型的逻辑除法。通常,某些进程通过将示例参数划分为(通常)大小相等的区块来创建分片。然后,系统会将每个分片分配给不同的机器。

将模型分片称为模型并行;数据分片称为数据并行

T

张量处理单元 (TPU)

#TensorFlow
#GoogleCloud

一种应用专用集成电路 (ASIC),可优化机器学习工作负载的性能。这些 ASIC 被部署为 TPU 设备上的多个 TPU 芯片

TPU

#TensorFlow
#GoogleCloud

张量处理单元的缩写。

TPU 芯片

#TensorFlow
#GoogleCloud

一种具有针对机器学习工作负载优化的片上高带宽内存的可编程线性代数加速器。多个 TPU 芯片部署在 TPU 设备上。

TPU 设备

#TensorFlow
#GoogleCloud

具有多个 TPU 芯片、高带宽网络接口和系统冷却硬件的印刷电路板 (PCB)。

TPU 主进程

#TensorFlow
#GoogleCloud

在宿主机上运行的中央协调过程,用于向 TPU 工作器发送和接收数据、结果、程序、性能和系统运行状况信息。TPU 主实例还负责管理 TPU 设备的设置和关闭。

TPU 节点

#TensorFlow
#GoogleCloud

Google Cloud 上具有特定 TPU 类型的 TPU 资源。TPU 节点从对等 VPC 网络连接到您的 VPC 网络。TPU 节点是在 Cloud TPU API 中定义的资源。

TPU Pod

#TensorFlow
#GoogleCloud

Google 数据中心内的 TPU 设备的特定配置。TPU Pod 中的所有设备都通过专用高速网络相互连接。TPU Pod 是可用于特定 TPU 版本的最大 TPU 设备配置。

TPU 资源

#TensorFlow
#GoogleCloud

您在 Google Cloud 上创建、管理或使用的 TPU 实体。例如,TPU 节点TPU 类型是 TPU 资源。

TPU 切片

#TensorFlow
#GoogleCloud

TPU 切片是 TPU PodTPU 设备的一部分。TPU 切片中的所有设备都通过专用高速网络相互连接。

TPU 类型

#TensorFlow
#GoogleCloud

一个或多个具有特定 TPU 硬件版本的 TPU 设备的配置。在 Google Cloud 上创建 TPU 节点时,您可以选择 TPU 类型。例如,v2-8 TPU 类型是具有 8 个核心的单个 TPU v2 设备。v3-2048 TPU 类型有 256 个联网 TPU v3 设备,总共 2048 个核心。TPU 类型是在 Cloud TPU API 中定义的资源。

TPU 工作器

#TensorFlow
#GoogleCloud

在主机上运行并在 TPU 设备上执行机器学习程序的过程。