第 1 单元:提问

第 1 单元:提问

关于此 Codelab

subject上次更新时间:4月 17, 2023
account_circleAndrew Zaldivar 编写

1. 利益相关方的分类

在开始着手处理数据集文档透明度工作并创建数据卡片之前,您需要确定并邀请参与数据集生命周期各个阶段的利益相关方。这样,您便能够据此了解创建内容时需要重点考虑的所有因素,从而更轻松地创建数据卡片。

为了帮助您探索和了解跨职能利益相关方如何参与数据集的生命周期过程,我们创建了一套分类体系,让您能够发掘通常会对不同利益相关方做出的假设。我们的分类体系将参与数据集生命周期的利益相关方群体分为三类:生产者、代理和用户。

这个分类体系代表了数据集及其文档一系列不断变化的需求和期望。没有一种解决方案能够适用于所有情况。

生产者

生产者是数据集和文档的创建者,负责数据集的收集、所有权、发布和维护。

从本质上讲,生产者负责数据集的生产、发布和采用,并负责打造成功的数据集。

生产者也可以是负责收集数据或为数据加标签的个人或团队,他们会在数据生命周期各个阶段提供方法建议或解释说明。

根据具体情境,生产者还可指代当前和未来团队成员、合作伙伴、客户或数据托管平台 - 即负责数据集维护、部署和监控的所有相关方。

代理

代理是指负责以下任务的利益相关方:阅读数据集文档、数据卡片以及其他机器学习 (ML) 模型相关文档,并让代理机构使用或确定他们或其他人员可能会如何使用所述的数据集或 AI 系统。

根据所处工作领域,代理可能会担任操作员或审核员的角色,例如,拥有学术背景的研究人员可能负责评估数据集的适当使用情况,而产品团队中的数据科学家可能负责确定数据集在产品集成方面的整体适合程度。

进行这样的区分非常重要,因为审核员包括那些可能从不直接使用数据集,但仍会与数据卡片互动的利益相关方,例如行业顾问、调查记者、社区代表和法律实体。代理不一定具备查阅典型数据集文档信息的技术专业知识,但通常能够在需要时获取这些专业知识。

用户

用户是与产品进行交互的个人和代表。这些产品依赖于利用数据集训练的模型。

用户可能同意在产品体验过程中提供个人数据,但他们在产品体验方面通常需要一系列大不相同的解释说明和控制机制,即使对数据集也是如此。

总结

下表从说明、职责、示例和常见任务方面总结了利益相关方群体:

利益相关方群体

说明

职责

示例

常见任务

生产者

创建数据集和/或文档。

数据集的设计、创建、质量测试、文档编写、发布、采用、维护和更新。

研究人员、数据科学家和分析师、软件工程师,以及产品和项目经理

数据集的采用、披露、未来规划、公平性、安全性,以及改进

代理

在工作、产品、组织或社区中评估和使用数据集。

使用数据卡片,但可能不会与数据集本身互动。

机器学习或产品工程师、研究人员、第三方供应商、主题专家、行业顾问、政策专家、数据服务提供商以及领导层或管理层

管理复杂性、承担相应责任、进行权衡、部署到生产环境、归档

用户

与代理开发的产品、设备和应用进行互动。代理使用的是生产者创建的数据集。

可能通过产品贡献其数据,并为生产者和代理提供有用的信息。

数据贡献者、产品用户和用户群体代表

使用产品、了解数据和隐私、提供反馈并提出疑虑

2. 绘制利益相关方图

现在,您已基本熟悉了我们的分类体系。接下来,您可以审视自己的数据集生命周期,并通过此基本绘图活动来确定您的利益相关方。在进行此活动时,请记录可能与数据集或其文档进行互动的人员。此外,还应考虑利益相关方可能对数据卡片有什么贡献。

要绘制利益相关方图,请执行以下步骤:

  1. 列出将创建数据卡片的生产者。

9019cf76931e3ae5.png

  1. 列出将阅读和使用数据卡片的代理。

a6c5bfc2fadd8cb5.png

  1. 列出会使用数据卡片中所述的数据集或受其影响的用户。

210d18c6ec533955.png

  1. 使用以下模板创建一张图,在其中说明利益相关方、他们在创建数据卡片过程中承担的职责及其数据卡片的用途。通过这张图,您可以直观地了解数据集文档的下游需求,并可在整个数据集文档流程中分配优先级和职责。

d24cf1a113189a25.png

3. 代理信息历程 (AIJ)

绘制出利益相关方图后,就可以确定应该在数据卡片中向代理(主要利益相关方)传达哪些必要内容,以帮助他们获得成功。

通常,我们将个人与技术进行互动时获得的体验称为“用户体验历程”。不过,我们在这里讨论的是代理,他们需要获取关于数据集的足够信息以做出明智的决策,因此我们将这种体验称为“代理信息历程 (AIJ)”。

AIJ 的目标是理解以下内容:

  • 代理可能希望数据集完成的任务。
  • 代理完成其任务所需的信息。
  • 代理推断信息的过程。

AIJ 包含以下内容:

51ce23c7a9aaa9e4.png

示例

例如,假设您的一个代理是数据科学家。数据科学家的 AIJ 可能如下所示:

作为数据科学家,我想了解数据集的结构,因此我会提出以下问题:

... 数据格式是什么?

... 数据集的模态是什么?

... 数据集中有多少特征?

... 有多少特征是经过工程处理的?

... 哪些特征之间存在很强的相关性?

... 结构中是否存在任何依赖关系?

下面是另一个代理的示例,该代理可能负责产品政策,制定与产品的生产和开发相关的准则:

作为政策助理,我想了解数据可能被滥用的情况,因此我会提出以下问题:

... 数据集的预期用途是什么?

... 促使创建该数据集的应用是什么?

... 数据集的已知危险或风险应用是什么?

... 特定群体面临的风险是什么?

... 该数据集的预期使用如何影响利益相关方?

... 如何寻求帮助?

4. 编写您的 AIJ

  1. 请根据以下提示编写一些 AIJ:

ab594f2e5ce86029.png

  1. 请注意,您不仅要记住自己的利益相关方,还要构思一些您认为他们希望在阅读数据卡片时获得解答的初始问题。这意味着,您距离最后应该在数据卡片中添加的问题又近了一步。

5. 光学

您可能已经注意到,我们在构建 AIJ 的过程中用到了“视角”“透镜”和“镜”这样的术语。这些术语之前就有相应定义,它们实际上是一种隐喻形式,我们称其为“光学”。我们创建这些术语,是为了帮助您思考代理可能如何理解您的数据集。

在光学领域,镜使用透镜和平面镜来发现、观察、放大、反射甚至测试材料。在数据集语境下,这是一种很形象的比喻,因为您通过聚焦和限定问题来揭示明显、不明显、可见的和不可见的方方面面。

我们将其称为“镜”,是一种通过连续提问来理解数据集的方式。通过堆叠不同粒度的镜,您可以创建相应内容,帮助代理通过透明度报告建立对数据集的全面理解。

下表包含我们的框架中的三种镜,以及关于每种类型的说明、示例和用途:

说明

示例

目的

望远镜

关于多种数据集中的常见属性的问题。它们用于标记特征。

该数据集是否包含个人身份信息 (PII)?

引入并设定更多信息背景,帮助代理浏览数据卡片或透明度工件。

潜望镜

关于生产者数据集特有属性的问题。它们用于描述观察内容。

有多少特征包含个人身份信息?

通常用于提供操作信息(如数据集的形状和大小)或功能信息(如来源或意图)。

显微镜

关于数据集中无法观察的方面的问题,例如决策、流程和影响。它们需要解释说明。

该数据集中的个人身份信息是如何匿名化的?

引出详细的决策说明或总结更详细的流程文档,管理对相应潜望镜和望远镜类问题的回答。

在数据卡片创建过程中,请务必考虑这三种镜。如果仅使用望远镜,数据卡片将只能描述关于数据集显而易见的信息,无法增加任何独特价值。如果仅使用潜望镜,数据卡片会过于偏重技术性,无法提供关于背景信息、相关性或重要性的任何信息。如果仅使用显微镜,数据卡片可能会导致代理迷失在无数细节中,失去对整体性的把控。

正因为如此,我们发现,是否应用上述级别的镜将直接影响对数据卡片的解读。这些问题有助于代理和生产者评估风险、规划缓解措施,并在相关情况下发现更好的数据集创建机会。结合使用望远镜、潜望镜和显微镜有助于提供有价值的详细信息,让所有利益相关方能够在浏览数据卡片时不至于迷失方向。

示例

代理信息历程 (AIJ) 部分,我们为您提供了一些 AIJ 示例,其中包括数据科学家的 AIJ。仔细观察该示例就会发现,您可以按镜对其中一些问题进行分组,包括以下问题:

作为数据科学家,我想了解数据集的结构,因此我会提出以下问题:

望远镜

... 数据格式是什么?

... 数据集的模态是什么?

潜望镜

... 数据集中有多少特征?

... 有多少特征是经过工程处理的?

显微镜

... 哪些特征之间存在很强的相关性?

... 结构中是否存在任何依赖关系?

您可能已经想到了一些面向代理的望远镜、潜望镜和显微镜范围的问题。

6. 使用镜重构您的 AIJ

  • 要使用镜重构您的 AIJ,请使用以下示例提示:

2b6e2a7a041060f4.png

7. 恭喜

恭喜!您已经开始创建数据卡片。接下来,您需要对您的问题进行评估。