See what premium Google Developer Program benefits can do for you. Learn more

第 2 单元：检查

剩余时间：91 分钟

第 2 单元：检查

关于此 Codelab

上次更新时间：4月 17, 2023

Andrew Zaldivar 编写

1. 知识获取

在您探索利益相关方的类型、了解他们不同的信息需求，以及运用不同的粒度来限定问题时，主题会自然而然地出现。为了帮助您对问题的主题进行分类和限定，我们创建了一个知识获取框架，旨在为您提供一种可靠、细致且可重复利用的方法来生成透明度文档。

知识获取是指从某种来源（通常是真人专家）提炼、组织和整理知识，以将其用于您所使用的产品或技术。

我们的框架称为“OFTEn”，这是一种概念性工具，用于系统性地考虑各主题在数据卡片各个部分的传达方式。我们是通过深入的归纳和演绎数据集透明度调查创建的该框架。

OFTEn

OFTEn 是数据集生命周期一般性阶段的缩写：Origins（起源）、Factuals（事实）、Transformations（转换）、Experience（体验）以及 n = 1（样本）。

起源

起源阶段涉及决定最终结果的各种规划活动，例如需求定义、收集或获取方法，以及设计和政策决策。

从起源类问题衍生出来的主题包括：

作者和所有者
动机
预期应用
收集方法
许可
版本
来源
勘误表
责任方

事实

事实阶段表示统计属性和其他事实属性，用于描述数据集、与原始计划的偏差以及任何预处理分析。

从事实类问题衍生出来的主题包括：

实例数
特征数
标签数
标签来源
数据来源
子群组的细分维度
特征结构
特征描述
缺失或重复项
计入条件

转换

转换阶段包括加标签、注释或验证任务的摘要。根据使用的数据集，此阶段可能涉及标注者之间的评定过程。为处理隐私性、安全性或个人身份信息 (PII) 所进行的特征工程和修改也属于转换阶段。

从转换类问题衍生出来的主题包括：

评分或注释
过滤
处理
验证
统计属性
合成特征
处理个人身份信息
敏感变量
对公平性的影响
偏向或偏差

体验

体验阶段包括使用数据完成特定任务、接受访问培训、进行修改以适应任务、获取结果并与其他类似数据集进行比较，以及记录所有预期或非预期行为。

从体验类问题衍生出来的主题包括：

预期效果
非预期应用
非预期效果
注意事项
数据分析
体验
故事
使用情形
用例评估

n = 1（样本）

n = 1（样本）阶段涉及分布数据点的所有细节、演示具有特定属性且值得注意的数据点，以及在适用的情况下对其进行结果建模。

从样本型问题衍生出来的主题包括：

典型示例和离群值的示例或链接。
产生假正例或假负例的示例。
演示处理 null 值或零特征值的示例。

示例

例如，下面一组问题便是通过 OFTEn 进行编排的：

	谁	什么	何时	何处	为什么	如何
起源	谁发布数据集？他们是否也是数据集的所有者？	参与此数据集的数据标注者、提供者和专家的动机是什么？	此数据集是何时创建的？何时发布的？	资金来源是什么？	创建此数据集的原因是什么？之前的流程是什么？	这些方法是如何确定的？有哪些参与方？
事实	数据的受众是谁？标注者是否代表了数据中的人群？	数据中可能影响机器学习结果的子群组有哪些？	数据代表的时间段是什么？数据何时过期或何时运行异常？	可以从哪里访问数据集？数据是在哪里收集或创建的？	为什么选择这些报告的指标？为什么选择这些特定标签？	数据集中有多少不同的标签？这些标签是如何生成的？
转换	如何处理此数据集中的个人身份信息？此数据集中的结果能否用于识别个人？	在清理或验证此数据集时使用了哪些方法？	应该在何时实施特征工程？如何实施？是否需要对此进行更新？	位置特征是否与其他敏感特征相关？	为什么向数据集应用了所选转换？	如何处理数据中的偏差或个人身份信息？
体验	谁可以使用此数据集？可用其执行什么任务？是否需要接受任何培训？	在使用数据集时发现了哪些方法、结果或错误？	在什么情况下以及什么时间不适合使用此数据集？	可以在世界哪些地方访问此数据集？此数据集已经在哪些地方使用？	为什么预期的数据集表示方式不同于观察到的表示方式？	世界不同地区的数据费用是怎样的？
n = 1（样本）	数据点是典型的还是非典型的？模型在这里的表现如何？	数据点的大小是多少？干预数据点的同意、隐去和撤回流程是什么？	数据点的结果何时会发生变化？通过反事实来呈现示例？	数据点中包含了哪些因素？如果在预测时出错，会带来哪些风险？	为什么此图像数据点以特定方式剪裁？为什么此数据点中未填充特定类别？	此数据点与现实世界输入的相关性如何？其结果与现实世界输出的相关性如何？

我们发现，采用清晰的底层 OFTEn 结构的数据卡片易于扩充和更新。使用 OFTEn 后，数据卡片可随时间推移而不断扩展，以包含通常在编写文档时没有涉及的主题，例如来自下游代理的反馈、各版本之间的显著差异，以及生产者或代理进行的临时审核或调查。

总结

下表总结了 OFTEn 框架，并描述了数据集生命周期的一般性阶段：

阶段	说明
起源	数据集生命周期的早期阶段，在该阶段做出创建数据集的决策。
事实	实际的数据收集流程和原始输出。
转换	通过过滤、验证、解析、格式化和清理等操作将原始数据转换为可用形式。
体验	在实际场景（实验、生产或研究）中对数据集进行测试、基准化分析或部署。
n = 1（样本）	数据集中的实际样本或片段，代表正常数据点和离群值。

在创建数据卡片时，可以通过以下两种方法使用 OFTEn：

以归纳方式：OFTEn 支持与代理一起构建关于数据集和相关模型的问题，这些问题对于决策至关重要。我们发现，当众多代理运用 OFTEn 结构集思广益考虑问题时，会揭示出进行相关决策所需的信息。
以推理方式：OFTEn 可用于评估数据卡片是否准确地诠释了数据集，这会对文档和数据集产生形成性影响。例如，处于早期阶段的数据集更侧重于起源和事实，而处于成熟阶段的数据集则更侧重于体验。

通过 OFTEn，您不仅可以集思广益，还可以检查您的问题是否覆盖了数据集的整个生命周期，从而确保内容最终实现完整性和简洁性。这不仅有助于发现创建的类型多余的问题，还可以帮助发现在这个过程中可能遗漏的问题。

2. 使用 OFTEn 限定问题

回想一下您在上一单元中制定的一些利益相关方和代理信息历程 (AIJ)，然后利用下面的提示来帮助您组织自己的想法。

如果其中一些问题已可成功归入 OFTEn 中的某个类别，请进行相应标记。
如果您的问题不属于 OFTEn 中的任何类别，请选择上一单元中的一个代理，然后根据每个 OFTEn 类别为该代理创建至少一个问题。
根据“5W”（谁、什么、哪里、何时、为什么）和“1H”（如何）创建更多问题，以扩展 OFTEn 类别的深度。
如果适用，对下一个代理重复上述步骤。

3. 维度

现在，您已理解了 OFTEn 并创建了数据卡片中需要包含的问题。接下来，您可以对数据卡片进行初步检查，以获得关于这些问题的洞察。为此，我们引入了“维度”概念。维度是对读者所做的各种判断类型的概括性说明，旨在提供关于数据卡片实用性和可读性的方向性洞察。换句话讲，您的数据卡片能否帮助读者做出关于数据集的清晰结论？

负责

负责的数据卡片是由那些对数据集及其使用表现出充分的所有权、反思能力、推理能力和系统决策能力的人员拥有和维护的。

领域示例	问题示例
作者身份、责任、维护、意图	作为 [perspective]，我想了解... ...数据集的发布者。 ...数据集的访问限制和政策。 ...创建数据集的说明和动机。

实用

一个实用的数据卡片会提供详细信息，满足读者对信息的需求，从而实现负责任的决策流程，使数据集契合读者的任务和目标。

领域示例	问题示例
生产者需求、代理需求、用户需求、社会需求	作为 [perspective]，我想了解... ...文档中使用的技术术语的定义和说明（指标、得分、行业专用术语、首字母缩写词）。 ...将数据集与其他数据集或表格结合使用的效果（特征工程、联接、采样和比较分析）。 ...数据集的预期应用。

质量

一个优质的数据卡片会总结数据集的严谨性、完整性和完备性，通常会以一种易于获取和理解的方式传达给不同背景的读者。

领域示例	问题示例
有效性、可靠性、完整性、可重复性	作为 [perspective]，我想了解... ...数据集内是否存在任何已知模式（相关性、偏差或偏向）。 ...数据集的所有验证流程、说明及其结果。 ...为数据集应用的隐私和安全措施。

使用影响或后果

数据卡片要做到充分说明数据集使用影响，应正确阐述使用和管理数据集时的预期结果，并指出可能会对读者目标产生负面影响的任何主要或次要后果。

领域示例	问题示例
有效性、相关性、群体利益、偏差影响	作为 [perspective]，我想了解... ...数据集的历史使用情况和相关表现（例如训练的模型） ...与数据集相关的政策（例如许可） ...数据集中是否存在任何已知模式（相关性、偏差或偏向）。

风险和建议

为了提供合理的建议，数据卡片应让读者意识到因数据的来源、表达方式、使用方式或使用背景会引发的已知和潜在风险及限制，并提供足够的信息和替代方案帮助读者做出负责任的权衡。

领域示例	问题示例
风险程度、缓解措施、建议、群体风险	作为 [perspective]，我想了解... ...使用数据集的安全性（风险、限制和权衡）。 ...数据集中人们的社会文化、地理或经济表征。 ...数据集或其文档中是否缺失某些属性。

总结

利用这些维度，您可以评估自己创建的问题，确保这些问题契合您的目标和预期结果。即使您还未深入回答数据卡片中的某个问题，在深入到数据集文档流程之前，最好还是先修正所有错误。

下表总结了这五个维度：

阶段	说明
问责	表达不同利益相关方对数据集可信度的反思性、合理和系统性决策的陈述。
实用	提供满足读者实现负责的决策流程所需的信息，建立契合其目标的使用场景。
质量	总结了数据集的严谨性、完整性和完备性，并以方便各类读者获取和理解的方式传达。
影响和后果	提供能够帮助读者在使用和管理数据集时实现理想效果的信息，同时指明可能对其目标产生负面影响的各种后果。
风险和建议	让读者了解与数据集相关的已知和潜在风险，这些风险源于数据集的表示形式、使用方式或使用情境。

利用这些不同类型的维度，您在编写数据卡片之前，就可以了解数据卡片内容的质量、可读性和实用性。它们可以帮助您找出有助于制作更可靠、更完善的数据卡片模板的方法。

4. 使用维度评估您的问题

从一个维度着手，然后根据问题的复杂程度，确定需要怎样的顺畅度和专业知识才能得出明智的结论。
提供相关理由和推理，说明目前您的问题对该维度的支持程度。
通过问题集中的一两个问题示例，证明您给出的理由。
如果维度评估结果不理想，记录改进或解决相应问题必须采取的步骤。如果与利益相关方团队一起合作，并且其中有些利益相关方更擅长解决某些问题，可以让其承担相应职责。
针对下一个维度重复上述步骤。

您可以利用以下示例模板来记录维度评估结果：

此评估过程可能需要 15 分钟到 1 小时的时间，具体取决于您为数据卡片创建了多少问题，以及需要考虑的利益相关方的差异程度。

5. 恭喜

恭喜！您已了解如何检查为数据卡片创建的问题。接下来，您需要开始回答这些问题。

下一步

报告错误