关于此 Codelab
1. 知识获取
在您探索利益相关方的类型、了解他们不同的信息需求,以及运用不同的粒度来限定问题时,主题会自然而然地出现。为了帮助您对问题的主题进行分类和限定,我们创建了一个知识获取框架,旨在为您提供一种可靠、细致且可重复利用的方法来生成透明度文档。
知识获取是指从某种来源(通常是真人专家)提炼、组织和整理知识,以将其用于您所使用的产品或技术。
我们的框架称为“OFTEn”,这是一种概念性工具,用于系统性地考虑各主题在数据卡片各个部分的传达方式。我们是通过深入的归纳和演绎数据集透明度调查创建的该框架。
OFTEn
OFTEn 是数据集生命周期一般性阶段的缩写:Origins(起源)、Factuals(事实)、Transformations(转换)、Experience(体验)以及 n = 1(样本)。
起源
起源阶段涉及决定最终结果的各种规划活动,例如需求定义、收集或获取方法,以及设计和政策决策。
从起源类问题衍生出来的主题包括:
- 作者和所有者
- 动机
- 预期应用
- 收集方法
- 许可
- 版本
- 来源
- 勘误表
- 责任方
事实
事实阶段表示统计属性和其他事实属性,用于描述数据集、与原始计划的偏差以及任何预处理分析。
从事实类问题衍生出来的主题包括:
- 实例数
- 特征数
- 标签数
- 标签来源
- 数据来源
- 子群组的细分维度
- 特征结构
- 特征描述
- 缺失或重复项
- 计入条件
转换
转换阶段包括加标签、注释或验证任务的摘要。根据使用的数据集,此阶段可能涉及标注者之间的评定过程。为处理隐私性、安全性或个人身份信息 (PII) 所进行的特征工程和修改也属于转换阶段。
从转换类问题衍生出来的主题包括:
- 评分或注释
- 过滤
- 处理
- 验证
- 统计属性
- 合成特征
- 处理个人身份信息
- 敏感变量
- 对公平性的影响
- 偏向或偏差
体验
体验阶段包括使用数据完成特定任务、接受访问培训、进行修改以适应任务、获取结果并与其他类似数据集进行比较,以及记录所有预期或非预期行为。
从体验类问题衍生出来的主题包括:
- 预期效果
- 非预期应用
- 非预期效果
- 注意事项
- 数据分析
- 体验
- 故事
- 使用情形
- 用例评估
n = 1(样本)
n = 1(样本)阶段涉及分布数据点的所有细节、演示具有特定属性且值得注意的数据点,以及在适用的情况下对其进行结果建模。
从样本型问题衍生出来的主题包括:
- 典型示例和离群值的示例或链接。
- 产生假正例或假负例的示例。
- 演示处理 null 值或零特征值的示例。
示例
例如,下面一组问题便是通过 OFTEn 进行编排的:
谁 | 什么 | 何时 | 何处 | 为什么 | 如何 | |
起源 | 谁发布数据集?他们是否也是数据集的所有者? | 参与此数据集的数据标注者、提供者和专家的动机是什么? | 此数据集是何时创建的?何时发布的? | 资金来源是什么? | 创建此数据集的原因是什么?之前的流程是什么? | 这些方法是如何确定的?有哪些参与方? |
事实 | 数据的受众是谁?标注者是否代表了数据中的人群? | 数据中可能影响机器学习结果的子群组有哪些? | 数据代表的时间段是什么?数据何时过期或何时运行异常? | 可以从哪里访问数据集?数据是在哪里收集或创建的? | 为什么选择这些报告的指标?为什么选择这些特定标签? | 数据集中有多少不同的标签?这些标签是如何生成的? |
转换 | 如何处理此数据集中的个人身份信息?此数据集中的结果能否用于识别个人? | 在清理或验证此数据集时使用了哪些方法? | 应该在何时实施特征工程?如何实施?是否需要对此进行更新? | 位置特征是否与其他敏感特征相关? | 为什么向数据集应用了所选转换? | 如何处理数据中的偏差或个人身份信息? |
体验 | 谁可以使用此数据集?可用其执行什么任务?是否需要接受任何培训? | 在使用数据集时发现了哪些方法、结果或错误? | 在什么情况下以及什么时间不适合使用此数据集? | 可以在世界哪些地方访问此数据集?此数据集已经在哪些地方使用? | 为什么预期的数据集表示方式不同于观察到的表示方式? | 世界不同地区的数据费用是怎样的? |
n = 1(样本) | 数据点是典型的还是非典型的?模型在这里的表现如何? | 数据点的大小是多少?干预数据点的同意、隐去和撤回流程是什么? | 数据点的结果何时会发生变化?通过反事实来呈现示例? | 数据点中包含了哪些因素?如果在预测时出错,会带来哪些风险? | 为什么此图像数据点以特定方式剪裁?为什么此数据点中未填充特定类别? | 此数据点与现实世界输入的相关性如何?其结果与现实世界输出的相关性如何? |
我们发现,采用清晰的底层 OFTEn 结构的数据卡片易于扩充和更新。使用 OFTEn 后,数据卡片可随时间推移而不断扩展,以包含通常在编写文档时没有涉及的主题,例如来自下游代理的反馈、各版本之间的显著差异,以及生产者或代理进行的临时审核或调查。
总结
下表总结了 OFTEn 框架,并描述了数据集生命周期的一般性阶段:
阶段 | 说明 |
起源 | 数据集生命周期的早期阶段,在该阶段做出创建数据集的决策。 |
事实 | 实际的数据收集流程和原始输出。 |
转换 | 通过过滤、验证、解析、格式化和清理等操作将原始数据转换为可用形式。 |
体验 | 在实际场景(实验、生产或研究)中对数据集进行测试、基准化分析或部署。 |
n = 1(样本) | 数据集中的实际样本或片段,代表正常数据点和离群值。 |
在创建数据卡片时,可以通过以下两种方法使用 OFTEn:
- 以归纳方式:OFTEn 支持与代理一起构建关于数据集和相关模型的问题,这些问题对于决策至关重要。我们发现,当众多代理运用 OFTEn 结构集思广益考虑问题时,会揭示出进行相关决策所需的信息。
- 以推理方式:OFTEn 可用于评估数据卡片是否准确地诠释了数据集,这会对文档和数据集产生形成性影响。例如,处于早期阶段的数据集更侧重于起源和事实,而处于成熟阶段的数据集则更侧重于体验。
通过 OFTEn,您不仅可以集思广益,还可以检查您的问题是否覆盖了数据集的整个生命周期,从而确保内容最终实现完整性和简洁性。这不仅有助于发现创建的类型多余的问题,还可以帮助发现在这个过程中可能遗漏的问题。
2. 使用 OFTEn 限定问题
- 回想一下您在上一单元中制定的一些利益相关方和代理信息历程 (AIJ),然后利用下面的提示来帮助您组织自己的想法。
- 如果其中一些问题已可成功归入 OFTEn 中的某个类别,请进行相应标记。
- 如果您的问题不属于 OFTEn 中的任何类别,请选择上一单元中的一个代理,然后根据每个 OFTEn 类别为该代理创建至少一个问题。
- 根据“5W”(谁、什么、哪里、何时、为什么)和“1H”(如何)创建更多问题,以扩展 OFTEn 类别的深度。
- 如果适用,对下一个代理重复上述步骤。
3. 维度
现在,您已理解了 OFTEn 并创建了数据卡片中需要包含的问题。接下来,您可以对数据卡片进行初步检查,以获得关于这些问题的洞察。为此,我们引入了“维度”概念。维度是对读者所做的各种判断类型的概括性说明,旨在提供关于数据卡片实用性和可读性的方向性洞察。换句话讲,您的数据卡片能否帮助读者做出关于数据集的清晰结论?
负责
负责的数据卡片是由那些对数据集及其使用表现出充分的所有权、反思能力、推理能力和系统决策能力的人员拥有和维护的。
领域示例 | 问题示例 |
作者身份、责任、维护、意图 | 作为 [perspective],我想了解... |
实用
一个实用的数据卡片会提供详细信息,满足读者对信息的需求,从而实现负责任的决策流程,使数据集契合读者的任务和目标。
领域示例 | 问题示例 |
生产者需求、代理需求、用户需求、社会需求 | 作为 [perspective],我想了解... |
质量
一个优质的数据卡片会总结数据集的严谨性、完整性和完备性,通常会以一种易于获取和理解的方式传达给不同背景的读者。
领域示例 | 问题示例 |
有效性、可靠性、完整性、可重复性 | 作为 [perspective],我想了解... |
使用影响或后果
数据卡片要做到充分说明数据集使用影响,应正确阐述使用和管理数据集时的预期结果,并指出可能会对读者目标产生负面影响的任何主要或次要后果。
领域示例 | 问题示例 |
有效性、相关性、群体利益、偏差影响 | 作为 [perspective],我想了解... |
风险和建议
为了提供合理的建议,数据卡片应让读者意识到因数据的来源、表达方式、使用方式或使用背景会引发的已知和潜在风险及限制,并提供足够的信息和替代方案帮助读者做出负责任的权衡。
领域示例 | 问题示例 |
风险程度、缓解措施、建议、群体风险 | 作为 [perspective],我想了解... |
总结
利用这些维度,您可以评估自己创建的问题,确保这些问题契合您的目标和预期结果。即使您还未深入回答数据卡片中的某个问题,在深入到数据集文档流程之前,最好还是先修正所有错误。
下表总结了这五个维度:
阶段 | 说明 |
问责 | 表达不同利益相关方对数据集可信度的反思性、合理和系统性决策的陈述。 |
实用 | 提供满足读者实现负责的决策流程所需的信息,建立契合其目标的使用场景。 |
质量 | 总结了数据集的严谨性、完整性和完备性,并以方便各类读者获取和理解的方式传达。 |
影响和后果 | 提供能够帮助读者在使用和管理数据集时实现理想效果的信息,同时指明可能对其目标产生负面影响的各种后果。 |
风险和建议 | 让读者了解与数据集相关的已知和潜在风险,这些风险源于数据集的表示形式、使用方式或使用情境。 |
利用这些不同类型的维度,您在编写数据卡片之前,就可以了解数据卡片内容的质量、可读性和实用性。它们可以帮助您找出有助于制作更可靠、更完善的数据卡片模板的方法。
4. 使用维度评估您的问题
- 从一个维度着手,然后根据问题的复杂程度,确定需要怎样的顺畅度和专业知识才能得出明智的结论。
- 提供相关理由和推理,说明目前您的问题对该维度的支持程度。
- 通过问题集中的一两个问题示例,证明您给出的理由。
- 如果维度评估结果不理想,记录改进或解决相应问题必须采取的步骤。如果与利益相关方团队一起合作,并且其中有些利益相关方更擅长解决某些问题,可以让其承担相应职责。
- 针对下一个维度重复上述步骤。
您可以利用以下示例模板来记录维度评估结果:
此评估过程可能需要 15 分钟到 1 小时的时间,具体取决于您为数据卡片创建了多少问题,以及需要考虑的利益相关方的差异程度。
5. 恭喜
恭喜!您已了解如何检查为数据卡片创建的问题。接下来,您需要开始回答这些问题。