关于此 Codelab
1. 确定关键要点
您确定了要在数据卡片中包含的一系列问题,而且您认为这些问题对于读者来说很重要。不过,数据卡片并不只是简单地回答这些问题。您需要经过深思熟虑,确保最终完成的数据卡片针对读者体验进行了优化。
在阅读数据卡片时,人们希望做出非常具体的决策,例如:
- 该数据集是否适合我的用例?
- 我能否让他人使用该数据集?
- 我如何才能安全地使用该数据集,而不给我的模型增加风险?
如果读者能够有效获取正确信息,就能根据其背景轻松做出与数据集相关的决策。信息的重要性或实用性取决于读者必须做出的决策类型及其背景。例如,在决定是否使用某个数据集时,合规专员可能关注的是与之相关的许可,而工程师关注的则是技术栈。这两种读者会问相同的问题,但期望获得的却是不同的答案。
数据卡片应对数据集进行全面描述,让读者能够充满自信地做出决策。这些全面的描述可以帮助您确定希望读者从数据卡片中获得什么,并确定要在其中提供哪些准确、可靠且条理清晰的信息。当然,其中的挑战在于,我们很难确定数据卡片读者需要做出的所有可能决策。
2. 规划数据卡片
- 要确定数据卡片读者需要做出的决策,以及数据卡片应该提供的信息深度,请回答下表中每个类别对应的问题:
读者 | 决策 | 目标 | 相关性 | 详细程度 |
主要受众是谁? | 他们将就数据集做出哪些决策? | 他们希望从数据卡片中获取哪些信息? | 为实现既定目标,他们需要从数据卡片中获得哪些具体内容? | 根据您对这类读者的了解,您提供的内容必须有多详细或多细致? |
示例:生产软件工程师 | 示例:我是否应使用数据集来测试生产环境中的机器学习 (ML) 模型? | 示例:为我提供对数据集的整体概述。告诉我该数据集的实现方式。 | 示例:预期使用场景和不支持的使用场景,历史模型的使用情况及结果。 | 示例:非常细致。关注技术用途和易用性,目标是集成到生产系统。 |
您可以使用此表评估数据卡片,确保主要读者能够在数据卡片中找到实用信息。评估数据卡片的方法有很多,我们建议的一种方法是评估易用性问题的严重级别。
尽管确切定义可能有所不同,但以下严重级别标准提供了对问题严重程度及其影响的评级,而不考虑优先级。在当前上下文中,我们指的是数据卡片的易用性。如果易用性问题不能得到解决,就有可能影响读者对数据卡片的信任度及使用。
- 如要评估数据卡片对之前表格中每个受众群体的易用性,请回答以下严重性级别量表中的问题:
违规情况 | 严重级别 | 修复 |
什么回答对读者没有用? | 解决此问题的紧急程度如何(1 到 5 分)?(勾选适用的复选框):
| 解决方案是什么? |
3. 以够用为目标
在创建第一个数据卡片时,您容易出现以下两种问题:
- 提供的信息量过大,让读者感到无所适从。
- 提供的信息量过少,让读者感到困惑不解。
作为数据卡片的创建者,您需要精心整理其中的信息并确定其优先级。优质的透明度工件可以为读者提供充足的背景信息,让他们能够清晰地了解所需内容。即使没有适用的内容,它也会指引读者接下来可以怎么做。
您提供的信息应该让数据集变得易于理解和使用。有时,数据集的复杂性增加,这会影响数据卡片中需要汇总的信息和解释密度。
无论读者的专业知识水平如何,他们都有可能面临信息过载的问题,因此请务必提供准确的信息,其中包括:
- 您应提供的信息类型。
- 您需要提供的信息量。
- 其中包含的详细信息。
您的回答应尽可能归纳总结所有信息,而不是详述所有细枝末节,同时还应提供读者了解数据集所需的背景。
启发词语
我们制定了一套启发词语,可用于评估阅读您的数据卡片时的整体体验。我们将这些启发词语视为数据卡片必须实现的目标,以创建符合预期的数据卡片,并以合理方式大规模用于实际场景中。下表列出了这些目标及对应说明:
目标 | 说明 |
一致 | 无论数据属于何种模态或领域,数据卡片之间必须具备可比性,以便在使用场景中能够轻松解释和验证声明。一次性数据卡片的部署要相对轻松,但我们发现,团队和组织在扩大采用范围需要保持数据卡片的可比性。 |
综合全面 | 相较于将创建数据卡片作为数据集生命周期的最后一步,在创建数据集的同时创建数据卡片要更加容易。此外,还应将数据卡片各部分的编写工作分派给最合适的人员。这需要使用一套标准化方法,不仅仅适用于数据卡片,也适用于在数据集生命周期中生成的各种形式的报告。 |
清晰简洁 | 读者的专业水平各不相同,这会影响他们对数据卡片的解读。在利益相关方专业水平不同的情况下,对数据集拥有最高专业知识的人会成为事实上的决策者。最后,更紧急或更具挑战性的任务会降低非传统利益相关方的决策参与度,让决策权最终交给了“专家”。这可能会遗漏反映下游和横向利益相关方实际需求的重要观点。数据卡片应该能够向专业水平最低的读者有效传达信息,同时又能让熟练程度更高的读者找到更多所需信息。其内容和设计应该有利于推进读者的思考过程,而不是因信息量过大而让读者感到无所适从,同时还应鼓励利益相关方紧密协作,在进行决策时达成关于数据集的统一观点。 |
4. 给启发词语打分
- 如要检查数据卡片中的回答,可使用我们设计的以下评分卡给每种启发词语打分。最后,您可以统计出数据卡片获得的总分,帮助您保持正确的工作方向。您还可以添加评论,以提供更多背景信息和改进每种启发词语的操作。
启发词语 | 标准 | 注释 | 得分 |
为已完成的数据卡片的以下启发词语自行评分。 | 启发词语的评判标准 | 重点记录数据卡片能够改进的方面。 | 仅限数字,自行评分(0 到 10 分) |
清晰 |
| . | . |
全面 |
| . | . |
一致 |
| . | . |
简明 |
| . | . |
总分 =(总分/120) | . | . | 120 |
5. 深入分析
我们知道,数据是为特定目的、以结构化方式获取的关于人员、文化或业务的信息。不过,就像我们反复强调的,这些数据本身存在细微差别,并以多种维度不同程度地交织在一起。因此,对数据集进行分析有助于了解对数据集本身注入的思考,从而理解其复杂性。
例如,人群交叉分析有助于辨别数据集中的一系列人为因素,以发现可能存在的比例失调的结果,例如,基于数据集训练的模型在某个子群组中的表现优于在其他群组中的表现。分解分析可基于不同的因素来拆解数据集,以揭示大型汇总数据中通常会掩盖的子群体或边缘化群体的重要模式,方便读者据此预测结果。
通过执行这类任务,我们发现交叉分析和分解分析 (IDA) 通过在数据集中建立清晰的关系,能够在数据卡片中的不同情境下有效传达一系列合理结果。IDA 可以为读者提供关于数据集表示形式的重要线索,比如标签与敏感实体的相关性、数据集中欠缺的信息(如数据集只包含白天拍摄的照片),以及变量之间可能导致 AI 模型学习到假性关联或选择替代项的关系。对于现实世界中反映受影响用户对使用数据集的产品或服务的体验的情况,这些分析将更加有用。
例如,在数据卡片中呈现 IDA 结果有助于读者主动了解其机器学习模型在数据集子集(也称为“切片”)上的表现。这需要数据集创建者投入更多精力来分析数据集及其在数据卡片中的呈现,但最终可以为利益相关方带来更好的产品效果。
IDA 可以帮助读者更直观地了解如何在其模型中使用您的数据集。如果您遇到困难,请与专家、产品团队以及拥有相关经验的人员合作,让他们帮助您进行分析。IDA 通常基于需要向读者解释的背景,或者需要获得额外的支持,以便读者能够对此做出适当地解读。
6. 分析您的数据
如要分析您的数据集,请按以下步骤操作:
- 在进行分析之前充分探索。利用 TensorFlow Data Validation (TFDV)、Know Your Data (KYD) 或 Learning Interpretability Tool (LIT) 等工具,培养识别数据集中的偏差和不平衡问题的能力。利用这些结果来指导您的分析设计。
- 精心设计您的分析。分析结果主要受以下因素影响:评估目标、进行分析所依赖的专业知识和资源、进行分析的时间和地点,以及进行分析所依赖的 AI 模型的背景。
- 从与预期用途相关的因素入手。构建利益群体时,从最能影响预期使用场景的因素着手,例如受众、社会文化、行为以及形态因素,并在此基础上进一步扩展。
- 只报告,不评论。需要注意的是,影响公平性分析的因素和假设存在于特定于历史和文化的社会结构中,我们很难对其量化。请谨慎添加可能会让读者感到困惑的评论。相反,应提供重现分析的方法,帮助读者在自己的上下文中校准结果。
- 提前规划。考虑未来可能出现的其他因素,具体方法是审视数据集中的表示法、保持不同情景下数值的一致性,或将您的分析与数据集相关的其他因素值相结合。
- 为不可重现的结果提供更多背景信息。如果下游利益相关方无法重现指标,请为其提供足够的分析背景。如果读者可以使用此信息来权衡数据集的利弊,那么就可以建立对数据集的信任。
7. 恭喜
恭喜!您已了解在数据卡片中提供正确回答的一些方法。接下来,您将对这些答案进行审核。