第 4 单元:审核

第 4 单元:审核

关于此 Codelab

subject上次更新时间:4月 17, 2023
account_circleAndrew Zaldivar 编写

1. 评估

现在,您的数据卡片已准备好发布,为了实现透明度目标,您还需要完成以下后续操作:

  • 使用评估方法了解读者使用数据卡片的效果。
  • 系统地跟踪数据卡片的使用和采用情况,确保其契合读者的目标。

本单元提供的方法可以帮助您对已完成的数据集进行审核,并确保您在数据卡片发布后获得持续的成功。

正如之前的单元中提到的,数据卡片读者的主要目标是对数据集进行评估。因此,在对数据集的数据卡片进行任何评估时,应将评估重点放在读者能否成功得出有关该数据集的可接受的结论上。

数据卡片中提供的信息必须与读者使用数据集的体验相一致。这将直接影响读者对数据集可靠性和可信度的看法,进而影响数据集作者或发布者的声誉和诚信度。

反之,读者对您的数据集、您的组织以及组织发布的其他数据集的现有看法也会影响他们与数据卡片的互动情况,无论该数据卡片的可发现性、易用性或结构如何。

例如,如果读者以前在使用某组织发布的数据集时获得了不错的体验,他们可能会下意识地对同一作者发布的新数据集更加信任。在这种情况下,读者可能会依靠直觉做出判断,并且可能不会仔细阅读新的数据卡片。这导致他们无法全面了解数据集,特别是与之前发布的类似数据集的不同之处。

因此,在评估数据卡片时,需要通过一些方法来评估读者能否在其背景下得出关于该数据集的可接受的结论。这与评估数据集本身有所不同。在评估数据集时,可能不会过多揭示其对应的数据卡片的有效性。但在评估数据卡片时,您必须采用用户调研等方式,这有助于了解不同读者能否理解您的内容;或在您迭代数据卡片时,读者是否依然能够得出富有实用价值的分析洞见。另一种方法是衡量数据卡片的采用情况和效果,这可以通过数据卡片实现过程中的用户满意度、各种调查和分析来实现。从这个意义上讲,数据卡片可以作为推动和评估数据集成效的检测工具,帮助您更清晰地了解下游利益相关方的需求。

要求

数据集的生命周期中涉及各种不同的利益相关方,他们的数据熟练程度、领域专业知识和要求各不相同。

要求是对产品或流程的操作、功能、设计特征或限制做出的声明,该声明清晰明确、支持测试并且对于产品或流程的可接受性十分必要。数据集的目标、数据集生命周期中的利益相关方以及透明度工作的实现会影响数据卡片要求的确立和评估标准。例如,多位产品经理、工程师、数据科学家、AI 设计师以及 IRB 审查人员都有可能使用数据卡片中的回答。在这种情况下,一套完善的评估流程应包含与其中每个角色的功能性、操作性、易用性和安全性要求直接相关的标准。

总结

不同的评估方法会对数据卡片的效果得出不同的结果。您需要选择能够在整个透明度文档流程中(从创建到发布再到发布后)使用的评估方法。

无论是本单元介绍的四个要求(功能性、操作性、易用性和安全性),还是第二单元介绍的维度(负责、实用、质量、使用结果以及风险/建议),它们都是直接从读者视角评估数据卡片整体效果的理想起点。

2. 确定您的要求

  • 您可以使用下表确定您的要求,其中包含了要求、可能的评估标准,以及从读者视角确定数据卡片是否满足该标准的方法示例:

要求

评估标准

示例

功能性

您的数据卡片能否支持读者在各自的角色中完成任务?

假设某位数据工程师希望将您的数据集集成到其流水线。您的数据卡片是否提供了为使用数据集而必须实现的基础架构的信息?

操作性

您的数据卡片能否让读者了解有效使用数据集所需的基本功能、性能指标以及其他相关要求和流程?

假设某个机器学习 (ML) 模型构建者想要使用您的数据集来优化推荐系统。您的数据卡片能否提供足够的信息,以确定必须满足的限制条件和性能需求?

易用性

读者能否轻松浏览您的数据卡片并与之互动?数据卡片的实现是否符合基本的易用性启发词语和无障碍标准?

假设有一个学生身份的研究员需要使用您的数据集,但他的互联网访问受限。如果在您的数据卡片中嵌入交互式、探索性的数据集可视化效果,可能会带来哪些问题?哪些界面设计问题会导致屏幕阅读器无法为低视力读者翻译数据卡片?

安全

数据卡片中提供的信息是否有助于从业者评估其领域中与数据集相关的所有潜在不良后果?

考虑一下在高风险领域(例如医疗保健业)工作的机器学习从业者。为了避免带来不良的医患体验,您的数据卡片是否说明了有必要披露的要求(例如适当的安全性、隐私性、稳健性和合规性)?。

如需了解详情,请参阅从读者视角进行评估

3. 确定您的维度

  • 如要确定您的维度,请邀请潜在读者从五个维度评估您的数据卡片,并使用下表评估数据卡片在每个维度中的表现:

52b41a36b71ccc6d.png

4. 大规模遥测

任何形式的透明度文档要取得成功,就必须将文档视为以用户为中心的产品。您需要系统地跟踪数据卡片的使用情况,以制定长期透明度策略和跨各职能边界的广泛计划。在衡量透明度工作成效方面没有放之四海而皆准的方法,但在制定成效跟踪计划时,可以参考多种因素,例如透明度工作的成熟度和目标、组织规模或编写的数据集。

例如,您发现衡量数据卡片效果的某些遥测形式更容易嵌入到交互式数据卡片的实施中,而不是 PDF 格式的数据卡片中。另一方面,衡量数据卡片的有效性可能需要您设置自定义机制,以衡量组织中未完成或被弃用的数据卡片。

衡量影响

一般来说,数据卡片模板的指标及其采用大致可分为以下七类:文档健全度、弹性和稳定性、可理解性、可支持性、转化情况、互动度和覆盖面。但是,这些指标并不完全对等,需要结合您的背景来考虑。下表列出、定义并说明了何时以及如何衡量数据卡片和数据卡片模板的这七个类别:

类别

定义

何时衡量

测量方法

文档健全度

读者使用数据集的体验满意度符合其数据卡片设定的预期。生产者描述数据集的体验准确度符合数据卡片模板设定的预期。

模板:数据集生产者完成数据卡片期间或刚刚完成后。

数据卡片:将完成的数据卡片分发给样本受众群体之前,以及在分发给真实读者后定期进行。

模板:衡量数据卡片模板对目标数据集的描述情况。例如,“未回答问题率”用于评估某类数据集一直未回答的问题的比例。

数据卡片:衡量完成的数据卡片描述数据集及其使用情况的准确程度。例如,“读者满意度对比”用于收集数据卡片读者满意度得分,并将其与发布数据卡片之前所做的评估进行对比。

弹性和稳定性

数据卡片模板支持修改或添加操作,特别是在多个领域中使用或有不同的读者阅读数据卡片时。

模板:生产者完成数据卡片期间或刚刚完成后。特别要注意发布后进行的修改

数据卡片:在发布后执行修改和添加操作时。

模板:衡量模板捕获的数据集多样性,包括修改量、最常进行的修改,以及未正确回答或重新调整的问题数量。例如,“修改率”是用模板创建的数据卡片数量与在模板中进行修改的数量之间的比率。

数据卡片:衡量对已发布的数据卡片进行修订和添加内容的数量,以及进行这些更改的频率。例如,“平均故障间隔时间”用于衡量修改数据卡片事件间隔的平均时间。

可理解性

生产者妥善采纳和使用数据卡片模板的情况,以及数据卡片新读者采纳、习惯和使用已完成数据卡片中的信息的效率情况。

模板:向数据集生产者提供模板,以便在完成流程中完成里程碑处的签入时。

数据卡片:公开分发或发布数据卡片时。

模板:衡量生产者对数据卡片模板的理解程度以及各部分的难易程度。例如,“形成性研究”会主动招募读者参与调查和认知演练,以获得具体洞察。

数据卡片:衡量数据卡片的读者理解程度和易用性,以及对不同读者的适用性。例如,“分析”跟踪流量和互动指标,以了解整体理解模式。但是,请注意那些虚荣指标。

可支持性

为数据卡片的持续成功提供支持的能力及支持力度。

模板:在组织中刚着手数据卡片方面的工作时。不论规模大小,不论是否是临时行为。

数据卡片:数据卡片可供使用并跟踪一段时间后。

模板:衡量完成和发布数据卡片模板所需的额外时间和专业知识。例如,“咨询交流时间”用于衡量参与情况、数据集类型以及在咨询交流时间收到的问题,或数据集生产者在创建数据卡片过程中获得的支持计划。

数据卡片:衡量数据卡片对数据集问题的质量和独特性的影响,以及对数据集的适当使用的影响。例如,“发布后的问题”用于跟踪与数据集相关的错误、问题或功能请求,它们被归类为数据卡片未回答的问题。

转化情况

跟踪利用模板完成并发布数据卡片的生产者比例,以及根据数据卡片就数据集做出决策的读者比例。

模板:在组织中刚着手数据卡片方面的工作时。不论规模大小,无论是否是临时行为。

数据卡片:数据卡片可供使用并跟踪一段时间后。

模板:衡量生产者成功完成数据卡片模板的比率。例如,“分析”跟踪完成率和发布时间,以及数据卡片模板相关部分的比例。

数据卡片:衡量读者根据数据卡片成功做出决策的比率。例如,定性研究对读者进行访谈和满意度调查,深入分析决策准确性和任务完成率。

互动度

跟踪受众与您的内容(如数据卡片)的互动情况。

模板:在组织中建立并分发数据卡片模板后。

数据卡片:数据卡片与其所代表的数据集一起面向公众提供时。如果公众无法发现此数据卡片,或存在与其竞争(而非互补)的文档源,则该指标的用处较小。

模板:衡量数据集生产者在数据卡片计划中的参与度和贡献度。例如:

  • “模板共享率”是与其他数据集所有者共享数据卡片模板的生产者比例。
  • “自然创建率”是未经要求而创建的数据卡片的比例。
  • “回答质量”是数据卡片中提供的信息的准确性和实用性。

数据卡片:衡量数据卡片的使用和知识生成情况。
例如:

  • “重复使用”衡量代理或数据集用户参考数据卡片以获取更多信息的次数。
  • “每个部分”用于衡量数据卡片每个部分的互动指标,并跟踪数据卡片每个部分的深层链接共享。

覆盖面

跟踪查看数据卡片的总唯一身份人数。这是评估互动度和转化情况等更多指标的重要前提。

模板:在组织中建立并分发数据卡片模板后。

数据卡片:数据卡片与其所代表的数据集一起面向公众提供时。如果公众无法发现此数据卡片,或存在与其竞争(而非互补)的文档源,则该指标的用处较小。

模板:衡量组织可以生成的数据卡片数量(相对于其拥有的数据集数量)。

数据卡片:衡量数据卡片获得的流量和质量,以及为数据集带来的流量。例如,“摩擦日志”用于跟踪数据集生产者和数据卡片读者在焦点小组会议期间可能遇到的挑战、困难或挫折。

如需了解详情,请参阅大规模遥测

实施这些遥测指标可能需要不同级别的资源和支持。例如,与记录数据卡片完成率的分析相比,焦点小组在解读数据卡片对生产者的易用程度时需要完全不同的资源。同样,衡量数据卡片获得的流量需要的资源相对更少,而在发布数据卡片后调查互动度需要的资源相对更多。您可以与组织中的跨职能决策者一起审核这些不同的类别,以确定跟踪成效的指标和方式。

总结

最后,衡量数据卡片成效的指标不同于衡量数据卡片完成进度的指标。数据集的成熟度也会影响您解读数据卡片指标的方式。除了考虑数据集的成熟度和普及度以外,还应综合考虑定量、定性和个人经验影响。

5. 选择您的指标

正如前面提到的,您的背景决定了确保您实现透明度目标所需的指标。

要选择您的指标,请按以下步骤操作:

  1. 让目标多样化。为您的透明度工作设定团队目标,不仅用于评估完成数据卡片的进度,还用于评估创建和发布数据卡片后对读者的影响。
  2. 确定先行指标和滞后指标。对于衡量何时实现目标的每个滞后指标,建立先行指标来跟踪有助于实现该目标的重要活动。
  3. 定期进行互为补充的定性研究。在设置衡量整个组织的数据卡片所需的基础架构时,制定一个计划定期进行定性研究,以验证结果并校准定量指标。
  4. 对各个数据团队进行培训。让生产数据集和数据卡片的团队能够基于其数据集和数据卡片背景一起解读定性和定量指标。

6. 恭喜

恭喜!您已了解创建数据卡片需要的所有知识!接下来请参加测验,检验自己对知识的掌握情况。