Data Commons 项目

本页面包含 Google 文档季接受的技术写作项目的详细信息。

项目摘要

开源组织:
数据公共领域
技术文档工程师:
KilimAnnejaro
项目名称:
改进了 DataCommons 入门文档
项目时长:
标准时长(3 个月)

Project description

在担任软件工程师的职业生涯中,我反复遇到这样的情况:加入新团队或项目、拉取代码库、运行该库,然后发现文档中缺少关键步骤,导致软件崩溃,这让我感到非常沮丧。我很快意识到,我可以将自己对写作和作文的终身热情应用于这些需求,在此过程中为与我共事的开发者营造一个支持性环境,让他们专注于技术创新和创造力,而不是解决已知答案的问题。

社会各界迫切需要这种技术创新和创造力,尤其是政府和非营利组织中的领导者,他们希望分析其问题领域中的数据集。通过将这些数据作为服务提供,DataCommons 降低了分析师的使用门槛,让他们可以轻松访问数据,并获得与其角色所需格式相近的数据。DataCommons 为此创建了其提取数据的知识图谱,在此过程中提出了有关开源环境中数据质量和治理的有趣问题。通过提交一份针对 DataCommons 组织的提案,申请加入 Google 文档之夏活动,我希望支持并推进这些公共利益开放数据领域的技术工作。

文档当前存在的问题及建议的解决方案 虽然 dataCommons 网站确实包含有关将数据集添加到 dataCommons 的说明,但这些说明非常简短且不明确,仅包含几个要点,指示潜在的数据提供方使用 schema.org 标记。在此项目中,我提议整理 dataCommons.org 的“参与”部分。我将创建一个有关添加新数据集的教程,说明如何抓取数据集并将其纳入 dataCommons 知识图谱。我还将添加一个常见问题解答部分,用于提供当数据集所有者向 dataCommons 维护者寻求帮助时建议的常见解决方案。

查看目前用于查询数据的一组示例,dataCommons 仅提供了四个交互式代码示例,它们都是 Python 笔记本。在本项目中,我将这些笔记本转换为 R 代码,还将为 Google 表格和 REST API 创建当前示例的交互式演示版,并将这些演示版嵌入到当前文档中。

最后,该文档并未提供任何有关如何使用 dataCommons 知识图谱在软件中构建应用的示例。在本项目中,我将使用 Python 创建、部署和记录一个示例工具,该工具利用 dataCommons API 让最终用户能够构建与知识图谱中任何两个相关量相关的图形可视化结果。例如,您或许可以使用此工具绘制线性回归图,将天气数据与常见的业务模式信息相关联。作为一个远大目标,我希望将此工具扩展到其他类型的可视化图表,例如饼图和 Venn 图。

时间安排 本赛季的比赛时间为 9 月 14 日至 11 月 30 日,因此,我完成此项目的计划如下:

9 月:先重写“参与”部分;在 9 月底之前完成大部分工作。

10 月:完成“参与其中”部分,并创建交互式代码示例。

11 月:创建示例可视化工具。