Data Commons 项目

本页面包含有关 Google 文档季可接受的技术写作项目的详细信息。

项目摘要

开源组织:
数据共享
技术文档工程师:
KilimAnnejaro
项目名称:
改进 DataCommons 入门文档
项目时长:
标准时长(3 个月)

Project description

在作为软件工程师的职业生涯中,当加入新团队或项目、下载代码库、运行代码库,以及在文档中缺少关键步骤时看到软件中断时,我不断对自己感到沮丧。我很快意识到,我可以将我毕生对写作和写作的热情投入满足这些需求,在这个过程中,为我合作的开发者创造有益的环境,专注于技术创新和创造力,而不是利用已知的答案解决问题。

社会的许多细分领域都迫切需要这种技术创新和创造力,尤其是政府和非营利部门的领导者,希望分析其问题领域中的数据集。DataCommons 以服务的形式提供这些数据,使分析人员更容易获取数据,并且数据格式接近他们角色所需的格式。为了实现这一点,DataCommons 为其注入的数据创建了一个知识图谱,在此过程中会引发一些与开源环境中数据质量和治理有关的有趣问题。通过为 DataCommons 组织的提案申请 Google 文档夏季计划,我希望能够支持和推动在公共利益开放数据领域的技术工作。

建议解决方案文档的当前痛点 虽然 dataCommons 网站上确实提供了将数据集添加到 dataCommons 的说明,但是这些说明非常简短且不明确,包括几个要点,引导潜在的数据捐赠者使用 schema.org 标记。作为此项目的一部分,我建议清理 dataCommons.org 的“Get Involved”(参与)部分。我将创建一个用于添加新数据集的教程,说明如何抓取数据集并将其整合到 dataCommons 知识图谱中。此外,当数据集所有者联系 dataCommons 维护人员以获取帮助时,我还将添加“常见问题解答”部分,用于提供建议的常见解决方案。

根据当前的数据查询示例集,dataCommons 仅提供了四个交互式代码示例,所有这些示例都是 Python 笔记本。在本项目中,我会将这些笔记本转换为 R 语言,并为当前示例为 Google 表格和 REST API 创建交互式演示版本,并将这些演示嵌入当前文档中。

最后,本文档并未提供任何有关如何使用 dataCommons 知识图谱在软件中构建应用的示例。在本项目中,我将使用 Python 创建、部署和记录一个示例工具,该工具利用 dataCommons API 使最终用户能够构建知识图谱内连接的任意两个数量相关的图形可视化。例如,您可以使用此工具绘制将天气数据与常见业务模式信息相关的线性回归模型。作为一个延伸目标,我希望将此工具扩展到其他类型的可视化,例如饼图和维恩图。

安排 本赛季从 9 月 14 日至 11 月 30 日,我完成此项目的计划如下:

9 月: 从重新编写“参与”部分开始;在 9 月底之前基本完成所有工作。

10 月:结束“参与”部分并创建互动式代码示例。

11 月:创建示例可视化工具。