Data Commons 專案

本頁面包含 Google 技術文件季度接受的技術寫作專案詳細資料。

專案摘要

開放原始碼組織:
Data Commons
技術文件撰稿者:
KilimAnnejaro
專案名稱:
改善 DataCommons 入門說明文件
專案長度:
標準長度 (3 個月)

Project description

在我的軟體工程師生涯中,我經常遇到加入新團隊或專案、下載程式碼存放區、執行程式碼,卻發現文件中缺少關鍵步驟,導致軟體發生錯誤的經驗,這讓我感到相當挫折。我很快就發現,我可以將對寫作及構思的長期熱情應用到這些需求,為合作的開發人員打造一個互惠的環境,專注於技術創新和創意,而非解決已知答案的問題。

許多社會領域都迫切需要這類技術創新和創意,尤其是政府和非營利組織的領導者,因為他們需要分析各自問題領域的資料集。透過將這類資料以服務形式提供,DataCommons 降低了進入門檻,讓分析師能輕鬆存取資料,並取得符合其職務所需的格式。DataCommons 能藉由為擷取的資料建立知識圖譜,在過程中引發有關資料品質和管理方面的值得注意的開放原始碼問題。我在 Google Summer of Google 文件中提出 DataCommons 機構的提案,希望能夠支援並推動這些技術方面的提升,促進公眾利益開放的資料空間。

說明文件目前的痛點與建議解決方案 雖然 dataCommons 網站確實提供將資料集新增至 dataCommons 的操作說明,但說明非常簡短且不清楚,僅以幾個項目列點說明資料捐獻者應如何使用 schema.org 標記。在這個專案中,我建議清理 dataCommons.org 的「參與」部分。我會建立教學課程,說明如何新增資料集,以及如何擷取資料集並納入 dataCommons 知識圖譜。我也會新增常見問題章節,提供資料集擁有者向 dataCommons 維護人員尋求協助時,建議的常見解決方案。

查看目前的查詢資料範例集合,dataCommons 只提供四個互動式程式碼範例,全都是 Python 筆記本。在這個專案中,我會將這些筆記本轉譯成 R,並針對 Google 試算表和 REST API 建立互動式示範版,進而將這些示範嵌入目前的說明文件。

最後,說明文件並未提供任何範例,說明如何使用 dataCommons 知識圖來在軟體中建立應用程式。在這個專案中,我會使用 Python 建立、部署及記錄範例工具,該工具會利用 dataCommons API 讓使用者建構與知識圖中任何兩個相關量相關聯的圖形視覺化資料。舉例來說,您可以使用這項工具,將天氣資料與常見的業務模式資訊進行線性迴歸。我希望能將這項工具擴展到其他類型的視覺化資料,例如圓餅圖和維恩圖。

時間表 9 月 14 日至 11 月 30 日是賽季期間,完成這項專案的計畫如下:

9 月:開始重寫「參與」一節,並在 9 月底前完成大部分工作。

10 月:完成「參與」一節,並建立互動式程式碼範例。

11 月:建立範例視覺化工具。