Data Commons 專案

本頁針對 Google 系列文件接受的技術撰寫專案提供詳細資料。

專案摘要

開放原始碼機構:
資料 CC
技術文件撰寫者:
KilimAnnejaro
專案名稱:
改善 DataCommons 入門說明文件
專案長度:
標準長度 (3 個月)

Project description

在我擔任軟體工程師的職涯中,對於加入新團隊或專案、下拉程式碼存放區、執行及觀看軟體破損等重要步驟時,我常常感到受挫。我很快就發現,我可以將一生中對於寫作和構思的熱情應用到這些需求中,為合作的開發人員打造有互助的環境,讓他們專注於技術創新和創意,而非使用已知的解答解決問題。

許多社會中的許多部門都迫切需要這樣的技術創新和創造力,尤其是政府和非營利機構想分析其問題空間的資料集時,更是如此。DataCommons 能以服務即的形式提供這些資料,讓分析師尋找容易存取且接近職務格式的資料時,事半功倍。DataCommons 的做法是建立所擷取資料的知識圖譜,並在過程中引發有關資料品質與開放原始碼管理等有趣的問題。向 Google Summer of Docs 針對 DataCommons 組織的提案提出申請,希望能支援並推動這些技術措施,以期發展公眾利益開放資料空間。

使用建議解決方案的說明文件中目前的問題點 雖然 dataCommons 網站提供了將資料集新增至 dataCommons 的指示,但路線非常簡短明確,包含數個項目,引導目的地資料捐款者使用 schema.org 標記。在此專案中,建議您清除 dataCommons.org 的「Get Involved」(參與) 部分。我將建立新增資料集的教學課程,說明資料集抓取與整合至 dataCommons 知識圖譜的方式。當資料集擁有者聯絡 dataCommons 維護人員尋求協助時,我也會新增常見問題專區,提供他們建議的常見解決方案。

查看目前的一組資料查詢範例,dataCommons 只提供四個互動式程式碼範例,全都是 Python 筆記本。在這個專案中,我會將這些筆記本轉譯為 R,同時為 Google 試算表和 REST API 的範例建立互動式示範版本,並將這些示範嵌入目前的說明文件中。

最後,說明文件並未提供 dataCommons 知識圖譜的應用範例,在軟體中建構應用程式。在這個專案中,我將使用 dataCommons API,建立、部署及記錄一個以 Python 編寫的範例工具,讓使用者能夠根據知識圖譜中任何兩個數量相關數據建構圖形示意圖。舉例來說,這項工具或許能使用這項工具,將天氣資料與常見商業模式資訊相關的線性迴歸。為了延伸這個目標,我希望這項工具可以擴大運用到其他類型的圖表,例如圓餅圖和文氏圖。

賽程 賽季期間為 9 月 14 日至 11 月 30 日,所以我完成這項專案的計畫預計如下所示:

9 月:一開始先改寫「投入心力」(Get Involved) 部分,通常會在 9 月底完成這項工作。

10 月:總結「開始參與」部分,並建立互動式程式碼範例。

11 月:建立範例視覺化工具。