データコモンズ プロジェクト

このページでは、Google Season of Docs に承認された技術文書作成プロジェクトの詳細について説明します。

プロジェクトの概要

オープンソース組織:
Data Commons
テクニカル ライター:
KilimAnnejaro
プロジェクト名:
DataCommons スタートガイドのドキュメントの改善
プロジェクトの長さ:
標準期間(3 か月)

プロジェクトの説明

ソフトウェア エンジニアとしてのキャリアの中で、新しいチームやプロジェクトに参加してコード リポジトリを pull ダウンし、実行したところ、ドキュメントに重要な手順が記載されておらず、ソフトウェアが破損するという経験を何度も繰り返し、不満を感じてきました。作文と作曲に対する生涯にわたる情熱をこれらのニーズに適用できることがすぐにわかりました。その過程で、既知の答えで問題を解決するよりも、技術革新と創造性に集中できる開発者をサポートする環境を作ることができました。

このような技術革新と創造性は社会の多くの分野で緊急に必要とされています。特に、問題空間のデータセットの分析を模索している政府や非営利団体のリーダーにとってはなおさらです。DataCommons では、このデータをサービスとしてすぐに利用できるようにすることで、アクセスが簡単で、役割に必要な形式に近いデータを探しているアナリストの参入障壁を下げています。DataCommons は、取り込まれたデータのナレッジグラフを作成することでこれを実現します。このプロセスでは、オープンソースのコンテキストにおけるデータ品質とガバナンスに関する興味深い質問が提示されます。私は、DataCommons 組織向けの提案とともに Google Summer of Docs に応募することで、公共の利益となるオープン データ空間におけるこれらの技術的取り組みを支援し、推進したいと考えています。

ドキュメントの現在の課題と提案される解決策 dataCommons ウェブサイトには、dataCommons にデータセットを追加する手順が記載されていますが、その手順は非常に短く、不明確です。データ提供者に対して schema.org マークアップを使用するよう指示する箇条書きがいくつかあります。このプロジェクトの一環として、dataCommons.org の [参加する] セクションを整理することを提案します。新しいデータセットを追加するチュートリアルを作成し、データセットをスクレイピングして dataCommons ナレッジグラフに組み込む方法を説明します。また、データセット所有者が dataCommons のメンテナンス担当者にサポートを求めた場合に提案される一般的な解決策に関するよくある質問のセクションも追加します。

現在のデータクエリ例を見ると、dataCommons では 4 つのインタラクティブなコードサンプルしか提供されておらず、すべて Python ノートブックとなっています。このプロジェクトの一環として、これらのノートブックを R に変換し、Google スプレッドシートと REST API の現在のサンプルのインタラクティブなデモ バージョンを作成し、これらのデモを現在のドキュメントに埋め込みます。

最後に、ドキュメントには、dataCommons ナレッジグラフを使用してソフトウェアでアプリケーションを構築する方法の例がほとんどありません。このプロジェクトの一環として、dataCommons API を使用して、エンドユーザーがナレッジグラフ内で接続されている任意の 2 つの量に関連するグラフィック ビジュアリゼーションを作成できるようにする Python のサンプルツールを作成、デプロイ、ドキュメント化します。たとえば、気象データを一般的なビジネス パターンの情報に関連付ける線形回帰のツールです。ストレッチ ゴールとして、このツールを円グラフやベン図などの他の種類のビジュアリゼーションに拡張したいと考えています。

スケジュール シーズンは 9 月 14 日から 11 月 30 日までなので、このプロジェクトの完了計画は次のとおりです。

9 月: まず「参加する」セクションの書き換えを開始し、9 月末までに作業の大部分を完了します。

10 月: 「参加する」セクションをまとめ、インタラクティブなコードサンプルを作成します。

11 月: サンプルの可視化ツールを作成する。