データコモンズ プロジェクト

このページには、Google シーズンのドキュメントで受け入れられているテクニカル ライティング プロジェクトの詳細が記載されています。

プロジェクトの概要

オープンソースの組織:
データコモンズ
テクニカル ライター:
KilimAnnejaro
プロジェクト名:
DataCommons のスタートガイドの改善
プロジェクトの期間:
標準の期間(3 か月)

プロジェクトの説明

ソフトウェア エンジニアとしてのキャリアを積むなか、新しいチームやプロジェクトに参加し、コード リポジトリを pull して実行し、ドキュメントに重要な手順が欠けているときにソフトウェアが壊れるのを観察するという経験に繰り返しフラストレーションを感じています。執筆や作曲に対する生涯の情熱をこうしたニーズに応用できることに気付きました。その過程で、既知の答えを持つ問題を解決するのではなく、協力して仕事をした開発者が技術革新と創造性に集中できる支援環境を作ることができました。

このような技術革新と創造性は、社会の多くの部分で緊急に必要とされています。特に、問題領域のデータセットを分析しようとする政府や非営利団体のリーダーにとってはなおさらです。このデータをサービスとして容易に利用できるようにすることで、DataCommons は、アクセスしやすく、各自の役割に必要な形式に近いデータを求めるアナリストにとって、参入障壁が低くなっています。DataCommons は、取り込むデータのナレッジグラフを作成することでこれを実現し、その過程でオープンソースのコンテキストにおけるデータ品質とガバナンスについて興味深い疑問を投げかけています。私は、Google Summer of Docs に、DataCommons 組織への提案を通じ、公共の利益のためのオープンデータ分野でのこうした技術的取り組みを支援し、前進させたいと考えています。

ソリューションの提案が記載されているドキュメントの現在の課題 dataCommons のウェブサイトには dataCommons にデータセットを追加する手順が掲載されていますが、指示は非常に短く不明確で、データ提供者に schema.org マークアップを使用するよう指示する箇条書きがいくつか構成されています。このプロジェクトの一環として、dataCommons.org の「参加する」セクションを整理することをおすすめします。新しいデータセットを追加するためのチュートリアルを作成し、データセットをスクレイピングして dataCommons ナレッジグラフに組み入れる方法を説明します。また、データセットのオーナーが dataCommons の管理者に連絡した場合に提案される一般的な解決策について、よくある質問のセクションも追加します。

データをクエリするための現在の例を見ると、dataCommons は 4 つのインタラクティブなコードサンプルのみを提供しています。そのすべてが Python ノートブックです。このプロジェクトの一環として、これらのノートブックを R に変換します。さらに、Google スプレッドシートと REST API 用に、今回の例のインタラクティブなデモ版も作成し、これらのデモを現在のドキュメントに埋め込みます。

最後に、ドキュメントには、dataCommons ナレッジグラフを使用してソフトウェアでアプリケーションを構築する方法の例は実際には記載されていません。このプロジェクトの一環として、dataCommons API を使用するサンプルツールを Python で作成、デプロイ、文書化します。エンドユーザーはナレッジグラフ内で接続された 2 つの数値に関連するグラフィカル ビジュアリゼーションを構築できます。たとえば、このツールを使用して、気象データを一般的なビジネス パターンの情報に関連付ける線形回帰を描くことができるかもしれません。これを目標として、円グラフやベン図など、他の種類の可視化ツールにもこのツールを拡張していきたいと考えています。

スケジュール シーズンの実施期間は 9 月 14 日~ 11 月 30 日ですので、このプロジェクトを完成させる計画は以下のようになります。

9 月: 関わりのあるセクションを書き直すところから始めます。ほとんどの場合、この作業は 9 月末までに完了します。

10 月: 「参加」セクションを締めくくり、インタラクティブなコードサンプルを作成します。

11 月: サンプル可視化ツールを作成する。