Проект Data Commons

На этой странице содержится подробная информация о проекте технического написания, принятом для участия в Google Season of Docs.

Краткое описание проекта

Организация с открытым исходным кодом:
Общие данные
Технический писатель:
КилимАннехаро
Название проекта:
Улучшение документации по началу работы с DataCommons
Длина проекта:
Стандартная продолжительность (3 месяца)

Описание Проекта

За свою карьеру инженера-программиста я неоднократно разочаровывался в опыте присоединения к новой команде или проекту, извлечения репозитория кода, его запуска и наблюдения за сбоями программного обеспечения, когда в документации отсутствовали ключевые шаги. Я быстро понял, что могу применить свою давнюю страсть к письму и композиции к этим потребностям, создавая в процессе создания благоприятной среды для разработчиков, с которыми я работал, чтобы сосредоточиться на технических инновациях и творчестве, а не на решении проблем с известными ответами.

Эти технические инновации и творческий подход крайне необходимы во многих сегментах общества, особенно лидерам государственного и некоммерческого сектора, стремящимся анализировать наборы данных в своих проблемных областях. Делая эти данные легкодоступными в виде услуги, DataCommons снижает входной барьер для аналитиков, которым нужны данные, к которым легко получить доступ и которые близки к формату, необходимому им для выполнения своих функций. DataCommons делает это, создавая график знаний принимаемых данных, поднимая при этом интересные вопросы о качестве данных и управлении в контексте открытого исходного кода. Подавая заявку в Google Summer of Docs с предложением об организации DataCommons, я надеюсь поддержать и продвинуть эти технические усилия в пространстве открытых данных, представляющем общественный интерес.

Текущие проблемы в документации с предлагаемыми решениями Хотя веб-сайт dataCommons содержит инструкции по добавлению наборов данных в dataCommons, эти инструкции очень краткие и неясные и состоят из нескольких пунктов, предписывающих потенциальному донору данных использовать разметку Schema.org. В рамках этого проекта я предлагаю очистить раздел «Принимайте участие» на сайте dataCommons.org. Я создам руководство по добавлению новых наборов данных, объясняющее, как наборы данных очищаются и включаются в граф знаний dataCommons. Я также добавлю раздел часто задаваемых вопросов для распространенных решений, предлагаемых, когда владелец набора данных обращается за помощью к сопровождающим dataCommons.

Если посмотреть на текущий набор примеров запроса данных, dataCommons предлагает только четыре примера интерактивного кода, все из блокнотов Python. В рамках этого проекта я переведу эти блокноты на R, а также создам интерактивные демо-версии настоящих примеров для Google Sheets и REST API, встроив эти демо-версии в текущую документацию.

Наконец, документация на самом деле не предлагает никаких примеров того, как граф знаний dataCommons можно использовать для создания приложений в программном обеспечении. В рамках этого проекта я создам, внедрим и задокументируем пример инструмента на Python, который использует API dataCommons, чтобы позволить конечному пользователю создавать графические визуализации, связывающие любые две величины, связанные в графе знаний. Например, можно использовать этот инструмент для построения линейной регрессии, связывающей данные о погоде с информацией об общих бизнес-моделях. В качестве амбициозной цели я надеюсь распространить этот инструмент на другие типы визуализации, такие как круговые диаграммы и диаграммы Венна.

Расписание Сезон длится с 14 сентября по 30 ноября, поэтому мой план завершения этого проекта выглядит следующим образом:

Сентябрь: начните с переписывания раздела «Принимайте участие»; в основном заканчивают эту работу к концу сентября.

Октябрь: Завершите раздел «Принимайте участие» и создайте интерактивные примеры кода.

Ноябрь: Создайте образец инструмента визуализации.