Projekt Data Commons

Ta strona zawiera szczegóły projektu technicznego do pisania w sezonie Dokumentów Google.

Podsumowanie projektu

Organizacja open source:
Data Commons
Pisarz techniczny:
KilimAnnejaro
Nazwa projektu:
Udoskonalenie dokumentacji Wprowadzenie do DataCommons
Długość projektu:
Standardowa długość (3 miesiące)

Opis projektu

W pracy jako inżynier oprogramowania często frustrowało mnie to, że dołączam do nowego zespołu lub projektu, pobieram repozytorium kodu, uruchamiam je i obserwuję, jak działa oprogramowanie, gdy w dokumentacji brakuje kluczowych kroków. Szybko zdałem sobie sprawę, że mogę zaspokoić te potrzeby swoją pasją do pisania i kompozycji, tworząc wspierające środowisko dla programistów, z którymi współpracowałem, zamiast skupiać się na innowacjach technicznych i kreatywności, a nie na rozwiązywaniu problemów za pomocą znanych odpowiedzi.

Te innowacje techniczne i kreatywność są pilnie potrzebne w wielu obszarach społeczeństwa, zwłaszcza przez osoby odpowiedzialne za rząd i sektor non-profit, które chcą analizować zbiory danych w swoich problematycznych obszarach. Dzięki temu, że dane są łatwo dostępne jako usługa, DataCommons obniża barierę wejścia dla analityków poszukujących danych, do których łatwo jest uzyskać dostęp i które są w przybliżeniu w takim formacie, jakiego potrzebują w ramach swoich zadań. Robi to, tworząc graf wiedzy na podstawie przetwarzanych danych, co powoduje, że w ramach procesu pojawiają się ciekawe pytania dotyczące jakości i zarządzania danymi w kontekście otwartego oprogramowania. Zgłoszenie do Google Summer of Docs z propozycją dotyczącą organizacji DataCommons ma na celu wsparcie i rozwinięcie tych działań technicznych w zakresie otwartych danych służących interesowi publicznemu.

Aktualne problemy w dokumentacji z proponowanymi rozwiązaniami Witryna dataCommons zawiera wskazówki dotyczące dodawania zbiorów danych do dataCommons, ale wskazówki te są bardzo krótkie i niejasne i składają się z kilku punktów, które skłaniają potencjalnych darczyńców do użycia znaczników schema.org. W ramach tego projektu proponuję oczyszczenie sekcji „Weź udział” na stronie dataCommons.org. Utworzę samouczek dotyczący dodawania nowych zbiorów danych, w którym wyjaśnię, jak się je pobiera i włącza do grafu wiedzy dataCommons. Dodam też sekcję z najczęstszymi odpowiedziami na pytania, w której znajdą się sugerowane rozwiązania, gdy właściciel zbioru danych zwróci się do administratorów dataCommons o pomoc.

Obecny zestaw przykładów zapytań do danych w dataCommons zawiera tylko 4 przykłady interaktywnego kodu, z których wszystkie to notatniki Pythona. W ramach tego projektu przetłumaczę te notebooki na R, a także utwórz interaktywne wersje demonstracyjne obecnych przykładów dotyczących Arkuszy Google i interfejsu REST API, umieszczając te wersje w bieżącej dokumentacji.

W dokumentacji nie ma też żadnych przykładów wykorzystania grafu wiedzy dataCommons do tworzenia aplikacji w oprogramowaniu. W ramach tego projektu utworzymy, wdrożymy i udokumentujemy przykładowe narzędzie w Pythonie, które korzysta z interfejsu dataCommons API, aby umożliwić użytkownikowi tworzenie wizualizacji graficznych dotyczących dowolnych 2 wartości połączonych w grafie wiedzy. Można na przykład użyć tego narzędzia do narysowania regresji liniowej, która powiązałaby dane o pogodzie z informacjami o popularnych wzorach biznesowych. W ramach celu rozszerzonego chcielibyśmy umożliwić stosowanie tego narzędzia do innych typów wizualizacji, takich jak wykresy kołowe czy diagramy Venna.

Harmonogram Sezon trwa od 14 września do 30 listopada, więc mój plan realizacji tego projektu wygląda tak:

Wrzesień: zacznij od przepisania sekcji „Weź udział”. Do końca września powinna być ona w większości gotowa.

Październik: zakończ sekcję Zaangażuj się i utwórz interaktywne przykłady kodu.

Listopad: utwórz przykładowe narzędzie do wizualizacji.