Projekt Data Commons

Ta strona zawiera szczegółowe informacje na temat projektu technicznego przyjęta do programu Sezon Dokumentów Google.

Podsumowanie projektu

Organizacja open source:
Data Commons
Pisarz techniczny:
KilimAnnejaro
Nazwa projektu:
Ulepszanie dokumentacji wprowadzającej DataCommons
Długość projektu:
Standardowa długość (3 miesiące)

Opis projektu

W swojej karierze jako inżynier oprogramowania często frustrowało mnie dołączanie do nowego zespołu lub nowego projektu, pobieranie repozytorium kodu, uruchamianie go i obserwacja przerw w działaniu oprogramowania, gdy w dokumentacji brakuje kluczowych kroków. Szybko zdałem sobie sprawę, że mogę wykorzystać swoją życiową pasję do pisania i kompozycji w celu stworzenia środowiska wsparcia dla programistów, z którymi współpracowałem, aby skupić się na innowacyjności technicznej i kreatywności, zamiast rozwiązywać problemy ze znanymi odpowiedziami.

Te innowacje techniczne i kreatywność są pilnie potrzebne w wielu segmentach społeczeństwa, zwłaszcza przez liderów instytucji państwowych i sektora non-profit, którzy chcą analizować zbiory danych w swoich problematycznych obszarach. Dzięki temu, że dane są łatwo dostępne jako usługa, DataCommons łagodzi barierę dostępu dla analityków poszukujących danych, które są łatwo dostępne i przybliżone do formatu potrzebnego im na potrzeby swoich ról. Aby to zrobić, DataCommons tworzy Graf wiedzy o pozyskiwanych danych, w którym pojawiają się interesujące pytania o jakość danych i zarządzanie nimi w kontekście modelu open source. Zgłaszając się do programu Google Summer of Docs z propozycją dla organizacji DataCommons, mam nadzieję wspierać i rozwijać te wysiłki techniczne z dziedziny otwartego dla interesu publicznego.

Aktualne problemy w dokumentacji z proponowanymi rozwiązaniami Witryna dataCommons zawiera wskazówki dotyczące dodawania zbiorów danych do dataCommons, ale instrukcje są bardzo krótkie i niejasne – składają się z kilku punktorów z informacjami o darczyńcy danych, którzy powinni skorzystać ze znaczników schema.org. W ramach tego projektu proponuję wyczyścić sekcję „Get Involved” (bierz zaangażowanie) na dataCommons.org. Utworzę samouczek dotyczący dodawania nowych zbiorów danych, wyjaśniający, w jaki sposób zbiory danych są wyodrębniane i uwzględniane w grafie wiedzy dataCommons. Dodam też sekcję z najczęstszymi pytaniami, która będzie zawierać typowe rozwiązania, gdy właściciel zbioru danych skontaktuje się z opiekunami danych dataCommons i poproś o pomoc.

Patrząc na bieżący zestaw przykładów zapytań na dane, w dataCommons są tylko 4 interaktywne przykłady kodu – wszystkie notatniki w języku Python. W ramach tego projektu przetłumaczę te notatniki na język R, a także utworzę interaktywne wersje demonstracyjne istniejących przykładów dotyczące Arkuszy Google i interfejsu API typu REST, które umieszczą te wersje w bieżącej dokumentacji.

W dokumentacji nie podano też żadnych przykładów wykorzystania grafu wiedzy dataCommons do tworzenia aplikacji w oprogramowaniu. W ramach tego projektu stworzę, wdrożę i udokumentuję w Pythonie przykładowe narzędzie, które korzysta z interfejsu API dataCommons, aby umożliwić użytkownikowi tworzenie graficznych wizualizacji związanych z dowolnymi 2 ilościami połączonymi w grafie wiedzy. Za pomocą tego narzędzia można na przykład wykreślić regresję liniową związaną z danymi o pogodzie w odniesieniu do typowych wzorców biznesowych. Zamierzam rozszerzyć to narzędzie o inne rodzaje wizualizacji, np. wykresy kołowe czy diagramy Venna.

Plan Sezon trwa od 14 września do 30 listopada, więc plan realizacji projektu wygląda tak:

Wrzesień: zacznij od przeredagowania sekcji „Weź udział”; w większości przypadków do końca września.

Październik: podsumuj sekcję Zaangażowanie i utwórz interaktywny przykładowy kod.

Listopad: utworzenie przykładowego narzędzia do wizualizacji.