Projeto Data Commons

Esta página contém os detalhes de um projeto de redação técnica aceito para a Google Season of Docs.

Resumo do projeto

Organização de código aberto:
Data Commons
(em inglês)
Redator técnico:
KilimAnnejaro
Nome do projeto:
Como melhorar a documentação de primeiros passos do DataCommons
Duração do projeto:
Duração padrão (3 meses)

Project description

Na minha carreira como engenheiro de software, me senti frustrado várias vezes por entrar em uma nova equipe ou projeto, baixar um repositório de código, executá-lo e ver o software falhar quando as etapas principais estavam faltando na documentação. Rapidamente percebi que poderia aplicar minha paixão pela escrita e composição a essas necessidades, criando um ambiente de apoio para que os desenvolvedores com quem trabalhei se concentrassem na inovação técnica e na criatividade, em vez de resolver problemas com respostas conhecidas.

Essa inovação técnica e criatividade é urgente em muitos segmentos da sociedade, especialmente por líderes no governo e no setor sem fins lucrativos que buscam analisar conjuntos de dados em espaços problemáticos. Ao disponibilizar esses dados como um serviço, o DataCommons reduz a barreira de entrada para analistas que buscam dados fáceis de acessar e próximos ao formato necessário para suas funções. A DataCommons faz isso criando um Knowledge Graph dos dados que ela processa, levantando perguntas interessantes sobre a qualidade e a governança dos dados no contexto de código aberto. Ao me inscrever no Google Summer of Docs com uma proposta para a organização DataCommons, espero apoiar e promover esses esforços técnicos no espaço de dados abertos de interesse público.

Problemas atuais na documentação com soluções propostas Embora o site da dataCommons contenha instruções para adicionar conjuntos de dados, elas são muito curtas e pouco claras, consistindo em vários pontos que orientam o possível doador de dados a usar a marcação schema.org. Como parte deste projeto, proponho limpar a seção "Get Involved" (Participe) do dataCommons.org. Vou criar um tutorial para adicionar novos conjuntos de dados, explicando como eles são raspados e incorporados ao gráfico de conhecimento do dataCommons. Também vou adicionar uma seção de perguntas frequentes com soluções comuns sugeridas quando um proprietário de conjunto de dados entrar em contato com os mantenedores do dataCommons para receber ajuda.

Analisando o conjunto atual de exemplos de consulta de dados, o dataCommons oferece apenas quatro exemplos de código interativo, todos eles notebooks do Python. Como parte deste projeto, vou traduzir esses notebooks para R e criar versões de demonstração interativas dos exemplos atuais para o Planilhas Google e a API REST, incorporando essas demonstrações na documentação atual.

Por fim, a documentação não oferece exemplos de como o mapa de informações do dataCommons pode ser usado para criar aplicativos em software. Como parte deste projeto, vou criar, implantar e documentar uma ferramenta de exemplo em Python que utiliza a API dataCommons para permitir que o usuário final construa visualizações gráficas relacionadas a qualquer duas quantidades conectadas no gráfico de conhecimento. Por exemplo, é possível usar essa ferramenta para criar uma regressão linear que relacione dados meteorológicos a informações comuns de padrões de negócios. Como meta adicional, espero estender essa ferramenta para outros tipos de visualização, como gráficos de pizza e diagramas de Venn.

Programação A temporada vai de 14 de setembro a 30 de novembro, então meu plano para concluir este projeto se parece com o seguinte:

Setembro: comece a reescrever a seção "Participe" e termine esse trabalho até o fim de setembro.

Outubro: concluir a seção "Participe" e criar os exemplos de código interativo.

Novembro: crie a ferramenta de visualização de exemplo.