Projeto Data Commons

Esta página contém os detalhes de um projeto de escrita técnica aceito para a temporada de documentos do Google.

Resumo do projeto

Organização de código aberto:
Dados comuns
Redator técnico:
KilimAnnejaro
Nome do projeto:
Melhorias na documentação de primeiros passos do DataCommons
Duração do projeto:
Duração padrão (3 meses)

Project description

Em minha carreira como engenheiro de software, me senti frustrada repetidamente com a experiência de ingressar em uma nova equipe ou projeto, extrair um repositório de código, executá-lo e observar a falha do software quando etapas importantes estavam faltando na documentação. Logo percebi que poderia aplicar minha paixão por escrever e compor a essas necessidades ao criar um ambiente acolhedor para os desenvolvedores com quem trabalhei. Eles se dedicavam à criatividade e inovação técnica, em vez de resolver problemas com respostas conhecidas.

Essa inovação técnica e criatividade são necessárias com urgência em muitos segmentos da sociedade, especialmente por líderes no governo e no setor sem fins lucrativos que buscam analisar conjuntos de dados em seus espaços problemáticos. Ao disponibilizar esses dados prontamente como serviço, a DataCommons reduz a barreira de entrada para analistas que buscam dados fáceis de acessar e próximos ao formato de que precisam para suas funções. O DataCommons faz isso criando um Mapa de informações dos dados ingeridos, no processo que levanta questões interessantes sobre a qualidade e governança dos dados no contexto do código aberto. Ao me candidatar ao Google Summer of Docs com uma proposta para a organização DataCommons, espero apoiar e avançar esses esforços técnicos no espaço de dados abertos de interesse público.

Dificuldades atuais na documentação com as soluções propostas Embora o site dataCommons contenha instruções para adicionar conjuntos de dados ao dataCommons, as instruções são muito curtas e pouco claras, consistindo em vários pontos que orientam o doador de dados a usar a marcação schema.org. Como parte deste projeto, proponho a limpeza da seção "Get Involved" do dataCommons.org. Criarei um tutorial para adicionar novos conjuntos de dados, explicando como os conjuntos de dados são raspados e incorporados ao Mapa de informações do dataCommons. Também adicionarei uma seção de perguntas frequentes para soluções comuns sugeridas quando um proprietário de conjunto de dados entrar em contato com os mantenedores do dataCommons para receber ajuda.

Analisando o conjunto atual de exemplos de consulta de dados, o dataCommons oferece apenas quatro exemplos de código interativos, todos eles notebooks em Python. Como parte deste projeto, vou traduzir esses cadernos para R e também criar versões de demonstração interativas dos exemplos presentes para o Planilhas Google e a API REST, incorporando essas demonstrações à documentação atual.

Por fim, a documentação não oferece nenhum exemplo de como o Mapa de informações dataCommons pode ser usado para criar aplicativos em software. Como parte deste projeto, vou criar, implantar e documentar uma ferramenta de amostra em Python que utiliza a API dataCommons para permitir que o usuário final construa visualizações gráficas relacionadas a duas quantidades conectadas no Mapa de informações. Por exemplo, é possível usar essa ferramenta para desenhar uma regressão linear relacionada a informações de padrões de negócios comuns. Como uma meta ambiciosa, espero ampliar essa ferramenta para outros tipos de visualizações, como gráficos de pizza e diagramas de Venn.

Programação A temporada é de 14 de setembro a 30 de novembro, então meu plano para concluir este projeto é assim:

Setembro: comece a reescrever a seção "Seja Involvido", termine esse trabalho principalmente até o final de setembro.

Outubro: finalize a seção "Envolva-se" e crie os exemplos de código interativos.

Novembro: criação da ferramenta de visualização de amostra