데이터 커먼즈 프로젝트

이 페이지에는 Google Season of Docs에서 승인된 테크니컬 라이팅 프로젝트의 세부정보가 포함되어 있습니다.

프로젝트 요약

오픈소스 조직:
데이터 커먼즈
테크니컬 라이터:
KilimAnnejaro
프로젝트 이름:
DataCommons 개선 시작하기 문서
프로젝트 기간:
표준 기간 (3개월)

Project description

소프트웨어 엔지니어로 일하면서 새로운 팀이나 프로젝트에 합류하고, 코드 저장소를 내리고, 실행하고, 문서에서 주요 단계가 누락되었을 때 소프트웨어 중단을 지켜보면서 반복적으로 좌절감을 느꼈습니다. 저는 작문과 작곡에 대한 나의 평생 열정을 이런 필요에 적용할 수 있다는 사실을 빨리 깨달았습니다. 그 과정에서 제가 함께 일하는 개발자들을 지원하는 환경을 조성하여 알려진 해답의 문제를 해결하기보다는 기술 혁신과 창의성에 집중하게 되었죠.

이러한 기술 혁신과 창의성은 여러 사회 부문에서 시급하게 필요합니다. 특히 문제 영역에서 데이터 세트를 분석하려는 정부와 비영리 부문 리더는 더욱 그렇습니다. DataCommons는 이 데이터를 서비스로 쉽게 사용할 수 있도록 함으로써 액세스하기 쉽고 역할에 필요한 형식에 가까운 데이터를 찾는 분석가의 진입 장벽을 낮춥니다. DataCommons는 수집하는 데이터의 지식 그래프를 만드는 과정에서 오픈소스의 맥락에서 데이터 품질과 거버넌스에 관한 흥미로운 질문을 제기합니다. DataCommons 조직을 위한 제안서를 통해 Google Summer of Docs에 지원함으로써 공익을 위한 개방형 데이터 공간에 대한 이러한 기술적 노력을 지원하고 발전시켜 나가고자 합니다.

제안된 솔루션 관련 문서의 현재 고충 dataCommons 웹사이트에는 dataCommons에 데이터 세트를 추가하는 방법에 대한 지침이 포함되어 있지만 지침은 매우 짧고 불명확하여 예비 데이터 기부자가 schema.org 마크업을 사용하도록 지시하는 여러 글머리 기호로 구성되어 있습니다. 이 프로젝트의 일환으로 dataCommons.org의 '참여하기' 섹션을 정리할 것을 제안합니다. 새 데이터 세트를 추가하는 튜토리얼을 만들어 데이터 세트를 스크래핑하여 dataCommons 지식 그래프에 통합하는 방법을 설명하겠습니다. 또한 데이터 세트 소유자가 dataCommons 유지관리 담당자에게 지원을 요청할 때 제안되는 일반적인 솔루션에 대한 FAQ 섹션도 추가하겠습니다.

현재 데이터 쿼리에 대한 예시 집합을 보면 dataCommons는 4개의 대화형 코드 예시만 제공하며 모두 Python 노트북입니다. 이 프로젝트의 일환으로 이 노트북을 R로 번역하고 Google Sheets 및 REST API에 대한 현재 예시의 대화형 데모 버전을 만들어 이 데모를 현재 문서에 삽입합니다.

마지막으로, 이 문서는 dataCommons 지식 그래프를 소프트웨어에서 애플리케이션을 빌드하는 데 어떻게 사용할 수 있는지에 대한 어떠한 예시도 제공하지 않습니다. 이 프로젝트의 일환으로, 최종 사용자가 dataCommons API를 활용하여 지식 그래프 내에서 연결된 두 수량과 관련된 그래픽 시각화를 구성할 수 있도록 Python으로 샘플 도구를 만들고 배포하고 문서화합니다. 예를 들어, 이 도구를 사용하여 날씨 데이터와 일반적인 비즈니스 패턴 정보의 선형 회귀를 그릴 수 있습니다. 앞으로는 원형 차트나 벤다이어그램 등 다른 유형의 시각화에도 이 도구를 사용할 수 있기를 바랍니다.

일정 시즌이 9월 14일부터 11월 30일까지 진행되므로 이 프로젝트를 완료하기 위한 나의 계획은 다음과 같습니다.

9월: '참여하기' 섹션을 다시 작성하세요. 대부분 9월 말까지 작업을 마칩니다.

10월: 참여하기 섹션을 마무리하고 대화형 코드 샘플을 만듭니다.

11월: 샘플 시각화 도구 만들기