Dự án Data Commons

Trang này chứa thông tin chi tiết về một dự án viết kỹ thuật được chấp nhận cho Phần Google Tài liệu.

Tóm tắt dự án

Tổ chức nguồn mở:
Quyền lưu trữ dữ liệu (Data Commons)
Người viết nội dung kỹ thuật:
KilimAnnejaro
Tên dự án:
Tài liệu về cách bắt đầu sử dụng DataCommons
Thời lượng dự án:
Thời gian tiêu chuẩn (3 tháng)

Mô tả dự án

Trong sự nghiệp là một kỹ sư phần mềm, tôi đã nhiều lần cảm thấy khó chịu với trải nghiệm tham gia một nhóm hoặc dự án mới, kéo kho lưu trữ mã, chạy kho lưu trữ và phải xem phần mềm bị hỏng khi tài liệu thiếu các bước quan trọng. Tôi nhanh chóng nhận ra rằng mình có thể áp dụng niềm đam mê cả đời với việc viết lách và sáng tác để đáp ứng những nhu cầu này, trong quá trình tạo ra một môi trường hỗ trợ cho các nhà phát triển mà tôi hợp tác, tập trung vào sáng tạo và cải tiến kỹ thuật, thay vì giải quyết vấn đề bằng những câu trả lời đã biết.

Sự đổi mới kỹ thuật và sự sáng tạo này là cấp bách trong nhiều thành phần trong xã hội, đặc biệt là đối với những nhà lãnh đạo trong chính phủ và khu vực phi lợi nhuận muốn phân tích tập dữ liệu trong lĩnh vực giải quyết vấn đề của họ. Bằng việc cung cấp dữ liệu này dưới dạng dịch vụ, DataCommons đã giảm bớt rào cản khi nhà phân tích tìm kiếm dữ liệu dễ truy cập và phù hợp với định dạng mà họ cần đối với vai trò của họ. DataCommons thực hiện điều này bằng cách tạo một Sơ đồ tri thức của dữ liệu mà nó nhập vào, trong quá trình này đưa ra những câu hỏi thú vị về chất lượng dữ liệu và quản trị trong bối cảnh nguồn mở. Khi đăng ký tham gia Google Mùa hè Tài liệu và gửi đề xuất cho tổ chức DataCommons, tôi hy vọng có thể hỗ trợ và thúc đẩy những nỗ lực kỹ thuật này trong không gian dữ liệu mở vì lợi ích của cộng đồng.

Những vấn đề hiện tại trong Tài liệu về các giải pháp được đề xuất Mặc dù trang web dataCommons có hướng dẫn cách thêm tập dữ liệu vào dataCommons nhưng hướng dẫn này rất ngắn và không rõ ràng, bao gồm một số dấu gạch đầu dòng chỉ dẫn người đóng góp dữ liệu sử dụng mã đánh dấu schema.org. Trong dự án này, tôi dự định xoá phần "Get Involved" (Nhận liên quan) trên dataCommons.org. Tôi sẽ tạo hướng dẫn cách thêm các tập dữ liệu mới, giải thích cách các tập dữ liệu được trích xuất và kết hợp vào sơ đồ tri thức dataCommons. Tôi cũng sẽ thêm phần Câu hỏi thường gặp cho các giải pháp phổ biến được đề xuất khi chủ sở hữu tập dữ liệu liên hệ với các nhà bảo trì dataCommons để được hỗ trợ.

Xem xét bộ ví dụ hiện tại về truy vấn dữ liệu, dataCommons chỉ cung cấp 4 ví dụ về mã tương tác, tất cả đều là sổ tay Python. Trong dự án này, tôi sẽ dịch các sổ tay này sang ngôn ngữ R, đồng thời tạo phiên bản minh hoạ mang tính tương tác của các ví dụ hiện tại về Google Trang tính và API REST, nhúng những bản minh hoạ này vào tài liệu hiện tại.

Cuối cùng, tài liệu này không thực sự cung cấp ví dụ nào về cách sử dụng sơ đồ tri thức dataCommons để xây dựng ứng dụng trong phần mềm. Trong dự án này, tôi sẽ tạo, triển khai và ghi chép một công cụ mẫu bằng Python sử dụng API dataCommons để cho phép người dùng cuối xây dựng các biểu đồ trực quan liên quan đến hai đại lượng bất kỳ được kết nối trong sơ đồ tri thức. Ví dụ: người dùng có thể sử dụng công cụ này để vẽ một đường hồi quy tuyến tính liên quan đến dữ liệu thời tiết với thông tin về các mô hình kinh doanh phổ biến. Với mục tiêu mở rộng, tôi hy vọng sẽ mở rộng công cụ này cho các loại hình ảnh trực quan khác, như biểu đồ hình tròn và biểu đồ Venn.

Lịch trình mùa giải diễn ra từ ngày 14 tháng 9 đến ngày 30 tháng 11, vì vậy, kế hoạch để hoàn thành dự án này của tôi như sau:

Tháng 9: Bắt đầu viết lại phần Tham gia; thường hoàn thành công việc này vào cuối tháng 9.

Tháng 10: Kết thúc phần Tham gia và tạo các mã mẫu tương tác.

Tháng 11: Tạo công cụ tạo hình ảnh mẫu.