Dự án Data Commons

Trang này chứa thông tin chi tiết về một dự án viết nội dung kỹ thuật đã được chấp nhận tham gia Google Season of Docs.

Tóm tắt dự án

Tổ chức nguồn mở:
Data Commons
Người viết nội dung kỹ thuật:
KilimAnnejaro
Tên dự án:
Cải thiện tài liệu về cách bắt đầu sử dụng DataCommons
Độ dài dự án:
Thời hạn tiêu chuẩn (3 tháng)

Mô tả dự án

Trong sự nghiệp kỹ sư phần mềm, tôi liên tục gặp phải sự thất vọng khi tham gia một nhóm hoặc dự án mới, tải xuống kho lưu trữ mã, chạy kho lưu trữ đó và xem phần mềm bị lỗi khi tài liệu thiếu các bước chính. Tôi nhanh chóng nhận ra rằng mình có thể áp dụng niềm đam mê viết lách và sáng tác suốt đời cho những nhu cầu này, trong quá trình tạo ra một môi trường hỗ trợ để các nhà phát triển mà tôi làm việc cùng có thể tập trung vào sự đổi mới và sáng tạo về kỹ thuật, thay vì giải quyết các vấn đề có câu trả lời đã biết.

Sự đổi mới và sáng tạo về kỹ thuật này rất cần thiết trong nhiều phân khúc xã hội, đặc biệt là các nhà lãnh đạo trong chính phủ và khu vực phi lợi nhuận muốn phân tích tập dữ liệu trong không gian vấn đề của họ. Bằng cách cung cấp sẵn dữ liệu này dưới dạng dịch vụ, DataCommons giúp các nhà phân tích dễ dàng tiếp cận dữ liệu và có được dữ liệu ở định dạng phù hợp với vai trò của họ. DataCommons thực hiện việc này bằng cách tạo một Biểu đồ tri thức về dữ liệu mà nó nhập, trong quá trình này, đặt ra những câu hỏi thú vị về chất lượng và quản trị dữ liệu trong bối cảnh nguồn mở. Bằng cách đăng ký tham gia Google Summer of Docs với đề xuất dành cho tổ chức DataCommons, tôi hy vọng có thể hỗ trợ và thúc đẩy những nỗ lực kỹ thuật này trong không gian dữ liệu mở vì lợi ích công cộng.

Các vấn đề hiện tại trong tài liệu và giải pháp đề xuất Mặc dù trang web dataCommons có hướng dẫn về cách thêm tập dữ liệu vào dataCommons, nhưng hướng dẫn này rất ngắn và không rõ ràng, bao gồm một số điểm chính hướng dẫn người hiến dữ liệu sử dụng mã đánh dấu schema.org. Trong dự án này, tôi đề xuất dọn dẹp phần "Tham gia" của dataCommons.org. Tôi sẽ tạo một hướng dẫn về cách thêm tập dữ liệu mới, giải thích cách tập dữ liệu được thu thập thông tin và đưa vào biểu đồ tri thức dataCommons. Tôi cũng sẽ thêm một phần Câu hỏi thường gặp về các giải pháp phổ biến được đề xuất khi chủ sở hữu tập dữ liệu liên hệ với nhóm bảo trì dataCommons để được hỗ trợ.

Nhìn vào bộ ví dụ hiện tại để truy vấn dữ liệu, dataCommons chỉ cung cấp 4 mã ví dụ có tính tương tác, tất cả đều là sổ tay Python. Trong dự án này, tôi sẽ dịch các sổ tay này sang R và cũng tạo các phiên bản minh hoạ tương tác của các ví dụ hiện có cho Google Trang tính và API REST, nhúng các bản minh hoạ này vào tài liệu hiện tại.

Cuối cùng, tài liệu không thực sự cung cấp bất kỳ ví dụ nào về cách sử dụng sơ đồ tri thức dataCommons để xây dựng các ứng dụng trong phần mềm. Trong dự án này, tôi sẽ tạo, triển khai và ghi lại một công cụ mẫu trong Python. Công cụ này sử dụng API dataCommons để cho phép người dùng cuối xây dựng hình ảnh trực quan dạng đồ hoạ liên quan đến hai đại lượng bất kỳ được kết nối trong sơ đồ tri thức. Ví dụ: bạn có thể sử dụng công cụ này để vẽ một đường hồi quy tuyến tính liên quan đến dữ liệu thời tiết với thông tin về các mẫu kinh doanh phổ biến. Mục tiêu xa hơn là tôi hy vọng có thể mở rộng công cụ này sang các loại hình ảnh trực quan khác, chẳng hạn như biểu đồ hình tròn và sơ đồ Venn.

Lịch trình Mùa giải diễn ra từ ngày 14 tháng 9 đến ngày 30 tháng 11, vì vậy, kế hoạch hoàn thành dự án của tôi sẽ như sau:

Tháng 9: Bắt đầu viết lại phần Tham gia; hầu hết hãy hoàn thành công việc này vào cuối tháng 9.

Tháng 10: Kết thúc phần Tham gia và tạo các mẫu mã tương tác.

Tháng 11: Tạo công cụ trực quan hoá mẫu.