Dataset (Tập dữ liệu)

Các tập dữ liệu sẽ dễ tìm thấy hơn khi bạn cung cấp thông tin hỗ trợ như tên, mô tả, người tạo và định dạng phân phối của tập dưới dạng dữ liệu có cấu trúc. Phương thức khám phá tập dữ liệu của Google là dựa vào schema.org và các tiêu chuẩn siêu dữ liệu khác có thể thêm vào các trang mô tả tập dữ liệu. Mục đích của đánh dấu này là để cải thiện khả năng phát hiện các tập dữ liệu thuộc các lĩnh vực như khoa học đời sống, khoa học xã hội, máy học, dữ liệu công dân và chính phủ, v.v.

Dưới đây là một số ví dụ về những nội dung đủ điều kiện làm tập dữ liệu:

  • Bảng hoặc tệp CSV có một số dữ liệu
  • Tập hợp có tổ chức gồm các bảng
  • Một tệp ở định dạng độc quyền có chứa dữ liệu
  • Một tập hợp các tệp là thành phần trong một tập dữ liệu có ý nghĩa riêng
  • Một đối tượng có cấu trúc chứa dữ liệu ở một số định dạng khác mà bạn có thể muốn tải vào một công cụ đặc biệt để xử lý
  • Ảnh chụp dữ liệu
  • Các tệp liên quan đến công nghệ máy học, chẳng hạn như các tham số được đào tạo hoặc định nghĩa cấu trúc mạng nơ-ron
  • Bất cứ điều gì mà bạn thấy giống tập dữ liệu

Phương thức khám phá tập dữ liệu của chúng tôi

Chúng tôi có thể hiểu được dữ liệu có cấu trúc trong các trang Web về tập dữ liệu bằng cách sử dụng đánh dấu Dataset trên schema.org hoặc cấu trúc tương đương trong ở định dạng Data Catalog Vocabulary (DCAT) của W3C. Chúng tôi cũng đang thử nghiệm việc hỗ trợ dữ liệu có cấu trúc dựa trên W3C CSVW và hy vọng sẽ phát triển và điều chỉnh thêm phương thức của chúng tôi khi có thêm các phương pháp hiệu quả khác về cách định nghĩa tập dữ liệu. Để biết thêm thông tin về phương thức khám phá tập dữ liệu của chúng tôi, hãy xem phần Hỗ trợ việc khám phá các tập dữ liệu công khai.

Ví dụ

Dưới đây là ví dụ về các tập dữ liệu sử dụng cú pháp JSON-LD (ưu tiên) trong Công cụ kiểm tra dữ liệu có cấu trúc. Từ vựng tương tự cũng có thể được sử dụng trong bảng từ vựng RDFa 1.1, Microdata hoặc W3C DCAT. Ví dụ sau được dựa trên mô tả tập dữ liệu trong thực tế.

JSON-LD

Dưới đây là ví dụ về tập dữ liệu trong JSON-LD bằng Công cụ kiểm tra dữ liệu có cấu trúc.

RDFa

Dưới đây là ví dụ về tập dữ liệu trong RDFa bằng Công cụ kiểm tra dữ liệu có cấu trúc.

Nguyên tắc

Các trang web nên tuân theo nguyên tắc về dữ liệu có cấu trúc. Bên cạnh nguyên tắc về dữ liệu có cấu trúc, bạn cũng nên làm theo các phương pháp hay nhất về sơ đồ trang webnguồn.

Phương pháp hay nhất về sơ đồ trang web

Hãy sử dụng tệp sơ đồ trang web để giúp Google tìm thấy các URL của bạn. Việc sử dụng tệp sơ đồ trang web và đánh dấu sameAs giúp ghi lại cách nội dung mô tả tập dữ liệu được xuất bản trên toàn bộ trang web của bạn.

Nếu có kho lưu trữ tập dữ liệu, bạn có thể có ít nhất hai loại trang: trang chính tắc ("đích") cho mỗi tập dữ liệu và trang liệt kê nhiều tập dữ liệu (ví dụ: kết quả tìm kiếm hoặc một số nhóm tập dữ liệu). Bạn nên thêm dữ liệu có cấu trúc về tập dữ liệu vào các trang chính tắc. Hãy sử dụng thuộc tính sameAs để liên kết đến trang chính tắc nếu bạn thêm dữ liệu có cấu trúc vào nhiều bản sao của tập dữ liệu, chẳng hạn như danh sách trong các trang kết quả tìm kiếm.

Phương pháp hay nhất về nguồn

Thông thường các tập dữ liệu mở sẽ được xuất bản lại, tổng hợp và dựa trên các bộ dữ liệu khác. Đây là phác thảo ban đầu về phương thức xử lý của chúng tôi trong những tình huống mà một tập dữ liệu là bản sao trùng lặp, hoặc được dựa trên, một tập dữ liệu khác.

  • Sử dụng thuộc tính sameAs để chỉ ra các URL chính tắc cho bản gốc trong trường hợp tập dữ liệu hoặc đoạn mô tả chỉ là một bản sao trùng lặp của nội dung đã xuất bản ở nơi khác.
  • Sử dụng thuộc tính isBasedOn trong trường hợp tập dữ liệu xuất bản lại (bao gồm cả siêu dữ liệu của nó) đã bị thay đổi đáng kể.
  • Khi một tập dữ liệu được lấy từ hoặc là bản tổng hợp của một số tập dữ liệu gốc, hãy sử dụng thuộc tính isBasedOn.
  • Sử dụng thuộc tính identifier để đính kèm bất kỳ Digital Object identifier (DOI - giá trị nhận dạng đối tượng kỹ thuật số) thích hợp nào

Chúng tôi hy vọng sẽ cải thiện các mục đề xuất của chúng tôi dựa trên phản hồi, đặc biệt là phản hồi về cách mô tả nguồn, phiên bản và ngày xuất bản trong một chuỗi theo thời gian. Hãy tham gia các cuộc thảo luận trong cộng đồng.

Các thuộc tính văn bản nên có

Chúng tôi khuyên bạn nên giới hạn tất cả các trường văn bản ở mức 5000 ký tự trở xuống. Google Tìm kiếm Tập dữ liệu chỉ sử dụng 5000 ký tự đầu tiên của bất kỳ trường văn bản nào. Tên và tiêu đề thường là một vài từ hoặc một câu ngắn.

Lỗi và cảnh báo đã biết

Bạn có thể gặp lỗi hoặc cảnh báo trong Công cụ kiểm tra dữ liệu có cấu trúc của Google và các hệ thống xác thực khác. Trong số đó, bạn có thể bỏ qua các cảnh báo về fileFormat (đã đổi thành encodingFormat gần đây) mà không cần phải lo lắng về tính an toàn. Các hệ thống xác thực cũng có thể đề xuất các tổ chức cung cấp thông tin liên hệ bao gồm contactType; các giá trị hữu ích bao gồm customer service, emergency, journalist, newsroompublic engagement. Bạn cũng có thể bỏ qua các lỗi về csvw:Table vì đây là một giá trị ngoài dự kiến cho thuộc tính mainEntity.

Định nghĩa kiểu dữ liệu có cấu trúc

Bạn phải bao gồm các thuộc tính bắt buộc để nội dung của mình đủ điều kiện hiển thị dưới dạng kết quả nhiều định dạng. Bạn cũng có thể bao gồm các thuộc tính mà chúng tôi khuyên dùng để thêm thông tin về nội dung nhằm mang lại trải nghiệm người dùng tốt hơn.

Bạn có thể sử dụng Công cụ kiểm tra dữ liệu có cấu trúc để xác thực đánh dấu của mình.

Trọng tâm ở đây là mô tả thông tin về một tập dữ liệu (siêu dữ liệu của tập) và thể hiện nội dung của tập đó. Ví dụ: siêu dữ liệu về một tập dữ liệu cho biết tập dữ liệu có nội dung gì, các biến số mà tập đó đo lường, người tạo tập dữ liệu, v.v. Tuy nhiên, siêu dữ liệu không chứa giá trị cụ thể cho các biến số và nhiều thông tin khác.

Dataset (Tập dữ liệu)

Định nghĩa đầy đủ về Dataset có sẵn tại schema.org/Dataset.

Bạn có thể mô tả thông tin bổ sung về quá trình xuất bản tập dữ liệu, chẳng hạn như giấy phép, thời gian xuất bản, DOI của tập hoặc thuộc tính sameAs trỏ đến phiên bản chính tắc của tập dữ liệu trong một kho lưu trữ khác. Hãy thêm identifier, licensesameAs cho các tập dữ liệu có cung cấp thông tin giấy phép và nguồn.

Thuộc tính bắt buộc
description Text

Một đoạn tóm tắt ngắn mô tả một tập dữ liệu.

name Text

Tên mô tả về một tập dữ liệu. Ví dụ: "Độ sâu của tuyết ở Bắc bán cầu".

Thuộc tính nên có
citation Text hoặc CreativeWork

Đoạn trích dẫn từ một ấn phẩm mô tả tập dữ liệu. Ví dụ: "J.Smith 'Cách tôi tạo một tập dữ liệu tuyệt vời', Tạp chí Khoa học dữ liệu, 1966".

identifier URL, Text hoặc PropertyValue

Giá trị nhận dạng cho tập dữ liệu, chẳng hạn như DOI.

keywords Text

Từ khóa tóm tắt tập dữ liệu.

license URL, Text

Giấy phép cho việc phân phối tập dữ liệu.

sameAs URL

Một liên kết đến một trang cung cấp thêm thông tin về tập dữ liệu đó, thường là trong một kho lưu trữ khác.

spatialCoverage Text, Place

Bạn có thể cung cấp một điểm duy nhất mô tả thuộc tính về không gian của tập dữ liệu. Bạn chỉ nên cung cấp thuộc tính này nếu tập dữ liệu có đặc tính không gian. Ví dụ: một điểm duy nhất mà tại đó tất cả số đo được lấy hoặc tọa độ của một vùng xung quanh một khu vực.

Điểm

"spatialCoverage:" {
  "@type": "Place",
  "geo": {
    "@type": "GeoCoordinates",
    "latitude": 39.3280,
    "longitude": 120.1633
  }
}

Tọa độ

Sử dụng GeoShape để mô tả các khu vực có hình dạng khác nhau, ví dụ như để chỉ định một vùng xung quanh.

"spatialCoverage:" {
  "@type": "Place",
  "geo": {
    "@type": "GeoShape",
    "box": "39.3280 120.1633 40.445 123.7878"
  }
}

Địa điểm có tên

"spatialCoverage:" "Tahoe City, CA"
temporalCoverage Text

Dữ liệu trong tập dữ liệu về một khoảng thời gian cụ thể. Bạn chỉ nên cung cấp thuộc tính này nếu tập dữ liệu có đặc tính thời gian. Schema.org sử dụng tiêu chuẩn ISO 8601 để mô tả các khoảng thời gian và thời điểm. Bạn có thể mô tả ngày tháng theo cách khác nhau tùy thuộc vào khoảng thời gian trong tập dữ liệu. Hãy xác định các khoảng thời gian mở bằng hai dấu thập phân (..).

Một ngày cụ thể

"temporalCoverage" : "2008"

Khoảng thời gian

"temporalCoverage" : "1950-01-01/2013-12-18"

Khoảng thời gian mở

"temporalCoverage" : "2013-12-19/.."
variableMeasured Text, PropertyValue

Các biến mà tập dữ liệu này đo lường. Ví dụ: nhiệt độ hoặc áp suất.

version Text, Number

Số phiên bản của tập dữ liệu.

url URL

Vị trí của một trang mô tả tập dữ liệu.

DataCatalog

Định nghĩa đầy đủ về DataCatalog có sẵn tại schema.org/DataCatalog.

Các tập dữ liệu thường được xuất bản trong các kho lưu trữ mà cũng chứa nhiều tập dữ liệu khác. Một tập dữ liệu có thể nằm trong nhiều kho lưu trữ. Bạn có thể tham chiếu đến một danh mục dữ liệu chứa tập dữ liệu đó bằng cách tham chiếu trực tiếp.

Thuộc tính nên có
includedInDataCatalog DataCatalog

Danh mục chứa tập dữ liệu.

DataDownload

Định nghĩa đầy đủ về DataDownload có sẵn tại schema.org/DataDownload. Ngoài các thuộc tính Dataset, hãy thêm các thuộc tính sau cho các tập dữ liệu cung cấp tùy chọn tải xuống.

Thuộc tính distribution mô tả cách tải tập dữ liệu vì URL thường trỏ đến trang đích mô tả tập dữ liệu. Thuộc tính distribution mô tả nơi tải tập dữ liệu và định dạng tải xuống. Thuộc tính này có thể có một số giá trị, ví dụ như phiên bản CSV nằm tại một URL và phiên bản Excel nằm tại một URL khác.

Thuộc tính bắt buộc
distribution.contentUrl URL

Liên kết để tải xuống.

Thuộc tính
distribution DataDownload

Thuộc tính mô tả về vị trí để tải tập dữ liệu xuống và định dạng tải xuống.

distribution.fileFormat Text

Định dạng phân phối của tệp.

Tập dữ liệu dạng bảng

Một tập dữ liệu dạng bảng được tổ chức chủ yếu theo lưới gồm các hàng và cột. Đối với các trang nhúng tập dữ liệu dạng bảng, bạn cũng có thể tạo đánh dấu rõ ràng hơn, dựa trên phương pháp cơ bản mô tả ở trên. Tại thời điểm này, chúng tôi hiểu được một biến thể của CSVW ("CSV trên Web", hãy xem W3C), được cung cấp kèm theo nội dung dạng bảng dành cho người dùng trên trang HTML.

Dưới đây là ví dụ về một bảng nhỏ được mã hóa theo định dạng JSON-LD của CSVW. Bạn có thể xem một số lỗi đã biết trong Công cụ kiểm tra dữ liệu có cấu trúc.

Trợ giúp và công cụ

Gửi phản hồi về...