Kết xuất dữ liệu

Kết xuất dữ liệu là phiên bản có thể tải xuống của dữ liệu trong Freebase. Chúng tạo thành ảnh chụp nhanh dữ liệu được lưu trữ trong Freebase và Giản đồ có cấu trúc dữ liệu, đồng thời được cung cấp theo cùng một giấy phép CC-BY. Ánh xạ Freebase/Wikidata được cung cấp theo giấy phép CC0.

  1. Bộ ba tam giác tự do
  2. Bộ ba xóa cơ sở miễn phí
  3. Ánh xạ Freebase/Wikidata
  4. Giấy phép
  5. Trích dẫn

Gấp ba lần tự do

Tập dữ liệu này chứa mọi dữ kiện hiện có trong Freebase.
  • Tổng số gấp ba: 1,9 tỷ
  • Đã cập nhật: Hằng tuần
  • Định dạng dữ liệu: N-Triples RDF
  • Giấy phép: CC-BY
gzip (22 GB) gzip
250 GB (không nén)

Dữ liệu của RDF được chuyển đổi tuần tự bằng định dạng N-Triples, được mã hoá dưới dạng văn bản UTF-8 và được nén bằng Gzip.

RDF
<http://rdf.freebase.com/ns/g.11vjz1ynm> <http://rdf.freebase.com/ns/measurement_unit.dated_percentage.date> "2001-02"^^<http://www.w3.org/2001/XMLSchema#gYearMonth>  .
<http://rdf.freebase.com/ns/g.11vjz1ynm>  <http://rdf.freebase.com/ns/measurement_unit.dated_percentage.source> <http://rdf.freebase.com/ns/g.11x1gf2m6>  .
<http://rdf.freebase.com/ns/g.11vjz1ynm>  <http://rdf.freebase.com/ns/type.object.type> <http://rdf.freebase.com/ns/measurement_unit.dated_percentage>  .
<http://rdf.freebase.com/ns/g.11vjz1ynm>  <http://rdf.freebase.com/ns/measurement_unit.dated_percentage.rate> 4.5 .
<http://rdf.freebase.com/ns/g.11vjz1ynm>  <http://www.w3.org/1999/02/22-rdf-syntax-ns#type> <http://rdf.freebase.com/ns/measurement_unit.dated_percentage>  .

Nếu bạn đang viết mã của riêng mình để phân tích cú pháp RDF, thì cách này thường hiệu quả hơn khi đọc trực tiếp từ tệp GZip thay vì trích xuất dữ liệu trước rồi mới xử lý dữ liệu chưa nén.

<subject>  <predicate>  <object> .

Lưu ý: Trong Freebase, các đối tượng có MID trông giống như /m/012rkqx. Trong RDF, các MID đó trở thành m.012rkqx. Tương tự, giản đồ Freebase như /common/topic được viết dưới dạng common.topic.

Chủ đề là mã nhận dạng của đối tượng Freebase. Đó có thể là Freebase MID (ví dụ: m.012rkqx) cho các chủ đề và CVT hoặc ID có thể đọc được (ví dụ: common.topic) cho giản đồ.

Predicate luôn là mã nhận dạng mà con người có thể đọc được đối với tài sản Freebase hoặc tài sản trong một từ vựng chuẩn RDF như RDFS. Các vùng chứa tên khoá ngoại tuyến Freebase cũng được dùng làm thuộc tính để giúp bạn tra cứu khoá theo không gian tên dễ dàng hơn.

Trường đối tượng có thể chứa Freebase MID cho một đối tượng hoặc mã nhận dạng mà con người có thể đọc được cho giản đồ từ Freebase hoặc các từ vựng RDF khác. Dữ liệu này cũng có thể bao gồm các giá trị cố định như chuỗi, boolean và giá trị số.

Mô tả chủ đề thường có dòng mới. Để mỗi bộ ba khớp với một dòng, chúng tôi đã loại bỏ các dòng mới bằng "\n".

Bộ ba đã xóa Freebase

Chúng tôi cũng cung cấp một tệp báo lỗi cho bộ ba đã bị xóa khỏi Freebase theo thời gian. Đây là kết xuất một lần đến hết tháng 3 năm 2013. Trong tương lai, chúng tôi có thể xem xét cung cấp bản cập nhật định kỳ cho bộ ba đã bị xoá gần đây, nhưng hiện tại chúng tôi không có khung thời gian cụ thể để làm như vậy và chỉ cung cấp kết xuất một lần này.

Tệp kết xuất được phân phối dưới dạng tệp .tar.gz (nén 2.1Gb, không nén 7.7Gb). Nó chứa 63.036.271 bộ ba đã xóa trong 20 tệp (không có ý nghĩa cụ thể đối với các tệp riêng lẻ, nó chỉ dễ dàng thao tác với một số tệp nhỏ hơn một tệp khổng lồ).

Cảm ơn Chun How và John Giannandrea đã tạo ra bản phát hành dữ liệu này.

  • Tổng số gấp ba: 63 triệu
  • Cập nhật: Ngày 9 tháng 6 năm 2013
  • Định dạng dữ liệu: CSV
  • Giấy phép: CC-BY
gzip (2 GB) gzip
8 GB

Định dạng dữ liệu về cơ bản là CSV với một lưu ý quan trọng. Trường đối tượng có thể chứa bất kỳ ký tự nào, kể cả dấu phẩy (cũng như bất kỳ dấu phân tách hợp lý nào khác mà bạn có thể nghĩ đến). Tuy nhiên, tất cả các trường khác được đảm bảo không chứa dấu phẩy, vì vậy dữ liệu vẫn có thể được phân tích cú pháp không rõ ràng.

Các cột trong tập dữ liệu được xác định là:

  • create_timestamp (Thời gian bắt đầu của hệ thống Unix theo mili giây)
  • người sáng tạo
  • delete_timestamp (Thời gian bắt đầu của hệ thống Unix theo mili giây)
  • bỏ
  • chủ đề (MID)
  • vị ngữ (MID)
  • đối tượng (MID/Văn bản)
  • mã_ngôn_ngữ
CSV
1352854086000,/user/mwcl_wikipedia_en,1352855856000,/user/mwcl_wikipedia_en,/m/03r90,/type/object/key,/wikipedia/en/$B816,en
1355171076000,/user/mwcl_musicbrainz,1364258198000,/user/turtlewax_bot,/m/0nncp9z,/music/recording/artist,/m/01vbfm4,en
1176630380000,/user/mwcl_images,1335928144000,/user/gardening_bot,/m/029w57m,/common/image/size,/m/0kly56,en
1292854917000,/user/mwcl_musicbrainz,1364823418001,/user/mbz_pipeline_merge_bot,/m/0fv1vl8,/type/object/type,/common/topic,en
1205530905000,/user/mwcl_images,1336022041000,/user/gardening_bot,/m/01x5scz,/common/licensed_object/license,/m/02x6b,en
1302391361000,/user/content_administrator,1336190973000,/user/gardening_bot,/m/0gkb45y,/type/object/type,/type/content,en
1176728962002,/user/mwcl_images,1335954186000,/user/gardening_bot,/m/08430h,/common/topic/image,/m/02cs147,en
1172002568007,/user/mwcl_chefmoz,1283588560000,/user/delete_bot,/m/01z4c1z,/type/object/name,La Casa Rosa Mexican Restaurant,en

Ánh xạ Freebase/Wikidata

Dữ liệu đã được tạo dựa trên Wikidata-Dump của ngày 28 tháng 10 năm 2013 và chỉ chứa các liên kết có ít nhất hai Liên kết Wikipedia phổ biến và không có một Liên kết Wikipedia không đồng ý nào. Hơn nữa, các đường này được sắp xếp theo số lượng Liên kết Wikipedia phổ biến (mặc dù trong Turtle điều này không thực sự quan trọng).
  • Tổng số ba lần: 2,1 triệu
  • Cập nhật: Ngày 28 tháng 10 năm 2013
  • Định dạng dữ liệu: N-Triples RDF
  • Giấy phép: CC0
gzip (21,2 MB) gzip
242,9 MB không nén

Dữ liệu của RDF được chuyển đổi tuần tự bằng định dạng N-Triples, được mã hoá dưới dạng văn bản UTF-8 và được nén bằng Gzip.

RDF
<http://rdf.freebase.com/ns/m.0695j>  <http://www.w3.org/2002/07/owl#sameAs>  <http://www.wikidata.org/entity/Q6718> .
<http://rdf.freebase.com/ns/m.05nrg>  <http://www.w3.org/2002/07/owl#sameAs7>  <http://www.wikidata.org/entity/Q538> .
<http://rdf.freebase.com/ns/m.0jgd>  <http://www.w3.org/2002/07/owl#sameAs>  <http://www.wikidata.org/entity/Q414> .
<http://rdf.freebase.com/ns/m.0d_23>  <http://www.w3.org/2002/07/owl#sameAs>  <http://www.wikidata.org/entity/Q2537> .
<http://rdf.freebase.com/ns/m.04g7d>  <http://www.w3.org/2002/07/owl#sameAs>  <http://www.wikidata.org/entity/Q315> .

Giấy phép

Kết xuất dữ liệu tự do được cung cấp miễn phí cho mọi mục đích với các bản cập nhật thường xuyên của Google. Giống như chính Freebase, các quảng cáo này được phân phối theo Phân bổ Creative Commons (hay còn gọi là CC-BY) và việc sử dụng phải tuân theo Điều khoản dịch vụ. Ánh xạ ID Freebase/Wikidata được cung cấp trong CC0 và có thể được sử dụng mà không có hạn chế.

Trích dẫn

Nếu muốn trích dẫn các kết xuất dữ liệu này trong ấn bản, bạn có thể sử dụng:

Google, Freebase Data Dumps, https://developers.google.com/freebase/data, <month> <day>, <year>

Hoặc dưới dạng BibTeX:

BibTex
@misc{freebase:datadumps,
  title = "Freebase Data Dumps"
  author = "Google",
  howpublished = "\url{https://developers.google.com/freebase/data}",
  edition = "<month> <day>, <year>",
  year = "<year>"
}