Kết xuất dữ liệu là phiên bản có thể tải xuống của dữ liệu trong Freebase. Chúng là ảnh chụp nhanh dữ liệu được lưu trữ trong Freebase và Schema (lược đồ) để cấu trúc dữ liệu đó, đồng thời được cung cấp theo cùng một giấy phép CC-BY. Các mối liên kết Freebase/Wikidata được cung cấp theo giấy phép CC0.
Bộ ba Freebase
Tập dữ liệu này chứa mọi thông tin hiện có trong Freebase. |
|
22 GB gzip 250 GB chưa nén |
Dữ liệu RDF được chuyển đổi tuần tự bằng định dạng N-Triples, được mã hoá dưới dạng văn bản UTF-8 và được nén bằng Gzip.
<http://rdf.freebase.com/ns/g.11vjz1ynm> <http://rdf.freebase.com/ns/measurement_unit.dated_percentage.date> "2001-02"^^<http://www.w3.org/2001/XMLSchema#gYearMonth> . <http://rdf.freebase.com/ns/g.11vjz1ynm> <http://rdf.freebase.com/ns/measurement_unit.dated_percentage.source> <http://rdf.freebase.com/ns/g.11x1gf2m6> . <http://rdf.freebase.com/ns/g.11vjz1ynm> <http://rdf.freebase.com/ns/type.object.type> <http://rdf.freebase.com/ns/measurement_unit.dated_percentage> . <http://rdf.freebase.com/ns/g.11vjz1ynm> <http://rdf.freebase.com/ns/measurement_unit.dated_percentage.rate> 4.5 . <http://rdf.freebase.com/ns/g.11vjz1ynm> <http://www.w3.org/1999/02/22-rdf-syntax-ns#type> <http://rdf.freebase.com/ns/measurement_unit.dated_percentage> .
Nếu bạn đang viết mã của riêng mình để phân tích cú pháp các tệp kết xuất RDF, thì việc đọc trực tiếp từ tệp GZip thường hiệu quả hơn là trích xuất dữ liệu trước rồi xử lý dữ liệu chưa nén.
<subject> <predicate> <object> .
Lưu ý: Trong Freebase, các đối tượng có mã nhận dạng đối tượng (MID) trông giống như /m/012rkqx
. Trong RDF, những mã nhận dạng đó sẽ trở thành m.012rkqx. Tương tự, giản đồ Freebase như /common/topic
được viết là common.topic
.
Chủ đề là mã nhận dạng của một đối tượng Freebase. Đó có thể là MID (Mã nhận dạng Freebase) (ví dụ: m.012rkqx) cho các chủ đề và CVT hoặc mã nhận dạng mà con người có thể đọc được (ví dụ: common.topic
) cho giản đồ.
Vị từ luôn là một giá trị nhận dạng mà con người có thể đọc được cho một thuộc tính Freebase hoặc một thuộc tính từ từ vựng RDF tiêu chuẩn như RDFS. Vùng chứa tên khoá ngoài Freebase cũng được dùng làm vị từ để giúp bạn dễ dàng tra cứu khoá theo vùng chứa tên.
Trường đối tượng có thể chứa một MID Freebase cho một đối tượng hoặc một mã nhận dạng dễ đọc cho giản đồ từ Freebase hoặc các từ vựng RDF khác. Nó cũng có thể bao gồm các giá trị cố định như chuỗi, giá trị boolean và giá trị số.
Nội dung mô tả chủ đề thường có dấu xuống dòng. Để mỗi bộ ba vừa với một dòng, chúng tôi đã thoát các dòng mới bằng "\n".
Các bộ ba đã xoá trên Freebase
Chúng tôi cũng cung cấp một tệp kết xuất gồm các bộ ba đã bị xoá khỏi Freebase theo thời gian. Đây là một lần kết xuất dữ liệu duy nhất, diễn ra đến hết tháng 3 năm 2013. Trong tương lai, chúng tôi có thể cân nhắc việc cung cấp thông tin cập nhật định kỳ về các bộ ba đã xoá gần đây, nhưng hiện tại, chúng tôi chưa có khung thời gian cụ thể cho việc này và chỉ cung cấp thông tin một lần này.
Bản kết xuất được phân phối dưới dạng tệp .tar.gz (2,1 GB ở dạng nén, 7,7 GB ở dạng chưa nén). Tập dữ liệu này chứa 63.036.271 bộ ba đã bị xoá trong 20 tệp (các tệp riêng lẻ không có ý nghĩa cụ thể, chỉ là dễ thao tác với nhiều tệp nhỏ hơn so với một tệp lớn).
Cảm ơn Chun How Tan và John Giannandrea đã giúp phát hành dữ liệu này.
2 GB gzip 8 GB chưa nén |
Định dạng dữ liệu về cơ bản là CSV, nhưng có một điểm quan trọng cần lưu ý. Trường đối tượng có thể chứa mọi ký tự, bao gồm cả dấu phẩy (cũng như mọi dấu phân cách hợp lý khác mà bạn có thể nghĩ đến). Tuy nhiên, tất cả các trường khác đều đảm bảo không chứa dấu phẩy, nên dữ liệu vẫn có thể được phân tích cú pháp một cách rõ ràng.
Các cột trong tập dữ liệu được xác định như sau:
- creation_timestamp (thời gian bắt đầu của hệ thống Unix tính bằng mili giây)
- người sáng tạo
- deletion_timestamp (thời gian bắt đầu của hệ thống Unix tính bằng mili giây)
- deletor
- chủ đề (MID)
- vị từ (MID)
- object (MID/Literal)
- language_code
1352854086000,/user/mwcl_wikipedia_en,1352855856000,/user/mwcl_wikipedia_en,/m/03r90,/type/object/key,/wikipedia/en/$B816,en 1355171076000,/user/mwcl_musicbrainz,1364258198000,/user/turtlewax_bot,/m/0nncp9z,/music/recording/artist,/m/01vbfm4,en 1176630380000,/user/mwcl_images,1335928144000,/user/gardening_bot,/m/029w57m,/common/image/size,/m/0kly56,en 1292854917000,/user/mwcl_musicbrainz,1364823418001,/user/mbz_pipeline_merge_bot,/m/0fv1vl8,/type/object/type,/common/topic,en 1205530905000,/user/mwcl_images,1336022041000,/user/gardening_bot,/m/01x5scz,/common/licensed_object/license,/m/02x6b,en 1302391361000,/user/content_administrator,1336190973000,/user/gardening_bot,/m/0gkb45y,/type/object/type,/type/content,en 1176728962002,/user/mwcl_images,1335954186000,/user/gardening_bot,/m/08430h,/common/topic/image,/m/02cs147,en 1172002568007,/user/mwcl_chefmoz,1283588560000,/user/delete_bot,/m/01z4c1z,/type/object/name,La Casa Rosa Mexican Restaurant,en
Mối liên kết Freebase/Wikidata
Dữ liệu này được tạo dựa trên Wikidata-Dump ngày 28 tháng 10 năm 2013 và chỉ chứa những đường liên kết có ít nhất 2 đường liên kết chung đến Wikipedia và không có đường liên kết nào đến Wikipedia không đồng ý. Hơn nữa, các dòng được sắp xếp theo số lượng đường liên kết chung đến Wikipedia (mặc dù điều này không thực sự quan trọng trong Turtle). |
|
21,2 MB gzip 242,9 MB chưa nén |
Dữ liệu RDF được chuyển đổi tuần tự bằng định dạng N-Triples, được mã hoá dưới dạng văn bản UTF-8 và được nén bằng Gzip.
<http://rdf.freebase.com/ns/m.0695j> <http://www.w3.org/2002/07/owl#sameAs> <http://www.wikidata.org/entity/Q6718> . <http://rdf.freebase.com/ns/m.05nrg> <http://www.w3.org/2002/07/owl#sameAs7> <http://www.wikidata.org/entity/Q538> . <http://rdf.freebase.com/ns/m.0jgd> <http://www.w3.org/2002/07/owl#sameAs> <http://www.wikidata.org/entity/Q414> . <http://rdf.freebase.com/ns/m.0d_23> <http://www.w3.org/2002/07/owl#sameAs> <http://www.wikidata.org/entity/Q2537> . <http://rdf.freebase.com/ns/m.04g7d> <http://www.w3.org/2002/07/owl#sameAs> <http://www.wikidata.org/entity/Q315> .
Giấy phép
Google cung cấp miễn phí các bản kết xuất dữ liệu Freebase cho mọi mục đích và thường xuyên cập nhật. Giống như Freebase, các dữ liệu này được phân phối theo giấy phép Creative Commons Attribution (còn gọi là CC-BY) và việc sử dụng phải tuân theo Điều khoản dịch vụ. Các mối liên kết mã nhận dạng Freebase/Wikidata được cung cấp theo giấy phép CC0 và có thể được sử dụng mà không bị hạn chế.
Trích dẫn
Nếu muốn trích dẫn những bản kết xuất dữ liệu này trong một ấn phẩm, bạn có thể sử dụng:
Google, Freebase Data Dumps, https://developers.google.com/freebase/data, <month> <day>, <year>
Hoặc dưới dạng BibTeX:
@misc{freebase:datadumps, title = "Freebase Data Dumps" author = "Google", howpublished = "\url{https://developers.google.com/freebase/data}", edition = "<month> <day>, <year>", year = "<year>" }