ดัมพ์ข้อมูล

Data Dump เป็นข้อมูลใน Freebase เวอร์ชันที่ดาวน์โหลดได้ โดยเป็นสแนปชอตของข้อมูลที่จัดเก็บไว้ใน Freebase และสคีมาที่จัดโครงสร้างข้อมูลดังกล่าว และมีให้ใช้งานภายใต้สัญญาอนุญาต CC-BY เดียวกัน การแมป Freebase/Wikidata มีให้ใช้งานภายใต้สัญญาอนุญาต CC0

  1. Freebase Triples
  2. ทริปเปิลที่ลบแล้วใน Freebase
  3. การแมป Freebase/Wikidata
  4. ใบอนุญาต
  5. การอ้างอิง

ทริปเปิล Freebase

ชุดข้อมูลนี้มีข้อเท็จจริงทั้งหมดที่อยู่ใน Freebase ในปัจจุบัน
  • การทริปเปิลทั้งหมด: 1.9 พันล้านครั้ง
  • อัปเดต: ทุกสัปดาห์
  • รูปแบบข้อมูล: RDF แบบ N-Triples
  • สัญญาอนุญาต: CC-BY
22 GB gzip
250 GB ไม่บีบอัด

ระบบจะแปลงข้อมูล RDF เป็นอนุกรมโดยใช้รูปแบบ N-Triples เข้ารหัสเป็นข้อความ UTF-8 และบีบอัดด้วย Gzip

RDF
<http://rdf.freebase.com/ns/g.11vjz1ynm> <http://rdf.freebase.com/ns/measurement_unit.dated_percentage.date> "2001-02"^^<http://www.w3.org/2001/XMLSchema#gYearMonth>  .
<http://rdf.freebase.com/ns/g.11vjz1ynm>  <http://rdf.freebase.com/ns/measurement_unit.dated_percentage.source> <http://rdf.freebase.com/ns/g.11x1gf2m6>  .
<http://rdf.freebase.com/ns/g.11vjz1ynm>  <http://rdf.freebase.com/ns/type.object.type> <http://rdf.freebase.com/ns/measurement_unit.dated_percentage>  .
<http://rdf.freebase.com/ns/g.11vjz1ynm>  <http://rdf.freebase.com/ns/measurement_unit.dated_percentage.rate> 4.5 .
<http://rdf.freebase.com/ns/g.11vjz1ynm>  <http://www.w3.org/1999/02/22-rdf-syntax-ns#type> <http://rdf.freebase.com/ns/measurement_unit.dated_percentage>  .

หากคุณเขียนโค้ดของคุณเองเพื่อแยกวิเคราะห์การทิ้งข้อมูล RDF การอ่านจากไฟล์ GZip โดยตรงมักจะมีประสิทธิภาพมากกว่าการแยกข้อมูลก่อนแล้วจึงประมวลผลข้อมูลที่ไม่ได้บีบอัด

<subject>  <predicate>  <object> .

หมายเหตุ: ใน Freebase ออบเจ็กต์จะมี MID ที่มีลักษณะคล้าย /m/012rkqx ใน RDF รหัส MID เหล่านั้นจะกลายเป็น m.012rkqx ในทำนองเดียวกัน สคีมา Freebase เช่น /common/topic จะเขียนเป็น common.topic

เรื่องคือรหัสของออบเจ็กต์ Freebase โดยอาจเป็น MID ของ Freebase (เช่น m.012rkqx) สำหรับหัวข้อและ CVT หรือรหัสที่มนุษย์อ่านได้ (เช่น common.topic) สำหรับสคีมา

เพรดิเคตจะเป็นรหัสที่มนุษย์อ่านได้เสมอสำหรับพร็อพเพอร์ตี้ Freebase หรือพร็อพเพอร์ตี้จากคำศัพท์ RDF มาตรฐาน เช่น RDFS นอกจากนี้ ระบบยังใช้เนมสเปซคีย์นอกของ Freebase เป็นภาคแสดงเพื่อให้ค้นหาคีย์ตามเนมสเปซได้ง่ายขึ้นด้วย

ฟิลด์ออบเจ็กต์อาจมี MID ของ Freebase สำหรับออบเจ็กต์หรือรหัสที่มนุษย์อ่านได้สำหรับสคีมาจาก Freebase หรือคำศัพท์ RDF อื่นๆ นอกจากนี้ยังอาจรวมถึงค่าลิเทอรัล เช่น สตริง ค่าบูลีน และค่าตัวเลข

คำอธิบายหัวข้อมักมีการขึ้นบรรทัดใหม่ เราได้หลีกเลี่ยงการขึ้นบรรทัดใหม่ด้วย "\n" เพื่อให้แต่ละทริปเปิลพอดีกับ 1 บรรทัด

Freebase Deleted Triples

นอกจากนี้ เรายังจัดเตรียมข้อมูลที่ดัมพ์ของทริปเปิลที่ถูกลบออกจาก Freebase เมื่อเวลาผ่านไป นี่เป็นการส่งออกข้อมูลแบบครั้งเดียวจนถึงเดือนมีนาคม 2013 ในอนาคต เราอาจพิจารณาให้ข้อมูลอัปเดตเป็นระยะเกี่ยวกับทริปเปิลที่เพิ่งลบไป แต่ในขณะนี้เรายังไม่มีกรอบเวลาที่เฉพาะเจาะจงในการดำเนินการดังกล่าว และจะให้ข้อมูลที่ส่งออกแบบครั้งเดียวนี้เท่านั้น

โดยจะเผยแพร่การดัมพ์เป็นไฟล์ .tar.gz (บีบอัดแล้ว 2.1 GB, ไม่ได้บีบอัด 7.7 GB) โดยมีทริปเปิลที่ถูกลบไปแล้ว 63,036,271 รายการใน 20 ไฟล์ (ไฟล์แต่ละไฟล์ไม่มีความหมายเฉพาะเจาะจง เพียงแต่การจัดการไฟล์ขนาดเล็กหลายๆ ไฟล์จะง่ายกว่าการจัดการไฟล์ขนาดใหญ่เพียงไฟล์เดียว)

ขอขอบคุณ Chun How Tan และ John Giannandrea ที่ทำให้การเผยแพร่ข้อมูลนี้เป็นไปได้

  • ทริปเปิลทั้งหมด: 63 ล้าน
  • อัปเดตเมื่อ: 9 มิถุนายน 2013
  • รูปแบบข้อมูล: CSV
  • สัญญาอนุญาต: CC-BY
2 GB gzip
8 GB ไม่บีบอัด

รูปแบบข้อมูลคือ CSV โดยมีข้อควรระวังที่สำคัญประการหนึ่ง ฟิลด์ออบเจ็กต์อาจมีอักขระใดก็ได้ รวมถึงคอมมา (รวมถึงตัวคั่นอื่นๆ ที่เหมาะสมที่คุณคิดได้) อย่างไรก็ตาม เราขอรับประกันว่าช่องอื่นๆ ทั้งหมดจะไม่มีคอมมา ดังนั้นจึงยังคงแยกวิเคราะห์ข้อมูลได้อย่างชัดเจน

คอลัมน์ในชุดข้อมูลมีการกำหนดดังนี้

  • creation_timestamp (เวลา Unix Epoch ในหน่วยมิลลิวินาที)
  • ครีเอเตอร์
  • deletion_timestamp (เวลา Unix Epoch ในหน่วยมิลลิวินาที)
  • ผู้ลบ
  • เรื่อง (MID)
  • Predicate (MID)
  • ออบเจ็กต์ (MID/Literal)
  • language_code
CSV
1352854086000,/user/mwcl_wikipedia_en,1352855856000,/user/mwcl_wikipedia_en,/m/03r90,/type/object/key,/wikipedia/en/$B816,en
1355171076000,/user/mwcl_musicbrainz,1364258198000,/user/turtlewax_bot,/m/0nncp9z,/music/recording/artist,/m/01vbfm4,en
1176630380000,/user/mwcl_images,1335928144000,/user/gardening_bot,/m/029w57m,/common/image/size,/m/0kly56,en
1292854917000,/user/mwcl_musicbrainz,1364823418001,/user/mbz_pipeline_merge_bot,/m/0fv1vl8,/type/object/type,/common/topic,en
1205530905000,/user/mwcl_images,1336022041000,/user/gardening_bot,/m/01x5scz,/common/licensed_object/license,/m/02x6b,en
1302391361000,/user/content_administrator,1336190973000,/user/gardening_bot,/m/0gkb45y,/type/object/type,/type/content,en
1176728962002,/user/mwcl_images,1335954186000,/user/gardening_bot,/m/08430h,/common/topic/image,/m/02cs147,en
1172002568007,/user/mwcl_chefmoz,1283588560000,/user/delete_bot,/m/01z4c1z,/type/object/name,La Casa Rosa Mexican Restaurant,en

การแมป Freebase/Wikidata

ข้อมูลนี้สร้างขึ้นจากไฟล์ที่ดัมพ์จาก Wikidata เมื่อวันที่ 28 ตุลาคม 2013 และมีเฉพาะลิงก์ที่มีลิงก์ Wikipedia ทั่วไปอย่างน้อย 2 ลิงก์ และไม่มีลิงก์ Wikipedia ที่ไม่เห็นด้วย นอกจากนี้ บรรทัดจะเรียงตามจำนวนลิงก์ Wikipedia ที่ใช้ร่วมกัน (แม้ว่าใน Turtle จะไม่สำคัญนัก)
  • ทริปเปิลทั้งหมด: 2.1 ล้าน
  • อัปเดต: 28 ตุลาคม 2013
  • รูปแบบข้อมูล: RDF แบบ N-Triples
  • ใบอนุญาต: CC0
21.2 MB gzip
242.9 MB ไม่บีบอัด

ระบบจะแปลงข้อมูล RDF เป็นอนุกรมโดยใช้รูปแบบ N-Triples เข้ารหัสเป็นข้อความ UTF-8 และบีบอัดด้วย Gzip

RDF
<http://rdf.freebase.com/ns/m.0695j>  <http://www.w3.org/2002/07/owl#sameAs>  <http://www.wikidata.org/entity/Q6718> .
<http://rdf.freebase.com/ns/m.05nrg>  <http://www.w3.org/2002/07/owl#sameAs7>  <http://www.wikidata.org/entity/Q538> .
<http://rdf.freebase.com/ns/m.0jgd>  <http://www.w3.org/2002/07/owl#sameAs>  <http://www.wikidata.org/entity/Q414> .
<http://rdf.freebase.com/ns/m.0d_23>  <http://www.w3.org/2002/07/owl#sameAs>  <http://www.wikidata.org/entity/Q2537> .
<http://rdf.freebase.com/ns/m.04g7d>  <http://www.w3.org/2002/07/owl#sameAs>  <http://www.wikidata.org/entity/Q315> .

ใบอนุญาต

Google จะอัปเดตการส่งออกข้อมูล Freebase เป็นประจำและให้บริการโดยไม่มีค่าใช้จ่ายสำหรับทุกวัตถุประสงค์ โดยจะเผยแพร่ภายใต้สัญญาอนุญาตครีเอทีฟคอมมอนส์แบบแสดงที่มา (หรือ CC-BY) เช่นเดียวกับ Freebase และการใช้งานจะขึ้นอยู่กับข้อกำหนดในการให้บริการ การแมปรหัส Freebase/Wikidata มีให้ใช้งานภายใต้ CC0 และสามารถใช้ได้โดยไม่มีข้อจำกัด

การอ้างอิง

หากต้องการอ้างอิงการดัมพ์ข้อมูลเหล่านี้ในสิ่งพิมพ์ คุณสามารถใช้ข้อมูลต่อไปนี้

Google, Freebase Data Dumps, https://developers.google.com/freebase/data, <month> <day>, <year>

หรือในรูปแบบ BibTeX

BibTex
@misc{freebase:datadumps,
  title = "Freebase Data Dumps"
  author = "Google",
  howpublished = "\url{https://developers.google.com/freebase/data}",
  edition = "<month> <day>, <year>",
  year = "<year>"
}