ดัมพ์ข้อมูล

ดัมพ์ข้อมูลเป็นเวอร์ชันฟรีที่ดาวน์โหลดได้ใน Freebase ชุดข้อมูลดังกล่าวประกอบขึ้นเป็นภาพรวมของข้อมูลที่อยู่ใน Freebase และสคีมาที่มีโครงสร้างข้อมูลนั้น และอยู่ภายใต้ใบอนุญาต CC-BY เดียวกัน การแมป Freebase/Wikidata อยู่ภายใต้ใบอนุญาต CC0

  1. ทริปเปิลฟรี 3 ครั้ง
  2. ลบ 3 ส่วนตามอิสระ
  3. การแมป Freebase/Wikidata
  4. ใบอนุญาต
  5. การอ้างอิง

ทริปเบส 3 ครั้ง

ชุดข้อมูลนี้ประกอบด้วยทุกข้อเท็จจริงที่อยู่ใน Freebase ในปัจจุบัน
  • รวม 3 ครั้ง: 1.9 พันล้าน
  • อัปเดต: รายสัปดาห์
  • รูปแบบข้อมูล: N-Triples RDF
  • ใบอนุญาต: CC-BY
22 GB gzip
250 GB ไม่บีบอัด

ข้อมูล RDF เป็นอนุกรมโดยใช้รูปแบบ N-Triples ซึ่งเข้ารหัสเป็นข้อความ UTF-8 และบีบอัดด้วย Gzip

RDF
<http://rdf.freebase.com/ns/g.11vjz1ynm> <http://rdf.freebase.com/ns/measurement_unit.dated_percentage.date> "2001-02"^^<http://www.w3.org/2001/XMLSchema#gYearMonth>  .
<http://rdf.freebase.com/ns/g.11vjz1ynm>  <http://rdf.freebase.com/ns/measurement_unit.dated_percentage.source> <http://rdf.freebase.com/ns/g.11x1gf2m6>  .
<http://rdf.freebase.com/ns/g.11vjz1ynm>  <http://rdf.freebase.com/ns/type.object.type> <http://rdf.freebase.com/ns/measurement_unit.dated_percentage>  .
<http://rdf.freebase.com/ns/g.11vjz1ynm>  <http://rdf.freebase.com/ns/measurement_unit.dated_percentage.rate> 4.5 .
<http://rdf.freebase.com/ns/g.11vjz1ynm>  <http://www.w3.org/1999/02/22-rdf-syntax-ns#type> <http://rdf.freebase.com/ns/measurement_unit.dated_percentage>  .

หากคุณเขียนโค้ดของตนเองเพื่อแยกวิเคราะห์ RDF บ่อยครั้ง การอ่านจากไฟล์ GZip โดยตรงจะมีประสิทธิภาพมากกว่าที่จะต้องแยกข้อมูลก่อน จากนั้นจึงประมวลผลข้อมูลที่ไม่ได้บีบอัด

<subject>  <predicate>  <object> .

หมายเหตุ: ใน Freebase ออบเจ็กต์จะมี MID ที่มีลักษณะเป็น /m/012rkqx ใน RDF นั้น MID จะกลายเป็น m.012rkqx ในทํานองเดียวกัน สคีมาของ Freebase เช่น /common/topic จะเขียนเป็น common.topic

หัวเรื่อง คือรหัสของออบเจ็กต์ Freebase อาจเป็น Freebase MID (เช่น m.012rkqx) สําหรับหัวข้อและ CVT หรือรหัสที่มนุษย์อ่านได้ (เช่น common.topic) สําหรับสคีมา

เพรดิเคตคือรหัสที่มนุษย์อ่านได้อิสระเสมอสําหรับพร็อพเพอร์ตี้ Freebase หรือพร็อพเพอร์ตี้จากคําศัพท์ RDF มาตรฐานอย่าง RDFS นอกจากนี้เนมสเปซของคีย์นอกของ Freebase ยังใช้เป็นคําบ่งชี้เพื่อให้ค้นหาคีย์ตามเนมสเปซได้ง่ายขึ้นด้วย

ช่องออบเจ็กต์อาจมี MID ของ Freebase สําหรับออบเจ็กต์หรือรหัสที่มนุษย์อ่านได้สําหรับสคีมาจาก Freebase หรือคําศัพท์ RDF อื่นๆ และอาจรวมถึงค่าลิเทอรัล เช่น สตริง บูลีน และค่าตัวเลข

คําอธิบายหัวข้อมักมีบรรทัดใหม่ เราใช้ Escape กับบรรทัดใหม่ที่ชื่อ "\n" เพื่อให้พอดีกับแต่ละบรรทัด 3 บรรทัด

ลบสามรายการด้วย Freebase

นอกจากนี้ เรายังบันทึกข้อมูล 3 อย่างที่ถูกลบออกจาก Freebase ไปแล้วด้วย นี่เป็นการถ่ายโอนข้อมูลเพียงครั้งเดียวในเดือนมีนาคม 2013 ในอนาคต เราอาจพิจารณาทําการอัปเดตเป็นระยะๆ เพื่อเพิ่มทริปที่เพิ่งถูกลบไป 3 รอบ แต่ในขณะนี้เรายังไม่มีกรอบเวลาที่แน่นอนในการดําเนินการดังกล่าว และให้เพียงการถ่ายโอนข้อมูลเพียงครั้งเดียวเท่านั้น

ไฟล์ดัมพ์จะกระจายเป็นไฟล์ .tar.gz (บีบอัด 2.1Gb, ไม่ได้บีบอัด 7.7Gb) ซึ่งประกอบด้วย 33,036,271 จํานวน 33,036,271 ไฟล์ที่ลบในไฟล์ 20 ไฟล์ (ไม่ได้หมายความว่าไฟล์ใดไฟล์หนึ่งไม่ได้จะหมายความว่าไฟล์เล็กๆ ไฟล์เดียวก็ง่ายกว่าไฟล์ขนาดใหญ่เพียงไฟล์เดียว)

ขอขอบคุณ Chun How Tan และ John Giannandrea ในการเผยแพร่ข้อมูลนี้

  • ทั้งหมดสามครั้ง: 63 ล้าน
  • อัปเดต: 9 มิถุนายน 2013
  • รูปแบบข้อมูล: CSV
  • ใบอนุญาต: CC-BY
2 GB gzip
8 GB ไม่บีบอัด

รูปแบบข้อมูลก็คือ CSV ซึ่งมีคําแนะนําที่สําคัญ 1 ข้อ ช่องออบเจ็กต์อาจมีอักขระต่างๆ รวมถึงเครื่องหมายจุลภาค (รวมถึงตัวคั่นอื่นๆ ที่เหมาะสมซึ่งคุณนึกออก) อย่างไรก็ตาม ช่องอื่นๆ ที่เหลือไม่มีการใส่เครื่องหมายจุลภาคเพื่อรับประกันว่าข้อมูลจะยังคงถูกแยกวิเคราะห์อย่างชัดเจน

คอลัมน์ในชุดข้อมูลจะมีคําจํากัดความดังนี้

  • create_timestamp (เวลา Unix Epoch ในหน่วยมิลลิวินาที)
  • ผู้สร้าง
  • delete_timestamp (เวลา Unix Epoch ในหน่วยมิลลิวินาที)
  • Deletor
  • หัวเรื่อง (MID)
  • คํากริยา (MID)
  • วัตถุ (MID/ลิเทอรัล)
  • รหัสภาษา
CSV
1352854086000,/user/mwcl_wikipedia_en,1352855856000,/user/mwcl_wikipedia_en,/m/03r90,/type/object/key,/wikipedia/en/$B816,en
1355171076000,/user/mwcl_musicbrainz,1364258198000,/user/turtlewax_bot,/m/0nncp9z,/music/recording/artist,/m/01vbfm4,en
1176630380000,/user/mwcl_images,1335928144000,/user/gardening_bot,/m/029w57m,/common/image/size,/m/0kly56,en
1292854917000,/user/mwcl_musicbrainz,1364823418001,/user/mbz_pipeline_merge_bot,/m/0fv1vl8,/type/object/type,/common/topic,en
1205530905000,/user/mwcl_images,1336022041000,/user/gardening_bot,/m/01x5scz,/common/licensed_object/license,/m/02x6b,en
1302391361000,/user/content_administrator,1336190973000,/user/gardening_bot,/m/0gkb45y,/type/object/type,/type/content,en
1176728962002,/user/mwcl_images,1335954186000,/user/gardening_bot,/m/08430h,/common/topic/image,/m/02cs147,en
1172002568007,/user/mwcl_chefmoz,1283588560000,/user/delete_bot,/m/01z4c1z,/type/object/name,La Casa Rosa Mexican Restaurant,en

การแมป Freebase/Wikidata

ข้อมูลดังกล่าวสร้างขึ้นตามข้อมูลจาก Wikidata-Dump เมื่อวันที่ 28 ตุลาคม 2013 และมีเฉพาะลิงก์เหล่านั้นที่มีลิงก์ Wikipedia - ลิงก์อย่างน้อยสองลิงก์ และไม่ใช่เพียงลิงก์ Wikipedia-Link เดียว นอกจากนี้ บรรทัดยังจัดเรียงตามจํานวนลิงก์ Wikipedia ทั่วไป (แม้ในกรณีของ Turtle จะไม่สําคัญก็ตาม)
  • ระยะเวลารวม 3 ครั้ง: 2.1 ล้าน
  • อัปเดต: 28 ตุลาคม 2013
  • รูปแบบข้อมูล: N-Triples RDF
  • ใบอนุญาต: CC0
21.2 MB gzip
242.9 MB ไม่บีบอัด

ข้อมูล RDF เป็นอนุกรมโดยใช้รูปแบบ N-Triples ซึ่งเข้ารหัสเป็นข้อความ UTF-8 และบีบอัดด้วย Gzip

RDF
<http://rdf.freebase.com/ns/m.0695j>  <http://www.w3.org/2002/07/owl#sameAs>  <http://www.wikidata.org/entity/Q6718> .
<http://rdf.freebase.com/ns/m.05nrg>  <http://www.w3.org/2002/07/owl#sameAs7>  <http://www.wikidata.org/entity/Q538> .
<http://rdf.freebase.com/ns/m.0jgd>  <http://www.w3.org/2002/07/owl#sameAs>  <http://www.wikidata.org/entity/Q414> .
<http://rdf.freebase.com/ns/m.0d_23>  <http://www.w3.org/2002/07/owl#sameAs>  <http://www.wikidata.org/entity/Q2537> .
<http://rdf.freebase.com/ns/m.04g7d>  <http://www.w3.org/2002/07/owl#sameAs>  <http://www.wikidata.org/entity/Q315> .

ใบอนุญาต

เราให้บริการ Freebase Data Dumps โดยไม่เสียค่าใช้จ่ายใดๆ เพื่อวัตถุประสงค์ใดก็ตามที่มีการอัปเดตเป็นประจําโดย Google เนื้อหาเหล่านี้ได้รับการเผยแพร่อย่างอิสระภายใต้การระบุแหล่งที่มาของครีเอทีฟคอมมอนส์ (หรือที่เรียกว่า CC-BY) และการใช้งานต้องอยู่ภายใต้ข้อกําหนดในการให้บริการ การแมป Freebase/Wikidata ID มีให้ภายใต้ CC0 และสามารถใช้ได้โดยไม่มีข้อจํากัด

อ้างอิง

หากต้องการอ้างถึงดัมพ์ข้อมูลเหล่านี้ในสื่อเผยแพร่ ให้ใช้

Google, Freebase Data Dumps, https://developers.google.com/freebase/data, <month> <day>, <year>

หรือ BibTeX

BibTex
@misc{freebase:datadumps,
  title = "Freebase Data Dumps"
  author = "Google",
  howpublished = "\url{https://developers.google.com/freebase/data}",
  edition = "<month> <day>, <year>",
  year = "<year>"
}