Data Dump เป็นข้อมูลใน Freebase เวอร์ชันที่ดาวน์โหลดได้ โดยเป็นสแนปชอตของข้อมูลที่จัดเก็บไว้ใน Freebase และสคีมาที่จัดโครงสร้างข้อมูลดังกล่าว และมีให้ใช้งานภายใต้สัญญาอนุญาต CC-BY เดียวกัน การแมป Freebase/Wikidata มีให้ใช้งานภายใต้สัญญาอนุญาต CC0
ทริปเปิล Freebase
ชุดข้อมูลนี้มีข้อเท็จจริงทั้งหมดที่อยู่ใน Freebase ในปัจจุบัน |
|
22 GB gzip 250 GB ไม่บีบอัด |
ระบบจะแปลงข้อมูล RDF เป็นอนุกรมโดยใช้รูปแบบ N-Triples เข้ารหัสเป็นข้อความ UTF-8 และบีบอัดด้วย Gzip
<http://rdf.freebase.com/ns/g.11vjz1ynm> <http://rdf.freebase.com/ns/measurement_unit.dated_percentage.date> "2001-02"^^<http://www.w3.org/2001/XMLSchema#gYearMonth> . <http://rdf.freebase.com/ns/g.11vjz1ynm> <http://rdf.freebase.com/ns/measurement_unit.dated_percentage.source> <http://rdf.freebase.com/ns/g.11x1gf2m6> . <http://rdf.freebase.com/ns/g.11vjz1ynm> <http://rdf.freebase.com/ns/type.object.type> <http://rdf.freebase.com/ns/measurement_unit.dated_percentage> . <http://rdf.freebase.com/ns/g.11vjz1ynm> <http://rdf.freebase.com/ns/measurement_unit.dated_percentage.rate> 4.5 . <http://rdf.freebase.com/ns/g.11vjz1ynm> <http://www.w3.org/1999/02/22-rdf-syntax-ns#type> <http://rdf.freebase.com/ns/measurement_unit.dated_percentage> .
หากคุณเขียนโค้ดของคุณเองเพื่อแยกวิเคราะห์การทิ้งข้อมูล RDF การอ่านจากไฟล์ GZip โดยตรงมักจะมีประสิทธิภาพมากกว่าการแยกข้อมูลก่อนแล้วจึงประมวลผลข้อมูลที่ไม่ได้บีบอัด
<subject> <predicate> <object> .
หมายเหตุ: ใน Freebase ออบเจ็กต์จะมี MID ที่มีลักษณะคล้าย /m/012rkqx
ใน RDF รหัส MID เหล่านั้นจะกลายเป็น m.012rkqx ในทำนองเดียวกัน สคีมา Freebase เช่น /common/topic
จะเขียนเป็น common.topic
เรื่องคือรหัสของออบเจ็กต์ Freebase โดยอาจเป็น MID ของ Freebase (เช่น m.012rkqx) สำหรับหัวข้อและ CVT หรือรหัสที่มนุษย์อ่านได้ (เช่น common.topic
) สำหรับสคีมา
เพรดิเคตจะเป็นรหัสที่มนุษย์อ่านได้เสมอสำหรับพร็อพเพอร์ตี้ Freebase หรือพร็อพเพอร์ตี้จากคำศัพท์ RDF มาตรฐาน เช่น RDFS นอกจากนี้ ระบบยังใช้เนมสเปซคีย์นอกของ Freebase เป็นภาคแสดงเพื่อให้ค้นหาคีย์ตามเนมสเปซได้ง่ายขึ้นด้วย
ฟิลด์ออบเจ็กต์อาจมี MID ของ Freebase สำหรับออบเจ็กต์หรือรหัสที่มนุษย์อ่านได้สำหรับสคีมาจาก Freebase หรือคำศัพท์ RDF อื่นๆ นอกจากนี้ยังอาจรวมถึงค่าลิเทอรัล เช่น สตริง ค่าบูลีน และค่าตัวเลข
คำอธิบายหัวข้อมักมีการขึ้นบรรทัดใหม่ เราได้หลีกเลี่ยงการขึ้นบรรทัดใหม่ด้วย "\n" เพื่อให้แต่ละทริปเปิลพอดีกับ 1 บรรทัด
Freebase Deleted Triples
นอกจากนี้ เรายังจัดเตรียมข้อมูลที่ดัมพ์ของทริปเปิลที่ถูกลบออกจาก Freebase เมื่อเวลาผ่านไป นี่เป็นการส่งออกข้อมูลแบบครั้งเดียวจนถึงเดือนมีนาคม 2013 ในอนาคต เราอาจพิจารณาให้ข้อมูลอัปเดตเป็นระยะเกี่ยวกับทริปเปิลที่เพิ่งลบไป แต่ในขณะนี้เรายังไม่มีกรอบเวลาที่เฉพาะเจาะจงในการดำเนินการดังกล่าว และจะให้ข้อมูลที่ส่งออกแบบครั้งเดียวนี้เท่านั้น
โดยจะเผยแพร่การดัมพ์เป็นไฟล์ .tar.gz (บีบอัดแล้ว 2.1 GB, ไม่ได้บีบอัด 7.7 GB) โดยมีทริปเปิลที่ถูกลบไปแล้ว 63,036,271 รายการใน 20 ไฟล์ (ไฟล์แต่ละไฟล์ไม่มีความหมายเฉพาะเจาะจง เพียงแต่การจัดการไฟล์ขนาดเล็กหลายๆ ไฟล์จะง่ายกว่าการจัดการไฟล์ขนาดใหญ่เพียงไฟล์เดียว)
ขอขอบคุณ Chun How Tan และ John Giannandrea ที่ทำให้การเผยแพร่ข้อมูลนี้เป็นไปได้
2 GB gzip 8 GB ไม่บีบอัด |
รูปแบบข้อมูลคือ CSV โดยมีข้อควรระวังที่สำคัญประการหนึ่ง ฟิลด์ออบเจ็กต์อาจมีอักขระใดก็ได้ รวมถึงคอมมา (รวมถึงตัวคั่นอื่นๆ ที่เหมาะสมที่คุณคิดได้) อย่างไรก็ตาม เราขอรับประกันว่าช่องอื่นๆ ทั้งหมดจะไม่มีคอมมา ดังนั้นจึงยังคงแยกวิเคราะห์ข้อมูลได้อย่างชัดเจน
คอลัมน์ในชุดข้อมูลมีการกำหนดดังนี้
- creation_timestamp (เวลา Unix Epoch ในหน่วยมิลลิวินาที)
- ครีเอเตอร์
- deletion_timestamp (เวลา Unix Epoch ในหน่วยมิลลิวินาที)
- ผู้ลบ
- เรื่อง (MID)
- Predicate (MID)
- ออบเจ็กต์ (MID/Literal)
- language_code
1352854086000,/user/mwcl_wikipedia_en,1352855856000,/user/mwcl_wikipedia_en,/m/03r90,/type/object/key,/wikipedia/en/$B816,en 1355171076000,/user/mwcl_musicbrainz,1364258198000,/user/turtlewax_bot,/m/0nncp9z,/music/recording/artist,/m/01vbfm4,en 1176630380000,/user/mwcl_images,1335928144000,/user/gardening_bot,/m/029w57m,/common/image/size,/m/0kly56,en 1292854917000,/user/mwcl_musicbrainz,1364823418001,/user/mbz_pipeline_merge_bot,/m/0fv1vl8,/type/object/type,/common/topic,en 1205530905000,/user/mwcl_images,1336022041000,/user/gardening_bot,/m/01x5scz,/common/licensed_object/license,/m/02x6b,en 1302391361000,/user/content_administrator,1336190973000,/user/gardening_bot,/m/0gkb45y,/type/object/type,/type/content,en 1176728962002,/user/mwcl_images,1335954186000,/user/gardening_bot,/m/08430h,/common/topic/image,/m/02cs147,en 1172002568007,/user/mwcl_chefmoz,1283588560000,/user/delete_bot,/m/01z4c1z,/type/object/name,La Casa Rosa Mexican Restaurant,en
การแมป Freebase/Wikidata
ข้อมูลนี้สร้างขึ้นจากไฟล์ที่ดัมพ์จาก Wikidata เมื่อวันที่ 28 ตุลาคม 2013 และมีเฉพาะลิงก์ที่มีลิงก์ Wikipedia ทั่วไปอย่างน้อย 2 ลิงก์ และไม่มีลิงก์ Wikipedia ที่ไม่เห็นด้วย นอกจากนี้ บรรทัดจะเรียงตามจำนวนลิงก์ Wikipedia ที่ใช้ร่วมกัน (แม้ว่าใน Turtle จะไม่สำคัญนัก) |
|
21.2 MB gzip 242.9 MB ไม่บีบอัด |
ระบบจะแปลงข้อมูล RDF เป็นอนุกรมโดยใช้รูปแบบ N-Triples เข้ารหัสเป็นข้อความ UTF-8 และบีบอัดด้วย Gzip
<http://rdf.freebase.com/ns/m.0695j> <http://www.w3.org/2002/07/owl#sameAs> <http://www.wikidata.org/entity/Q6718> . <http://rdf.freebase.com/ns/m.05nrg> <http://www.w3.org/2002/07/owl#sameAs7> <http://www.wikidata.org/entity/Q538> . <http://rdf.freebase.com/ns/m.0jgd> <http://www.w3.org/2002/07/owl#sameAs> <http://www.wikidata.org/entity/Q414> . <http://rdf.freebase.com/ns/m.0d_23> <http://www.w3.org/2002/07/owl#sameAs> <http://www.wikidata.org/entity/Q2537> . <http://rdf.freebase.com/ns/m.04g7d> <http://www.w3.org/2002/07/owl#sameAs> <http://www.wikidata.org/entity/Q315> .
ใบอนุญาต
Google จะอัปเดตการส่งออกข้อมูล Freebase เป็นประจำและให้บริการโดยไม่มีค่าใช้จ่ายสำหรับทุกวัตถุประสงค์ โดยจะเผยแพร่ภายใต้สัญญาอนุญาตครีเอทีฟคอมมอนส์แบบแสดงที่มา (หรือ CC-BY) เช่นเดียวกับ Freebase และการใช้งานจะขึ้นอยู่กับข้อกำหนดในการให้บริการ การแมปรหัส Freebase/Wikidata มีให้ใช้งานภายใต้ CC0 และสามารถใช้ได้โดยไม่มีข้อจำกัด
การอ้างอิง
หากต้องการอ้างอิงการดัมพ์ข้อมูลเหล่านี้ในสิ่งพิมพ์ คุณสามารถใช้ข้อมูลต่อไปนี้
Google, Freebase Data Dumps, https://developers.google.com/freebase/data, <month> <day>, <year>
หรือในรูปแบบ BibTeX
@misc{freebase:datadumps, title = "Freebase Data Dumps" author = "Google", howpublished = "\url{https://developers.google.com/freebase/data}", edition = "<month> <day>, <year>", year = "<year>" }