ดัมพ์ข้อมูลเป็นเวอร์ชันฟรีที่ดาวน์โหลดได้ใน Freebase ชุดข้อมูลดังกล่าวประกอบขึ้นเป็นภาพรวมของข้อมูลที่อยู่ใน Freebase และสคีมาที่มีโครงสร้างข้อมูลนั้น และอยู่ภายใต้ใบอนุญาต CC-BY เดียวกัน การแมป Freebase/Wikidata อยู่ภายใต้ใบอนุญาต CC0
ทริปเบส 3 ครั้ง
ชุดข้อมูลนี้ประกอบด้วยทุกข้อเท็จจริงที่อยู่ใน Freebase ในปัจจุบัน |
|
22 GB gzip 250 GB ไม่บีบอัด |
ข้อมูล RDF เป็นอนุกรมโดยใช้รูปแบบ N-Triples ซึ่งเข้ารหัสเป็นข้อความ UTF-8 และบีบอัดด้วย Gzip
<http://rdf.freebase.com/ns/g.11vjz1ynm> <http://rdf.freebase.com/ns/measurement_unit.dated_percentage.date> "2001-02"^^<http://www.w3.org/2001/XMLSchema#gYearMonth> . <http://rdf.freebase.com/ns/g.11vjz1ynm> <http://rdf.freebase.com/ns/measurement_unit.dated_percentage.source> <http://rdf.freebase.com/ns/g.11x1gf2m6> . <http://rdf.freebase.com/ns/g.11vjz1ynm> <http://rdf.freebase.com/ns/type.object.type> <http://rdf.freebase.com/ns/measurement_unit.dated_percentage> . <http://rdf.freebase.com/ns/g.11vjz1ynm> <http://rdf.freebase.com/ns/measurement_unit.dated_percentage.rate> 4.5 . <http://rdf.freebase.com/ns/g.11vjz1ynm> <http://www.w3.org/1999/02/22-rdf-syntax-ns#type> <http://rdf.freebase.com/ns/measurement_unit.dated_percentage> .
หากคุณเขียนโค้ดของตนเองเพื่อแยกวิเคราะห์ RDF บ่อยครั้ง การอ่านจากไฟล์ GZip โดยตรงจะมีประสิทธิภาพมากกว่าที่จะต้องแยกข้อมูลก่อน จากนั้นจึงประมวลผลข้อมูลที่ไม่ได้บีบอัด
<subject> <predicate> <object> .
หมายเหตุ: ใน Freebase ออบเจ็กต์จะมี MID ที่มีลักษณะเป็น /m/012rkqx
ใน RDF นั้น MID จะกลายเป็น m.012rkqx ในทํานองเดียวกัน สคีมาของ Freebase เช่น /common/topic
จะเขียนเป็น common.topic
หัวเรื่อง คือรหัสของออบเจ็กต์ Freebase อาจเป็น Freebase MID (เช่น m.012rkqx) สําหรับหัวข้อและ CVT หรือรหัสที่มนุษย์อ่านได้ (เช่น common.topic
) สําหรับสคีมา
เพรดิเคตคือรหัสที่มนุษย์อ่านได้อิสระเสมอสําหรับพร็อพเพอร์ตี้ Freebase หรือพร็อพเพอร์ตี้จากคําศัพท์ RDF มาตรฐานอย่าง RDFS นอกจากนี้เนมสเปซของคีย์นอกของ Freebase ยังใช้เป็นคําบ่งชี้เพื่อให้ค้นหาคีย์ตามเนมสเปซได้ง่ายขึ้นด้วย
ช่องออบเจ็กต์อาจมี MID ของ Freebase สําหรับออบเจ็กต์หรือรหัสที่มนุษย์อ่านได้สําหรับสคีมาจาก Freebase หรือคําศัพท์ RDF อื่นๆ และอาจรวมถึงค่าลิเทอรัล เช่น สตริง บูลีน และค่าตัวเลข
คําอธิบายหัวข้อมักมีบรรทัดใหม่ เราใช้ Escape กับบรรทัดใหม่ที่ชื่อ "\n" เพื่อให้พอดีกับแต่ละบรรทัด 3 บรรทัด
ลบสามรายการด้วย Freebase
นอกจากนี้ เรายังบันทึกข้อมูล 3 อย่างที่ถูกลบออกจาก Freebase ไปแล้วด้วย นี่เป็นการถ่ายโอนข้อมูลเพียงครั้งเดียวในเดือนมีนาคม 2013 ในอนาคต เราอาจพิจารณาทําการอัปเดตเป็นระยะๆ เพื่อเพิ่มทริปที่เพิ่งถูกลบไป 3 รอบ แต่ในขณะนี้เรายังไม่มีกรอบเวลาที่แน่นอนในการดําเนินการดังกล่าว และให้เพียงการถ่ายโอนข้อมูลเพียงครั้งเดียวเท่านั้น
ไฟล์ดัมพ์จะกระจายเป็นไฟล์ .tar.gz (บีบอัด 2.1Gb, ไม่ได้บีบอัด 7.7Gb) ซึ่งประกอบด้วย 33,036,271 จํานวน 33,036,271 ไฟล์ที่ลบในไฟล์ 20 ไฟล์ (ไม่ได้หมายความว่าไฟล์ใดไฟล์หนึ่งไม่ได้จะหมายความว่าไฟล์เล็กๆ ไฟล์เดียวก็ง่ายกว่าไฟล์ขนาดใหญ่เพียงไฟล์เดียว)
ขอขอบคุณ Chun How Tan และ John Giannandrea ในการเผยแพร่ข้อมูลนี้
2 GB gzip 8 GB ไม่บีบอัด |
รูปแบบข้อมูลก็คือ CSV ซึ่งมีคําแนะนําที่สําคัญ 1 ข้อ ช่องออบเจ็กต์อาจมีอักขระต่างๆ รวมถึงเครื่องหมายจุลภาค (รวมถึงตัวคั่นอื่นๆ ที่เหมาะสมซึ่งคุณนึกออก) อย่างไรก็ตาม ช่องอื่นๆ ที่เหลือไม่มีการใส่เครื่องหมายจุลภาคเพื่อรับประกันว่าข้อมูลจะยังคงถูกแยกวิเคราะห์อย่างชัดเจน
คอลัมน์ในชุดข้อมูลจะมีคําจํากัดความดังนี้
- create_timestamp (เวลา Unix Epoch ในหน่วยมิลลิวินาที)
- ผู้สร้าง
- delete_timestamp (เวลา Unix Epoch ในหน่วยมิลลิวินาที)
- Deletor
- หัวเรื่อง (MID)
- คํากริยา (MID)
- วัตถุ (MID/ลิเทอรัล)
- รหัสภาษา
1352854086000,/user/mwcl_wikipedia_en,1352855856000,/user/mwcl_wikipedia_en,/m/03r90,/type/object/key,/wikipedia/en/$B816,en 1355171076000,/user/mwcl_musicbrainz,1364258198000,/user/turtlewax_bot,/m/0nncp9z,/music/recording/artist,/m/01vbfm4,en 1176630380000,/user/mwcl_images,1335928144000,/user/gardening_bot,/m/029w57m,/common/image/size,/m/0kly56,en 1292854917000,/user/mwcl_musicbrainz,1364823418001,/user/mbz_pipeline_merge_bot,/m/0fv1vl8,/type/object/type,/common/topic,en 1205530905000,/user/mwcl_images,1336022041000,/user/gardening_bot,/m/01x5scz,/common/licensed_object/license,/m/02x6b,en 1302391361000,/user/content_administrator,1336190973000,/user/gardening_bot,/m/0gkb45y,/type/object/type,/type/content,en 1176728962002,/user/mwcl_images,1335954186000,/user/gardening_bot,/m/08430h,/common/topic/image,/m/02cs147,en 1172002568007,/user/mwcl_chefmoz,1283588560000,/user/delete_bot,/m/01z4c1z,/type/object/name,La Casa Rosa Mexican Restaurant,en
การแมป Freebase/Wikidata
ข้อมูลดังกล่าวสร้างขึ้นตามข้อมูลจาก Wikidata-Dump เมื่อวันที่ 28 ตุลาคม 2013 และมีเฉพาะลิงก์เหล่านั้นที่มีลิงก์ Wikipedia - ลิงก์อย่างน้อยสองลิงก์ และไม่ใช่เพียงลิงก์ Wikipedia-Link เดียว นอกจากนี้ บรรทัดยังจัดเรียงตามจํานวนลิงก์ Wikipedia ทั่วไป (แม้ในกรณีของ Turtle จะไม่สําคัญก็ตาม) |
|
21.2 MB gzip 242.9 MB ไม่บีบอัด |
ข้อมูล RDF เป็นอนุกรมโดยใช้รูปแบบ N-Triples ซึ่งเข้ารหัสเป็นข้อความ UTF-8 และบีบอัดด้วย Gzip
<http://rdf.freebase.com/ns/m.0695j> <http://www.w3.org/2002/07/owl#sameAs> <http://www.wikidata.org/entity/Q6718> . <http://rdf.freebase.com/ns/m.05nrg> <http://www.w3.org/2002/07/owl#sameAs7> <http://www.wikidata.org/entity/Q538> . <http://rdf.freebase.com/ns/m.0jgd> <http://www.w3.org/2002/07/owl#sameAs> <http://www.wikidata.org/entity/Q414> . <http://rdf.freebase.com/ns/m.0d_23> <http://www.w3.org/2002/07/owl#sameAs> <http://www.wikidata.org/entity/Q2537> . <http://rdf.freebase.com/ns/m.04g7d> <http://www.w3.org/2002/07/owl#sameAs> <http://www.wikidata.org/entity/Q315> .
ใบอนุญาต
เราให้บริการ Freebase Data Dumps โดยไม่เสียค่าใช้จ่ายใดๆ เพื่อวัตถุประสงค์ใดก็ตามที่มีการอัปเดตเป็นประจําโดย Google เนื้อหาเหล่านี้ได้รับการเผยแพร่อย่างอิสระภายใต้การระบุแหล่งที่มาของครีเอทีฟคอมมอนส์ (หรือที่เรียกว่า CC-BY) และการใช้งานต้องอยู่ภายใต้ข้อกําหนดในการให้บริการ การแมป Freebase/Wikidata ID มีให้ภายใต้ CC0 และสามารถใช้ได้โดยไม่มีข้อจํากัด
อ้างอิง
หากต้องการอ้างถึงดัมพ์ข้อมูลเหล่านี้ในสื่อเผยแพร่ ให้ใช้
Google, Freebase Data Dumps, https://developers.google.com/freebase/data, <month> <day>, <year>
หรือ BibTeX
@misc{freebase:datadumps, title = "Freebase Data Dumps" author = "Google", howpublished = "\url{https://developers.google.com/freebase/data}", edition = "<month> <day>, <year>", year = "<year>" }