Dumps של נתונים הם גרסה של הנתונים שניתן להוריד ב-Freebase. הם יוצרים תמונת מצב של הנתונים המאוחסנים ב-Freebase וב-Schema שיוצרים אותם, והם מסופקים במסגרת רישיון CC-BY אחד. המיפויים של Freebase/Wikidata מסופקים במסגרת רישיון CC0.
משולשים בסיסיים
מערך הנתונים הזה מכיל את כל העובדות שנמצאות כרגע ב-Freebase. |
|
22GB gzip 250GB לא דחוס |
הנתונים של RDF טוריים באמצעות פורמט N-Triples, מקודדים כטקסט UTF-8 ודחוסים עם Gzip.
<http://rdf.freebase.com/ns/g.11vjz1ynm> <http://rdf.freebase.com/ns/measurement_unit.dated_percentage.date> "2001-02"^^<http://www.w3.org/2001/XMLSchema#gYearMonth> . <http://rdf.freebase.com/ns/g.11vjz1ynm> <http://rdf.freebase.com/ns/measurement_unit.dated_percentage.source> <http://rdf.freebase.com/ns/g.11x1gf2m6> . <http://rdf.freebase.com/ns/g.11vjz1ynm> <http://rdf.freebase.com/ns/type.object.type> <http://rdf.freebase.com/ns/measurement_unit.dated_percentage> . <http://rdf.freebase.com/ns/g.11vjz1ynm> <http://rdf.freebase.com/ns/measurement_unit.dated_percentage.rate> 4.5 . <http://rdf.freebase.com/ns/g.11vjz1ynm> <http://www.w3.org/1999/02/22-rdf-syntax-ns#type> <http://rdf.freebase.com/ns/measurement_unit.dated_percentage> .
אם אתה כותב קוד משלך כדי לנתח את מספרי ה-RDF, לעתים קרובות יותר יעיל לקרוא אותם ישירות מקובץ ה-GZip במקום לחלץ קודם את הנתונים ולאחר מכן לעבד את הנתונים הלא דחוסים.
<subject> <predicate> <object> .
הערה: ב-Freebase, לאובייקטים יש MID שנראה כך /m/012rkqx
. ב-RDF ה-MIDS האלה הופכים ל-m.012rkqx. בדומה לכך, סכימת Freebase כמו /common/topic
נכתבת בשם common.topic
.
הנושא הוא המזהה של אובייקט Freebase. הוא יכול להיות MID של Freebase (לדוגמה, m.012rkqx) עבור נושאים ו-CVT, או מזהה קריא (לבני אדם). common.topic
) עבור הסכימה.
הפרדיקה היא תמיד מזהה קריא (לבני אדם) עבור נכס Freebase, או נכס מאוצר מילים רגיל של RDF, כמו RDFS. מרחבי שמות של מפתחות זרים מסוג Freebase משמשים גם כחיזויים כדי שיהיה קל יותר לחפש מפתחות לפי מרחב שמות.
שדה האובייקט יכול להכיל MID של Freebase לאובייקט או מזהה קריא (לבני אדם) של סכימה מ-Freebase או מאוצרות אחרים של RDF. הוא יכול לכלול גם ערכים מילוליים, כמו מחרוזות, בוליאני וערכים מספריים.
תיאורים של נושאים מכילים לעיתים קרובות שורות חדשות. כדי להתאים כל משולש לשורה אחת, השתמשנו בתו בריחה (escape) בשורות "\n".
משולשים שנמחקו במסגרת Freebase
בנוסף, אנחנו מספקים Dump של משולשים שנמחקו מ-Freebase עם הזמן. זוהי העתקה חד-פעמית עד מרץ 2013. בעתיד ייתכן שנשקול לספק עדכונים תקופתיים של משולשים שנמחקו לאחרונה, אבל בשלב זה אין לנו מסגרת זמן ספציפית לכך, ואנחנו מספקים את הזריקה החד-פעמית הזו בלבד.
קובץ ה-Dump מופץ כקובץ .tar.gz (2.1Gb דחוס, 7.7Gb לא דחוס). הקובץ מכיל 63,036,271 שלשות שנמחקו ב-20 קבצים (אין חשיבות ספציפית לקבצים הנפרדים, פשוט קל יותר לתמרן כמה קבצים קטנים יותר מקובץ ענק אחד).
תודה צ'ון איך טאן וג'ון ג'ינדנדר איפשרו את הפצת הנתונים הזאת.
דחוס ב- GB 2 8GB |
פורמט הנתונים הוא למעשה CSV עם אזהרה חשובה אחת. השדה אובייקט יכול להכיל כל תו, כולל פסיקים (וכל מפריד סביר אחר שאתם חושבים עליו). עם זאת, כל שאר השדות מובטחים שלא יכילו פסיקים, כך שעדיין ניתן לנתח את הנתונים באופן שאינו מובן.
העמודות במערך הנתונים מוגדרות כך:
- היצירה_חותמת זמן (זמן תקופה של Unix באלפיות שנייה)
- יוצר/ת
- מחיקה_חותמת זמן (זמן מערכת של Unix באלפיות שנייה)
- Deletor
- נושא (MID)
- Predicate (MID)
- אובייקט (אמצעי/ליטרל)
- קוד_שפה
1352854086000,/user/mwcl_wikipedia_en,1352855856000,/user/mwcl_wikipedia_en,/m/03r90,/type/object/key,/wikipedia/en/$B816,en 1355171076000,/user/mwcl_musicbrainz,1364258198000,/user/turtlewax_bot,/m/0nncp9z,/music/recording/artist,/m/01vbfm4,en 1176630380000,/user/mwcl_images,1335928144000,/user/gardening_bot,/m/029w57m,/common/image/size,/m/0kly56,en 1292854917000,/user/mwcl_musicbrainz,1364823418001,/user/mbz_pipeline_merge_bot,/m/0fv1vl8,/type/object/type,/common/topic,en 1205530905000,/user/mwcl_images,1336022041000,/user/gardening_bot,/m/01x5scz,/common/licensed_object/license,/m/02x6b,en 1302391361000,/user/content_administrator,1336190973000,/user/gardening_bot,/m/0gkb45y,/type/object/type,/type/content,en 1176728962002,/user/mwcl_images,1335954186000,/user/gardening_bot,/m/08430h,/common/topic/image,/m/02cs147,en 1172002568007,/user/mwcl_chefmoz,1283588560000,/user/delete_bot,/m/01z4c1z,/type/object/name,La Casa Rosa Mexican Restaurant,en
מיפוי Wibasedata/Wikidata
הנתונים נוצרו על סמך Wikidata-Dump של 28 באוקטובר 2013, ומכילים רק את הקישורים שמכילים לפחות שני קישורי וויקיפדיה משותפים, ולא קישור יחיד של וויקיפדיה. בנוסף, הקווים ממוינים לפי מספר הקישורים הנפוצים מסוג וויקיפדיה (אבל לצבים זה לא ממש משנה). |
|
21.2MB gzip 242.9 MB לא דחוס |
הנתונים של RDF טוריים באמצעות פורמט N-Triples, מקודדים כטקסט UTF-8 ודחוסים עם Gzip.
<http://rdf.freebase.com/ns/m.0695j> <http://www.w3.org/2002/07/owl#sameAs> <http://www.wikidata.org/entity/Q6718> . <http://rdf.freebase.com/ns/m.05nrg> <http://www.w3.org/2002/07/owl#sameAs7> <http://www.wikidata.org/entity/Q538> . <http://rdf.freebase.com/ns/m.0jgd> <http://www.w3.org/2002/07/owl#sameAs> <http://www.wikidata.org/entity/Q414> . <http://rdf.freebase.com/ns/m.0d_23> <http://www.w3.org/2002/07/owl#sameAs> <http://www.wikidata.org/entity/Q2537> . <http://rdf.freebase.com/ns/m.04g7d> <http://www.w3.org/2002/07/owl#sameAs> <http://www.wikidata.org/entity/Q315> .
רישיון
Dump של נתוני Freebase ניתן ללא תשלום לכל מטרה עם עדכונים שוטפים של Google. ההפצה מופצת, כמו Freebase עצמה, במסגרת Attribution של Creative Commons (נקרא גם CC-BY) והשימוש בו כפוף לתנאים ולהגבלות. המיפויים של Freebase/Wikidata ID מסופקים במסגרת CC0 וניתן להשתמש בהם ללא הגבלות.
ציטוט
אם רוצים לצטט את קובצי ה-Dump האלה של הנתונים באתר חדשות, אפשר להשתמש:
Google, Freebase Data Dumps, https://developers.google.com/freebase/data, <month> <day>, <year>
או בתור BibTeX:
@misc{freebase:datadumps, title = "Freebase Data Dumps" author = "Google", howpublished = "\url{https://developers.google.com/freebase/data}", edition = "<month> <day>, <year>", year = "<year>" }