Data Dumps הם גרסה להורדה של הנתונים ב-Freebase. הם מהווים תמונת מצב של הנתונים שמאוחסנים ב-Freebase והסכימה שמבנה אותם, והם מסופקים תחת אותו רישיון CC-BY. המיפויים של Freebase/Wikidata מסופקים בכפוף לרישיון CC0.
טריפלים ב-Freebase
מערך הנתונים הזה מכיל כל עובדה שנמצאת כרגע ב-Freebase. |
|
22GB gzip 250GB לא דחוס |
נתוני ה-RDF עוברים סריאליזציה בפורמט N-Triples, מקודדים כטקסט UTF-8 ודוחסים באמצעות Gzip.
<http://rdf.freebase.com/ns/g.11vjz1ynm> <http://rdf.freebase.com/ns/measurement_unit.dated_percentage.date> "2001-02"^^<http://www.w3.org/2001/XMLSchema#gYearMonth> . <http://rdf.freebase.com/ns/g.11vjz1ynm> <http://rdf.freebase.com/ns/measurement_unit.dated_percentage.source> <http://rdf.freebase.com/ns/g.11x1gf2m6> . <http://rdf.freebase.com/ns/g.11vjz1ynm> <http://rdf.freebase.com/ns/type.object.type> <http://rdf.freebase.com/ns/measurement_unit.dated_percentage> . <http://rdf.freebase.com/ns/g.11vjz1ynm> <http://rdf.freebase.com/ns/measurement_unit.dated_percentage.rate> 4.5 . <http://rdf.freebase.com/ns/g.11vjz1ynm> <http://www.w3.org/1999/02/22-rdf-syntax-ns#type> <http://rdf.freebase.com/ns/measurement_unit.dated_percentage> .
אם אתם כותבים קוד משלכם כדי לנתח את קובצי ה-RDF, בדרך כלל יעיל יותר לקרוא ישירות מקובץ GZip מאשר לחלץ את הנתונים קודם ואז לעבד את הנתונים הלא דחוסים.
<subject> <predicate> <object> .
הערה: ב-Freebase, לאובייקטים יש מזהים (MID) שנראים כך: /m/012rkqx
. ב-RDF, מספרי ה-MID האלה הופכים ל-m.012rkqx. באופן דומה, סכימת Freebase כמו /common/topic
נכתבת כ-common.topic
.
הנושא הוא המזהה של אובייקט Freebase. זה יכול להיות מזהה MID של Freebase (למשל m.012rkqx) לנושאים ול-CVT, או מזהה שניתן לקריאה על ידי בני אדם (למשל common.topic
) לסכימה.
הפרדיקט הוא תמיד מזהה שניתן לקריאה על ידי בני אדם של מאפיין Freebase או מאפיין מאוצר מילים סטנדרטי של RDF כמו RDFS. מרחבי שמות של מפתחות זרים ב-Freebase משמשים גם כפרדיקטים, כדי להקל על חיפוש מפתחות לפי מרחב שמות.
שדה האובייקט עשוי להכיל MID של Freebase לאובייקט או מזהה שניתן לקריאה על ידי בני אדם לסקמה מ-Freebase או מאוצר מילים אחר של RDF. הוא יכול לכלול גם ערכים מילוליים כמו מחרוזות, ערכים בוליאניים וערכים מספריים.
תיאורי הנושאים מכילים לעיתים קרובות שורות חדשות. כדי שכל שלשה תתאים לשורה אחת, השתמשנו בתו בריחה לשורה חדשה '\n'.
Freebase Deleted Triples
אנחנו מספקים גם קובץ dump של טריפלים שנמחקו מ-Freebase לאורך זמן. זוהי פעולה חד-פעמית עד מרץ 2013. יכול להיות שבעתיד נשקול לספק עדכונים תקופתיים של טריפלים שנמחקו לאחרונה, אבל כרגע אין לנו מסגרת זמן ספציפית לעשות זאת, ואנחנו מספקים רק את הנתונים האלה חד-פעמיים.
הגיבוי מופץ כקובץ .tar.gz (2.1GB דחוס, 7.7GB לא דחוס). הוא מכיל 63,036,271 טריפלים שנמחקו ב-20 קבצים (אין משמעות מיוחדת לקבצים עצמם, פשוט קל יותר לעבוד עם כמה קבצים קטנים מאשר עם קובץ אחד גדול).
תודה ל-Chun How Tan ול-John Giannandrea על כך שאפשרו את פרסום הנתונים האלה.
2GB gzip 8GB לא דחוס |
פורמט הנתונים הוא למעשה CSV, אבל יש אזהרה חשובה אחת. שדה האובייקט יכול להכיל כל תו, כולל פסיקים (וגם כל תו אחר להפרדה שניתן לחשוב עליו). עם זאת, מובטח שכל שאר השדות לא יכילו פסיקים, כך שעדיין אפשר לנתח את הנתונים באופן חד-משמעי.
העמודות במערך הנתונים מוגדרות כך:
- creation_timestamp (חותמת זמן של מערכת Unix באלפיות השנייה)
- יוצר
- deletion_timestamp (חותמת זמן של מערכת Unix באלפיות השנייה)
- deletor
- נושא (MID)
- נשוא (MID)
- אובייקט (MID/Literal)
- language_code
1352854086000,/user/mwcl_wikipedia_en,1352855856000,/user/mwcl_wikipedia_en,/m/03r90,/type/object/key,/wikipedia/en/$B816,en 1355171076000,/user/mwcl_musicbrainz,1364258198000,/user/turtlewax_bot,/m/0nncp9z,/music/recording/artist,/m/01vbfm4,en 1176630380000,/user/mwcl_images,1335928144000,/user/gardening_bot,/m/029w57m,/common/image/size,/m/0kly56,en 1292854917000,/user/mwcl_musicbrainz,1364823418001,/user/mbz_pipeline_merge_bot,/m/0fv1vl8,/type/object/type,/common/topic,en 1205530905000,/user/mwcl_images,1336022041000,/user/gardening_bot,/m/01x5scz,/common/licensed_object/license,/m/02x6b,en 1302391361000,/user/content_administrator,1336190973000,/user/gardening_bot,/m/0gkb45y,/type/object/type,/type/content,en 1176728962002,/user/mwcl_images,1335954186000,/user/gardening_bot,/m/08430h,/common/topic/image,/m/02cs147,en 1172002568007,/user/mwcl_chefmoz,1283588560000,/user/delete_bot,/m/01z4c1z,/type/object/name,La Casa Rosa Mexican Restaurant,en
מיפויים של Freebase/Wikidata
הנתונים נוצרו על סמך Wikidata-Dump מ-28 באוקטובר 2013, והם מכילים רק קישורים שיש להם לפחות שני קישורים משותפים לוויקיפדיה ולא קישור אחד בוויקיפדיה ששונה מהם. בנוסף, השורות ממוינות לפי מספר הקישורים המשותפים לוויקיפדיה (אבל ב-Turtle זה לא ממש משנה). |
|
21.2MB gzip 242.9MB ללא דחיסה |
נתוני ה-RDF עוברים סריאליזציה בפורמט N-Triples, מקודדים כטקסט UTF-8 ודוחסים באמצעות Gzip.
<http://rdf.freebase.com/ns/m.0695j> <http://www.w3.org/2002/07/owl#sameAs> <http://www.wikidata.org/entity/Q6718> . <http://rdf.freebase.com/ns/m.05nrg> <http://www.w3.org/2002/07/owl#sameAs7> <http://www.wikidata.org/entity/Q538> . <http://rdf.freebase.com/ns/m.0jgd> <http://www.w3.org/2002/07/owl#sameAs> <http://www.wikidata.org/entity/Q414> . <http://rdf.freebase.com/ns/m.0d_23> <http://www.w3.org/2002/07/owl#sameAs> <http://www.wikidata.org/entity/Q2537> . <http://rdf.freebase.com/ns/m.04g7d> <http://www.w3.org/2002/07/owl#sameAs> <http://www.wikidata.org/entity/Q315> .
רישיון
Google מספקת את קובצי ה-Data Dumps של Freebase בחינם לכל מטרה, עם עדכונים שוטפים. הנתונים מופצים, כמו Freebase עצמו, במסגרת Creative Commons Attribution (הידוע גם כ-CC-BY), והשימוש בהם כפוף לתנאים ולהגבלות. מיפוי המזהים של Freebase/Wikidata מסופק במסגרת CC0 ואפשר להשתמש בו ללא הגבלות.
ציטוט
אם אתם רוצים לצטט את הנתונים האלה בפרסום, אתם יכולים להשתמש בציטוט הבא:
Google, Freebase Data Dumps, https://developers.google.com/freebase/data, <month> <day>, <year>
או כ-BibTeX:
@misc{freebase:datadumps, title = "Freebase Data Dumps" author = "Google", howpublished = "\url{https://developers.google.com/freebase/data}", edition = "<month> <day>, <year>", year = "<year>" }