קובץ Dump של הנתונים

‫Data Dumps הם גרסה להורדה של הנתונים ב-Freebase. הם מהווים תמונת מצב של הנתונים שמאוחסנים ב-Freebase והסכימה שמבנה אותם, והם מסופקים תחת אותו רישיון CC-BY. המיפויים של Freebase/Wikidata מסופקים בכפוף לרישיון CC0.

  1. Freebase Triples
  2. Freebase Deleted Triples
  3. מיפויים של Freebase/Wikidata
  4. רישיון
  5. Citing

טריפלים ב-Freebase

מערך הנתונים הזה מכיל כל עובדה שנמצאת כרגע ב-Freebase.
  • סה"כ טריפלים: 1.9 מיליארד
  • עדכון: שבועי
  • פורמט הנתונים: N-Triples RDF
  • רישיון: CC-BY
22GB gzip
250GB לא דחוס

נתוני ה-RDF עוברים סריאליזציה בפורמט N-Triples, מקודדים כטקסט UTF-8 ודוחסים באמצעות Gzip.

RDF
<http://rdf.freebase.com/ns/g.11vjz1ynm> <http://rdf.freebase.com/ns/measurement_unit.dated_percentage.date> "2001-02"^^<http://www.w3.org/2001/XMLSchema#gYearMonth>  .
<http://rdf.freebase.com/ns/g.11vjz1ynm>  <http://rdf.freebase.com/ns/measurement_unit.dated_percentage.source> <http://rdf.freebase.com/ns/g.11x1gf2m6>  .
<http://rdf.freebase.com/ns/g.11vjz1ynm>  <http://rdf.freebase.com/ns/type.object.type> <http://rdf.freebase.com/ns/measurement_unit.dated_percentage>  .
<http://rdf.freebase.com/ns/g.11vjz1ynm>  <http://rdf.freebase.com/ns/measurement_unit.dated_percentage.rate> 4.5 .
<http://rdf.freebase.com/ns/g.11vjz1ynm>  <http://www.w3.org/1999/02/22-rdf-syntax-ns#type> <http://rdf.freebase.com/ns/measurement_unit.dated_percentage>  .

אם אתם כותבים קוד משלכם כדי לנתח את קובצי ה-RDF, בדרך כלל יעיל יותר לקרוא ישירות מקובץ GZip מאשר לחלץ את הנתונים קודם ואז לעבד את הנתונים הלא דחוסים.

<subject>  <predicate>  <object> .

הערה: ב-Freebase, לאובייקטים יש מזהים (MID) שנראים כך: /m/012rkqx. ב-RDF, מספרי ה-MID האלה הופכים ל-m.012rkqx. באופן דומה, סכימת Freebase כמו /common/topic נכתבת כ-common.topic.

הנושא הוא המזהה של אובייקט Freebase. זה יכול להיות מזהה MID של Freebase (למשל m.012rkqx) לנושאים ול-CVT, או מזהה שניתן לקריאה על ידי בני אדם (למשל common.topic) לסכימה.

הפרדיקט הוא תמיד מזהה שניתן לקריאה על ידי בני אדם של מאפיין Freebase או מאפיין מאוצר מילים סטנדרטי של RDF כמו RDFS. מרחבי שמות של מפתחות זרים ב-Freebase משמשים גם כפרדיקטים, כדי להקל על חיפוש מפתחות לפי מרחב שמות.

שדה האובייקט עשוי להכיל MID של Freebase לאובייקט או מזהה שניתן לקריאה על ידי בני אדם לסקמה מ-Freebase או מאוצר מילים אחר של RDF. הוא יכול לכלול גם ערכים מילוליים כמו מחרוזות, ערכים בוליאניים וערכים מספריים.

תיאורי הנושאים מכילים לעיתים קרובות שורות חדשות. כדי שכל שלשה תתאים לשורה אחת, השתמשנו בתו בריחה לשורה חדשה '\n'.

Freebase Deleted Triples

אנחנו מספקים גם קובץ dump של טריפלים שנמחקו מ-Freebase לאורך זמן. זוהי פעולה חד-פעמית עד מרץ 2013. יכול להיות שבעתיד נשקול לספק עדכונים תקופתיים של טריפלים שנמחקו לאחרונה, אבל כרגע אין לנו מסגרת זמן ספציפית לעשות זאת, ואנחנו מספקים רק את הנתונים האלה חד-פעמיים.

הגיבוי מופץ כקובץ ‎ .tar.gz (2.1GB דחוס, 7.7GB לא דחוס). הוא מכיל 63,036,271 טריפלים שנמחקו ב-20 קבצים (אין משמעות מיוחדת לקבצים עצמם, פשוט קל יותר לעבוד עם כמה קבצים קטנים מאשר עם קובץ אחד גדול).

תודה ל-Chun How Tan ול-John Giannandrea על כך שאפשרו את פרסום הנתונים האלה.

  • סה"כ משקי בית עם 3 מכשירים: 63 מיליון
  • עדכון אחרון: 9 ביוני 2013
  • פורמט הנתונים: CSV
  • רישיון: CC-BY
2GB gzip
8GB לא דחוס

פורמט הנתונים הוא למעשה CSV, אבל יש אזהרה חשובה אחת. שדה האובייקט יכול להכיל כל תו, כולל פסיקים (וגם כל תו אחר להפרדה שניתן לחשוב עליו). עם זאת, מובטח שכל שאר השדות לא יכילו פסיקים, כך שעדיין אפשר לנתח את הנתונים באופן חד-משמעי.

העמודות במערך הנתונים מוגדרות כך:

  • creation_timestamp (חותמת זמן של מערכת Unix באלפיות השנייה)
  • יוצר
  • deletion_timestamp (חותמת זמן של מערכת Unix באלפיות השנייה)
  • deletor
  • נושא (MID)
  • נשוא (MID)
  • אובייקט (MID/Literal)
  • language_code
CSV
1352854086000,/user/mwcl_wikipedia_en,1352855856000,/user/mwcl_wikipedia_en,/m/03r90,/type/object/key,/wikipedia/en/$B816,en
1355171076000,/user/mwcl_musicbrainz,1364258198000,/user/turtlewax_bot,/m/0nncp9z,/music/recording/artist,/m/01vbfm4,en
1176630380000,/user/mwcl_images,1335928144000,/user/gardening_bot,/m/029w57m,/common/image/size,/m/0kly56,en
1292854917000,/user/mwcl_musicbrainz,1364823418001,/user/mbz_pipeline_merge_bot,/m/0fv1vl8,/type/object/type,/common/topic,en
1205530905000,/user/mwcl_images,1336022041000,/user/gardening_bot,/m/01x5scz,/common/licensed_object/license,/m/02x6b,en
1302391361000,/user/content_administrator,1336190973000,/user/gardening_bot,/m/0gkb45y,/type/object/type,/type/content,en
1176728962002,/user/mwcl_images,1335954186000,/user/gardening_bot,/m/08430h,/common/topic/image,/m/02cs147,en
1172002568007,/user/mwcl_chefmoz,1283588560000,/user/delete_bot,/m/01z4c1z,/type/object/name,La Casa Rosa Mexican Restaurant,en

מיפויים של Freebase/Wikidata

הנתונים נוצרו על סמך Wikidata-Dump מ-28 באוקטובר 2013, והם מכילים רק קישורים שיש להם לפחות שני קישורים משותפים לוויקיפדיה ולא קישור אחד בוויקיפדיה ששונה מהם. בנוסף, השורות ממוינות לפי מספר הקישורים המשותפים לוויקיפדיה (אבל ב-Turtle זה לא ממש משנה).
  • סה"כ טריפלים: 2.1 מיליון
  • עדכון אחרון: 28 באוקטובר 2013
  • פורמט הנתונים: N-Triples RDF
  • רישיון: CC0
21.2MB gzip
242.9MB ללא דחיסה

נתוני ה-RDF עוברים סריאליזציה בפורמט N-Triples, מקודדים כטקסט UTF-8 ודוחסים באמצעות Gzip.

RDF
<http://rdf.freebase.com/ns/m.0695j>  <http://www.w3.org/2002/07/owl#sameAs>  <http://www.wikidata.org/entity/Q6718> .
<http://rdf.freebase.com/ns/m.05nrg>  <http://www.w3.org/2002/07/owl#sameAs7>  <http://www.wikidata.org/entity/Q538> .
<http://rdf.freebase.com/ns/m.0jgd>  <http://www.w3.org/2002/07/owl#sameAs>  <http://www.wikidata.org/entity/Q414> .
<http://rdf.freebase.com/ns/m.0d_23>  <http://www.w3.org/2002/07/owl#sameAs>  <http://www.wikidata.org/entity/Q2537> .
<http://rdf.freebase.com/ns/m.04g7d>  <http://www.w3.org/2002/07/owl#sameAs>  <http://www.wikidata.org/entity/Q315> .

רישיון

‫Google מספקת את קובצי ה-Data Dumps של Freebase בחינם לכל מטרה, עם עדכונים שוטפים. הנתונים מופצים, כמו Freebase עצמו, במסגרת Creative Commons Attribution (הידוע גם כ-CC-BY), והשימוש בהם כפוף לתנאים ולהגבלות. מיפוי המזהים של Freebase/Wikidata מסופק במסגרת CC0 ואפשר להשתמש בו ללא הגבלות.

ציטוט

אם אתם רוצים לצטט את הנתונים האלה בפרסום, אתם יכולים להשתמש בציטוט הבא:

Google, Freebase Data Dumps, https://developers.google.com/freebase/data, <month> <day>, <year>

או כ-BibTeX:

BibTex
@misc{freebase:datadumps,
  title = "Freebase Data Dumps"
  author = "Google",
  howpublished = "\url{https://developers.google.com/freebase/data}",
  edition = "<month> <day>, <year>",
  year = "<year>"
}