קובץ Dump של הנתונים

Dumps של נתונים הם גרסה של הנתונים שניתן להוריד ב-Freebase. הם יוצרים תמונת מצב של הנתונים המאוחסנים ב-Freebase וב-Schema שיוצרים אותם, והם מסופקים במסגרת רישיון CC-BY אחד. המיפויים של Freebase/Wikidata מסופקים במסגרת רישיון CC0.

  1. משולשי Freebase
  2. משולשים שנמחקו במסגרת Freebase
  3. מיפוי בסיסי (Freebase/Wikidata)
  4. רישיון
  5. ציטוט

משולשים בסיסיים

מערך הנתונים הזה מכיל את כל העובדות שנמצאות כרגע ב-Freebase.
  • סה"כ משולשים: 1.9 מיליארד
  • תאריך עדכון: שבועי
  • פורמט נתונים: N-Triples RDF
  • רישיון: CC-BY
22GB gzip
250GB לא דחוס

הנתונים של RDF טוריים באמצעות פורמט N-Triples, מקודדים כטקסט UTF-8 ודחוסים עם Gzip.

RDF
<http://rdf.freebase.com/ns/g.11vjz1ynm> <http://rdf.freebase.com/ns/measurement_unit.dated_percentage.date> "2001-02"^^<http://www.w3.org/2001/XMLSchema#gYearMonth>  .
<http://rdf.freebase.com/ns/g.11vjz1ynm>  <http://rdf.freebase.com/ns/measurement_unit.dated_percentage.source> <http://rdf.freebase.com/ns/g.11x1gf2m6>  .
<http://rdf.freebase.com/ns/g.11vjz1ynm>  <http://rdf.freebase.com/ns/type.object.type> <http://rdf.freebase.com/ns/measurement_unit.dated_percentage>  .
<http://rdf.freebase.com/ns/g.11vjz1ynm>  <http://rdf.freebase.com/ns/measurement_unit.dated_percentage.rate> 4.5 .
<http://rdf.freebase.com/ns/g.11vjz1ynm>  <http://www.w3.org/1999/02/22-rdf-syntax-ns#type> <http://rdf.freebase.com/ns/measurement_unit.dated_percentage>  .

אם אתה כותב קוד משלך כדי לנתח את מספרי ה-RDF, לעתים קרובות יותר יעיל לקרוא אותם ישירות מקובץ ה-GZip במקום לחלץ קודם את הנתונים ולאחר מכן לעבד את הנתונים הלא דחוסים.

<subject>  <predicate>  <object> .

הערה: ב-Freebase, לאובייקטים יש MID שנראה כך /m/012rkqx. ב-RDF ה-MIDS האלה הופכים ל-m.012rkqx. בדומה לכך, סכימת Freebase כמו /common/topic נכתבת בשם common.topic.

הנושא הוא המזהה של אובייקט Freebase. הוא יכול להיות MID של Freebase (לדוגמה, m.012rkqx) עבור נושאים ו-CVT, או מזהה קריא (לבני אדם). common.topic) עבור הסכימה.

הפרדיקה היא תמיד מזהה קריא (לבני אדם) עבור נכס Freebase, או נכס מאוצר מילים רגיל של RDF, כמו RDFS. מרחבי שמות של מפתחות זרים מסוג Freebase משמשים גם כחיזויים כדי שיהיה קל יותר לחפש מפתחות לפי מרחב שמות.

שדה האובייקט יכול להכיל MID של Freebase לאובייקט או מזהה קריא (לבני אדם) של סכימה מ-Freebase או מאוצרות אחרים של RDF. הוא יכול לכלול גם ערכים מילוליים, כמו מחרוזות, בוליאני וערכים מספריים.

תיאורים של נושאים מכילים לעיתים קרובות שורות חדשות. כדי להתאים כל משולש לשורה אחת, השתמשנו בתו בריחה (escape) בשורות "\n".

משולשים שנמחקו במסגרת Freebase

בנוסף, אנחנו מספקים Dump של משולשים שנמחקו מ-Freebase עם הזמן. זוהי העתקה חד-פעמית עד מרץ 2013. בעתיד ייתכן שנשקול לספק עדכונים תקופתיים של משולשים שנמחקו לאחרונה, אבל בשלב זה אין לנו מסגרת זמן ספציפית לכך, ואנחנו מספקים את הזריקה החד-פעמית הזו בלבד.

קובץ ה-Dump מופץ כקובץ .tar.gz (2.1Gb דחוס, 7.7Gb לא דחוס). הקובץ מכיל 63,036,271 שלשות שנמחקו ב-20 קבצים (אין חשיבות ספציפית לקבצים הנפרדים, פשוט קל יותר לתמרן כמה קבצים קטנים יותר מקובץ ענק אחד).

תודה צ'ון איך טאן וג'ון ג'ינדנדר איפשרו את הפצת הנתונים הזאת.

  • סה"כ שלושה: 63 מיליון
  • עודכן: 9 ביוני 2013
  • פורמט נתונים: CSV
  • רישיון: CC-BY
דחוס ב- GB 2
8GB

פורמט הנתונים הוא למעשה CSV עם אזהרה חשובה אחת. השדה אובייקט יכול להכיל כל תו, כולל פסיקים (וכל מפריד סביר אחר שאתם חושבים עליו). עם זאת, כל שאר השדות מובטחים שלא יכילו פסיקים, כך שעדיין ניתן לנתח את הנתונים באופן שאינו מובן.

העמודות במערך הנתונים מוגדרות כך:

  • היצירה_חותמת זמן (זמן תקופה של Unix באלפיות שנייה)
  • יוצר/ת
  • מחיקה_חותמת זמן (זמן מערכת של Unix באלפיות שנייה)
  • Deletor
  • נושא (MID)
  • Predicate (MID)
  • אובייקט (אמצעי/ליטרל)
  • קוד_שפה
קובץ CSV
1352854086000,/user/mwcl_wikipedia_en,1352855856000,/user/mwcl_wikipedia_en,/m/03r90,/type/object/key,/wikipedia/en/$B816,en
1355171076000,/user/mwcl_musicbrainz,1364258198000,/user/turtlewax_bot,/m/0nncp9z,/music/recording/artist,/m/01vbfm4,en
1176630380000,/user/mwcl_images,1335928144000,/user/gardening_bot,/m/029w57m,/common/image/size,/m/0kly56,en
1292854917000,/user/mwcl_musicbrainz,1364823418001,/user/mbz_pipeline_merge_bot,/m/0fv1vl8,/type/object/type,/common/topic,en
1205530905000,/user/mwcl_images,1336022041000,/user/gardening_bot,/m/01x5scz,/common/licensed_object/license,/m/02x6b,en
1302391361000,/user/content_administrator,1336190973000,/user/gardening_bot,/m/0gkb45y,/type/object/type,/type/content,en
1176728962002,/user/mwcl_images,1335954186000,/user/gardening_bot,/m/08430h,/common/topic/image,/m/02cs147,en
1172002568007,/user/mwcl_chefmoz,1283588560000,/user/delete_bot,/m/01z4c1z,/type/object/name,La Casa Rosa Mexican Restaurant,en

מיפוי Wibasedata/Wikidata

הנתונים נוצרו על סמך Wikidata-Dump של 28 באוקטובר 2013, ומכילים רק את הקישורים שמכילים לפחות שני קישורי וויקיפדיה משותפים, ולא קישור יחיד של וויקיפדיה. בנוסף, הקווים ממוינים לפי מספר הקישורים הנפוצים מסוג וויקיפדיה (אבל לצבים זה לא ממש משנה).
  • סה"כ שלושה: 2.1 מיליון
  • תאריך עדכון: 28 באוקטובר 2013
  • פורמט נתונים: N-Triples RDF
  • רישיון: CC0
21.2MB gzip
242.9 MB לא דחוס

הנתונים של RDF טוריים באמצעות פורמט N-Triples, מקודדים כטקסט UTF-8 ודחוסים עם Gzip.

RDF
<http://rdf.freebase.com/ns/m.0695j>  <http://www.w3.org/2002/07/owl#sameAs>  <http://www.wikidata.org/entity/Q6718> .
<http://rdf.freebase.com/ns/m.05nrg>  <http://www.w3.org/2002/07/owl#sameAs7>  <http://www.wikidata.org/entity/Q538> .
<http://rdf.freebase.com/ns/m.0jgd>  <http://www.w3.org/2002/07/owl#sameAs>  <http://www.wikidata.org/entity/Q414> .
<http://rdf.freebase.com/ns/m.0d_23>  <http://www.w3.org/2002/07/owl#sameAs>  <http://www.wikidata.org/entity/Q2537> .
<http://rdf.freebase.com/ns/m.04g7d>  <http://www.w3.org/2002/07/owl#sameAs>  <http://www.wikidata.org/entity/Q315> .

רישיון

Dump של נתוני Freebase ניתן ללא תשלום לכל מטרה עם עדכונים שוטפים של Google. ההפצה מופצת, כמו Freebase עצמה, במסגרת Attribution של Creative Commons (נקרא גם CC-BY) והשימוש בו כפוף לתנאים ולהגבלות. המיפויים של Freebase/Wikidata ID מסופקים במסגרת CC0 וניתן להשתמש בהם ללא הגבלות.

ציטוט

אם רוצים לצטט את קובצי ה-Dump האלה של הנתונים באתר חדשות, אפשר להשתמש:

Google, Freebase Data Dumps, https://developers.google.com/freebase/data, <month> <day>, <year>

או בתור BibTeX:

BibTex
@misc{freebase:datadumps,
  title = "Freebase Data Dumps"
  author = "Google",
  howpublished = "\url{https://developers.google.com/freebase/data}",
  edition = "<month> <day>, <year>",
  year = "<year>"
}