Data Dumps یک نسخه قابل دانلود از داده ها در Freebase است. آنها یک عکس فوری از داده های ذخیره شده در Freebase و طرحی که آن را ساختار می دهد تشکیل می دهند و تحت همان مجوز CC-BY ارائه می شوند. نگاشت Freebase/Wikidata تحت مجوز CC0 ارائه می شود.
Freebase Triples
این مجموعه داده شامل تمام واقعیت های موجود در Freebase است. |
| 22 گیگابایت gzip 250 گیگابایت غیر فشرده |
داده های RDF با استفاده از فرمت N-Triples، به صورت متنی UTF-8 کدگذاری شده و با Gzip فشرده شده است.
<http://rdf.freebase.com/ns/g.11vjz1ynm> <http://rdf.freebase.com/ns/measurement_unit.dated_percentage.date> "2001-02"^^<http://www.w3.org/2001/XMLSchema#gYearMonth> . <http://rdf.freebase.com/ns/g.11vjz1ynm> <http://rdf.freebase.com/ns/measurement_unit.dated_percentage.source> <http://rdf.freebase.com/ns/g.11x1gf2m6> . <http://rdf.freebase.com/ns/g.11vjz1ynm> <http://rdf.freebase.com/ns/type.object.type> <http://rdf.freebase.com/ns/measurement_unit.dated_percentage> . <http://rdf.freebase.com/ns/g.11vjz1ynm> <http://rdf.freebase.com/ns/measurement_unit.dated_percentage.rate> 4.5 . <http://rdf.freebase.com/ns/g.11vjz1ynm> <http://www.w3.org/1999/02/22-rdf-syntax-ns#type> <http://rdf.freebase.com/ns/measurement_unit.dated_percentage> .
اگر کد خود را برای تجزیه و تحلیل RDF dump می نویسید، خواندن مستقیم از فایل GZip اغلب کارآمدتر است تا اینکه ابتدا داده ها را استخراج کنید و سپس داده های فشرده نشده را پردازش کنید.
<subject> <predicate> <object> .
توجه: در Freebase، اشیاء دارای MIDهایی هستند که شبیه /m/012rkqx
هستند. در RDF آن MID ها m.012rkqx می شوند. به همین ترتیب، طرحواره Freebase مانند /common/topic
به عنوان common.topic
نوشته می شود.
موضوع شناسه یک شی Freebase است. این میتواند یک MID Freebase (مثلاً m.012rkqx) برای موضوعات و CVT یا یک شناسه قابل خواندن برای انسان (مثلاً common.topic
) برای طرحواره باشد.
گزاره همیشه یک شناسه قابل خواندن توسط انسان برای یک ویژگی Freebase یا یک ویژگی از واژگان استاندارد RDF مانند RDFS است. فضای نام کلید خارجی Freebase نیز به عنوان محمول استفاده می شود تا جستجوی کلیدها بر اساس فضای نام آسان تر شود.
فیلد شی ممکن است حاوی یک MID Freebase برای یک شی یا یک شناسه قابل خواندن توسط انسان برای طرحواره از Freebase یا سایر واژگان RDF باشد. همچنین ممکن است شامل مقادیر تحت اللفظی مانند رشته ها، بولی ها و مقادیر عددی باشد.
توضیحات موضوع اغلب حاوی خطوط جدید است. برای اینکه هر سه گانه را در یک خط قرار دهیم، از خطوط جدید با "\n" فرار کرده ایم.
Freebase Triples حذف شده است
ما همچنین فهرستی از سهگانههایی را ارائه میکنیم که به مرور زمان از Freebase حذف شدهاند. این یک بارگیری تا مارس 2013 است. در آینده، ممکن است بهروزرسانیهای دورهای سهگانههای اخیراً حذفشده را در نظر بگیریم، اما در حال حاضر هیچ بازه زمانی خاصی برای انجام این کار نداریم و فقط یک بار مصرف را ارائه میکنیم.
Dump به عنوان یک فایل tar.gz (2.1 گیگابایت فشرده، 7.7 گیگابایت غیرفشرده) توزیع می شود. این شامل 63,036,271 سه گانه حذف شده در 20 فایل است (هیچ معنای خاصی برای فایل های جداگانه وجود ندارد، فقط دستکاری چندین فایل کوچکتر از یک فایل بزرگ آسان تر است).
با تشکر از Chun How Tan و John Giannandrea برای امکان انتشار این اطلاعات.
2 گیگابایت gzip 8 گیگابایت غیر فشرده |
فرمت داده اساساً CSV با یک نکته مهم است. فیلد شی ممکن است حاوی هر کاراکتری باشد، از جمله کاما (و همچنین هر جداکننده معقولی دیگری که فکرش را بکنید). با این حال، تمام فیلدهای دیگر تضمین می شود که حاوی کاما نباشند، بنابراین داده ها همچنان می توانند بدون ابهام تجزیه شوند.
ستون های مجموعه داده به صورت زیر تعریف می شوند:
- Creation_timestamp (زمان دوره یونیکس بر حسب میلی ثانیه)
- ایجاد کننده
- deletion_timestamp (زمان دوره یونیکس بر حسب میلی ثانیه)
- حذف کننده
- موضوع (MID)
- محمول (MID)
- شی (MID/Literal)
- زبان_کد
1352854086000,/user/mwcl_wikipedia_en,1352855856000,/user/mwcl_wikipedia_en,/m/03r90,/type/object/key,/wikipedia/en/$B816,en 1355171076000,/user/mwcl_musicbrainz,1364258198000,/user/turtlewax_bot,/m/0nncp9z,/music/recording/artist,/m/01vbfm4,en 1176630380000,/user/mwcl_images,1335928144000,/user/gardening_bot,/m/029w57m,/common/image/size,/m/0kly56,en 1292854917000,/user/mwcl_musicbrainz,1364823418001,/user/mbz_pipeline_merge_bot,/m/0fv1vl8,/type/object/type,/common/topic,en 1205530905000,/user/mwcl_images,1336022041000,/user/gardening_bot,/m/01x5scz,/common/licensed_object/license,/m/02x6b,en 1302391361000,/user/content_administrator,1336190973000,/user/gardening_bot,/m/0gkb45y,/type/object/type,/type/content,en 1176728962002,/user/mwcl_images,1335954186000,/user/gardening_bot,/m/08430h,/common/topic/image,/m/02cs147,en 1172002568007,/user/mwcl_chefmoz,1283588560000,/user/delete_bot,/m/01z4c1z,/type/object/name,La Casa Rosa Mexican Restaurant,en
Freebase/Wikidata Mappings
دادهها بر اساس Wikidata-Dump در 28 اکتبر 2013 ایجاد شدهاند و فقط حاوی پیوندهایی هستند که حداقل دو پیوند ویکیپدیا مشترک دارند و یک پیوند ویکیپدیا مخالف وجود ندارد. علاوه بر این، خطوط بر اساس تعداد پیوندهای رایج ویکیپدیا مرتب میشوند (اگرچه در Turtle این واقعاً مهم نیست). |
| 21.2 مگابایت gzip 242.9 مگابایت فشرده نشده |
داده های RDF با استفاده از فرمت N-Triples، به صورت متنی UTF-8 کدگذاری شده و با Gzip فشرده شده است.
<http://rdf.freebase.com/ns/m.0695j> <http://www.w3.org/2002/07/owl#sameAs> <http://www.wikidata.org/entity/Q6718> . <http://rdf.freebase.com/ns/m.05nrg> <http://www.w3.org/2002/07/owl#sameAs7> <http://www.wikidata.org/entity/Q538> . <http://rdf.freebase.com/ns/m.0jgd> <http://www.w3.org/2002/07/owl#sameAs> <http://www.wikidata.org/entity/Q414> . <http://rdf.freebase.com/ns/m.0d_23> <http://www.w3.org/2002/07/owl#sameAs> <http://www.wikidata.org/entity/Q2537> . <http://rdf.freebase.com/ns/m.04g7d> <http://www.w3.org/2002/07/owl#sameAs> <http://www.wikidata.org/entity/Q315> .
مجوز
Freebase Data Dumps برای هر منظوری با به روز رسانی منظم توسط Google به صورت رایگان ارائه می شود. آنها، مانند خود Freebase، تحت عنوان Creative Commons Attribution (معروف به CC-BY) توزیع می شوند و استفاده از آنها تابع شرایط خدمات است. نگاشت شناسه Freebase/Wikidata تحت CC0 ارائه شده است و می توان بدون محدودیت از آنها استفاده کرد.
استناد کردن
اگر میخواهید این دادهها را در یک نشریه ذکر کنید، میتوانید از این موارد استفاده کنید:
Google, Freebase Data Dumps, https://developers.google.com/freebase/data, <month> <day>, <year>
یا به عنوان BibTeX:
@misc{freebase:datadumps, title = "Freebase Data Dumps" author = "Google", howpublished = "\url{https://developers.google.com/freebase/data}", edition = "<month> <day>, <year>", year = "<year>" }