عمليات تفريغ البيانات

نُسخ البيانات هي نسخة قابلة للتنزيل من البيانات في Freebase. وهي تشكّل نبذة عن البيانات المخزَّنة في Freebase والمخطط الذي ينظّمها، ويتم توفيرها بموجب ترخيص CC-BY نفسه. يتم توفير عمليات ربط Freebase/Wikidata بموجب ترخيص CC0.

  1. ثلاث مرات في Freebase
  2. Free قاعدة محذوفة في Freebase
  3. عمليات ربط Freebase/Wikidata
  4. الترخيص
  5. اقتباس

ثلاث مرات مجانية

تحتوي مجموعة البيانات هذه على كل الحقائق حاليًا في Freebase.
  • إجمالي ثلاث مرات: 1.9 مليار
  • تم التحديث: أسبوعيًا
  • تنسيق البيانات: N-Triples RDF
  • الترخيص: CC-BY
ذاكرة مضغوطة بسعة 22 غيغابايت gzip
250 غيغابايت غير مضغوطة

يتم تسلسل بيانات RDF باستخدام تنسيق N-Triples، وهو ما تم ترميزه كنص UTF-8 وضغطه باستخدام Gzip.

RDF
<http://rdf.freebase.com/ns/g.11vjz1ynm> <http://rdf.freebase.com/ns/measurement_unit.dated_percentage.date> "2001-02"^^<http://www.w3.org/2001/XMLSchema#gYearMonth>  .
<http://rdf.freebase.com/ns/g.11vjz1ynm>  <http://rdf.freebase.com/ns/measurement_unit.dated_percentage.source> <http://rdf.freebase.com/ns/g.11x1gf2m6>  .
<http://rdf.freebase.com/ns/g.11vjz1ynm>  <http://rdf.freebase.com/ns/type.object.type> <http://rdf.freebase.com/ns/measurement_unit.dated_percentage>  .
<http://rdf.freebase.com/ns/g.11vjz1ynm>  <http://rdf.freebase.com/ns/measurement_unit.dated_percentage.rate> 4.5 .
<http://rdf.freebase.com/ns/g.11vjz1ynm>  <http://www.w3.org/1999/02/22-rdf-syntax-ns#type> <http://rdf.freebase.com/ns/measurement_unit.dated_percentage>  .

إذا كنت تكتب رمزك الخاص لتحليل RDF، فغالبًا ما تكون قراءة الملفات من GZip أكثر فعالية بدلاً من استخراج البيانات أولاً، ثم معالجة البيانات غير المضغوطة.

<subject>  <predicate>  <object> .

ملاحظة: في Freebase، تحتوي العناصر على معرّفات MID تشبه /m/012rkqx. وفي نظام RDF، تصبح معرّفات MID هذه m.012rkqx. وبالمثل، تتم كتابة مخطط Freebase مثل /common/topic باسم common.topic.

الموضوع هو رقم تعريف عنصر Freebase. يمكن أن يكون MID مجانيًا (مثل m.012rkqx) للمواضيع وCVT أو معرّف يمكن للمستخدمين قراءته (مثل. common.topic للمخطط.

predicate هو دائمًا معرّف يمكن للمستخدم قراءته لموقع Freebase أو موقع من مفردات RDF عادية مثل RDFS. تُستخدم مساحات أسماء المفاتيح الأجنبية Freebase أيضًا كإضافات لتسهّل البحث عن المفاتيح حسب مساحة الاسم.

وقد يتضمّن حقل الكائن MID Freebase MID لعنصر أو معرّفًا يمكن للمستخدم قراءته للمخطط من Freebase أو مفردات RDF أخرى. وقد يتضمّن أيضًا قيمًا حرفية مثل السلاسل والقيم المنطقية والقيم الرقمية.

تحتوي أوصاف المواضيع غالبًا على أسطر جديدة. ولكي نجعل كل ثلاثي قيم مناسبة على سطر واحد، ألغينا الأسطر الجديدة التي تحتوي على "\n".

المستخدمون الذين تم حذف ثلاث مرات في Freebase

نقدّم أيضًا مجموعة مكبّرة ثلاث مرات تم حذفها من Freebase بمرور الوقت. هذا تفريغ لمرة واحدة حتى آذار (مارس) 2013. في المستقبل، قد نفكر في تقديم تحديثات دورية للثلاث مرات المحذوفة مؤخرًا، ولكن ليس لدينا حاليًا إطار زمني محدد لإجراء ذلك، ونوفر هذا التفريغ لمرة واحدة فقط.

ويتم توزيع ملف التفريغ هذا كملف بتنسيق .tar.gz (بتنسيق 2.1 غيغابايت مضغوط، و7.7 غيغابايت من الضغط). ويتضمن هذا التحديث 63,036,271 ملفًا ثلاثيًا محذوفًا في 20 ملفًا (ما مِن معنى محدّد للملفات الفردية، حيث إنّ من السهل التحكم في ملفات أصغر من الملف الواحد الضخم).

شكرًا لك "تشون تان" و"جون غياناندريا" على إتاحة إصدار البيانات هذا.

  • إجمالي ثلاث مرات: 63 مليون
  • تم التحديث: 9 حزيران (يونيو) 2013
  • تنسيق البيانات: ملف CSV
  • الترخيص: CC-BY
ذاكرة مضغوطة gGB بسعة 2 غيغابايت

تنسيق البيانات هو في الأساس بتنسيق CSV مع تنبيه مهم واحد. قد يحتوي حقل الكائن على أي أحرف، بما في ذلك الفواصل (بالإضافة إلى أي محدِّدات معقولة أخرى يمكنك التفكير فيها). ومع ذلك، يضمن أن جميع الحقول الأخرى لا تحتوي على فواصل، وبالتالي لا يزال من الممكن تحليل البيانات بوضوح.

يتم تحديد الأعمدة في مجموعة البيانات على النحو التالي:

  • creative_timestamp (وقت الحقبة Unix) بالملي ثانية)
  • مُنشئ محتوى
  • لحذف_الطابع الزمني (المدة الزمنية لـ Unix) بالملي ثانية
  • دوران
  • موضوع (MID)
  • predicate (MID)
  • الكائن (MID/Literal)
  • language_code
ملف CSV
1352854086000,/user/mwcl_wikipedia_en,1352855856000,/user/mwcl_wikipedia_en,/m/03r90,/type/object/key,/wikipedia/en/$B816,en
1355171076000,/user/mwcl_musicbrainz,1364258198000,/user/turtlewax_bot,/m/0nncp9z,/music/recording/artist,/m/01vbfm4,en
1176630380000,/user/mwcl_images,1335928144000,/user/gardening_bot,/m/029w57m,/common/image/size,/m/0kly56,en
1292854917000,/user/mwcl_musicbrainz,1364823418001,/user/mbz_pipeline_merge_bot,/m/0fv1vl8,/type/object/type,/common/topic,en
1205530905000,/user/mwcl_images,1336022041000,/user/gardening_bot,/m/01x5scz,/common/licensed_object/license,/m/02x6b,en
1302391361000,/user/content_administrator,1336190973000,/user/gardening_bot,/m/0gkb45y,/type/object/type,/type/content,en
1176728962002,/user/mwcl_images,1335954186000,/user/gardening_bot,/m/08430h,/common/topic/image,/m/02cs147,en
1172002568007,/user/mwcl_chefmoz,1283588560000,/user/delete_bot,/m/01z4c1z,/type/object/name,La Casa Rosa Mexican Restaurant,en

عمليات ربط Freebase/Wikidata

تم إنشاء البيانات بناءً على تقرير Wikidata-Dump بتاريخ 28 تشرين الأول (أكتوبر) 2013، وتحتوي فقط على هذه الروابط التي تحتوي على رابطين شائعين على الأقل من روابط Wikipedia، وليس رابطًا واحدًا غير متوافق مع Wikipedia-Link. فضلاً عن ذلك، يتم ترتيب الأسطر حسب عدد الروابط الشائعة في Wikipedia (علمًا أنّ هذه السلاحف غير مهمة).
  • إجمالي ثلاث مرات: 2.1 مليون
  • تم التحديث: 28 تشرين الأول (أكتوبر) 2013
  • تنسيق البيانات: N-Triples RDF
  • الترخيص: CC0
ملف غير مضغوط بحجم 21.2 ميغابايت gzip
242.9 ميغابايت

يتم تسلسل بيانات RDF باستخدام تنسيق N-Triples، وهو ما تم ترميزه كنص UTF-8 وضغطه باستخدام Gzip.

RDF
<http://rdf.freebase.com/ns/m.0695j>  <http://www.w3.org/2002/07/owl#sameAs>  <http://www.wikidata.org/entity/Q6718> .
<http://rdf.freebase.com/ns/m.05nrg>  <http://www.w3.org/2002/07/owl#sameAs7>  <http://www.wikidata.org/entity/Q538> .
<http://rdf.freebase.com/ns/m.0jgd>  <http://www.w3.org/2002/07/owl#sameAs>  <http://www.wikidata.org/entity/Q414> .
<http://rdf.freebase.com/ns/m.0d_23>  <http://www.w3.org/2002/07/owl#sameAs>  <http://www.wikidata.org/entity/Q2537> .
<http://rdf.freebase.com/ns/m.04g7d>  <http://www.w3.org/2002/07/owl#sameAs>  <http://www.wikidata.org/entity/Q315> .

الترخيص

يتم توفير الأداة Free Dumps مجانًا لأي غرض باستخدام تحديثات منتظمة من Google. يتم توزيع هذه الوحدات، مثل Freebase نفسها، بموجب مؤسسة المشاع الإبداعي (المعروفة أيضًا باسم CC-BY)، ويخضع استخدامها لبنود الخدمة. يتم توفير عمليات ربط معرّف Freebase/Wikidata بموجب CC0 ويمكن استخدامها بدون قيود.

اقتباس

إذا كنت تريد الاقتباس من نُسخ البيانات هذه في جهة نشر، يمكنك استخدام:

Google, Freebase Data Dumps, https://developers.google.com/freebase/data, <month> <day>, <year>

أو بصفتك BibTeX:

BibTex
@misc{freebase:datadumps,
  title = "Freebase Data Dumps"
  author = "Google",
  howpublished = "\url{https://developers.google.com/freebase/data}",
  edition = "<month> <day>, <year>",
  year = "<year>"
}