عمليات تفريغ البيانات

عمليات تفريغ البيانات هي نسخة قابلة للتنزيل من البيانات في Freebase. وهي تشكّل لقطة للبيانات المخزّنة في Freebase والمخطط الذي ينظّمها، ويتم توفيرها بموجب ترخيص CC-BY نفسه. يتم توفير عمليات الربط بين Freebase وWikidata بموجب ترخيص CC0.

  1. Freebase Triples
  2. Freebase Deleted Triples
  3. عمليات الربط في Freebase/Wikidata
  4. الترخيص
  5. الاقتباس

Freebase Triples

تحتوي مجموعة البيانات هذه على كل الحقائق المتوفرة حاليًا في Freebase.
  • إجمالي الثلاثيات: 1.9 مليار
  • تاريخ التعديل: أسبوعيًا
  • تنسيق البيانات: N-Triples RDF
  • الترخيص: CC-BY
22 غيغابايت gzip
250 غيغابايت غير مضغوط

يتم تسلسل بيانات RDF باستخدام تنسيق N-Triples، ويتم ترميزها كنص UTF-8 وضغطها باستخدام Gzip.

RDF
<http://rdf.freebase.com/ns/g.11vjz1ynm> <http://rdf.freebase.com/ns/measurement_unit.dated_percentage.date> "2001-02"^^<http://www.w3.org/2001/XMLSchema#gYearMonth>  .
<http://rdf.freebase.com/ns/g.11vjz1ynm>  <http://rdf.freebase.com/ns/measurement_unit.dated_percentage.source> <http://rdf.freebase.com/ns/g.11x1gf2m6>  .
<http://rdf.freebase.com/ns/g.11vjz1ynm>  <http://rdf.freebase.com/ns/type.object.type> <http://rdf.freebase.com/ns/measurement_unit.dated_percentage>  .
<http://rdf.freebase.com/ns/g.11vjz1ynm>  <http://rdf.freebase.com/ns/measurement_unit.dated_percentage.rate> 4.5 .
<http://rdf.freebase.com/ns/g.11vjz1ynm>  <http://www.w3.org/1999/02/22-rdf-syntax-ns#type> <http://rdf.freebase.com/ns/measurement_unit.dated_percentage>  .

إذا كنت تكتب الرمز البرمجي الخاص بك لتحليل عمليات تفريغ RDF، غالبًا ما يكون من الأفضل القراءة مباشرةً من ملف GZip بدلاً من استخراج البيانات أولاً ثم معالجة البيانات غير المضغوطة.

<subject>  <predicate>  <object> .

ملاحظة: في Freebase، تحتوي العناصر على معرّفات MID تبدو على النحو التالي: /m/012rkqx. في RDF، تصبح هذه المعرّفات m.012rkqx. وبالمثل، تتم كتابة مخطط Freebase مثل /common/topic على النحو common.topic.

الموضوع هو معرّف لأحد عناصر Freebase. يمكن أن يكون معرّفًا وسيطًا من Freebase (مثل m.012rkqx) للمواضيع والفيديوهات التي تتضمّن محتوًى مرئيًا، أو معرّفًا يمكن قراءته (مثل common.topic) للمخطّط.

المسند هو دائمًا معرّف يمكن للبشر قراءته لخاصية Freebase أو خاصية من مفردات RDF عادية مثل RDFS. تُستخدَم أيضًا مساحات أسماء المفاتيح الخارجية في Freebase كمسندات لتسهيل البحث عن المفاتيح حسب مساحة الاسم.

قد يحتوي حقل العنصر على معرّف MID من Freebase لعنصر أو معرّف قابل للقراءة البشرية لمخطط من Freebase أو غيرها من مفردات RDF. وقد يتضمّن أيضًا قيمًا حرفية مثل السلاسل والقيم المنطقية والرقمية.

غالبًا ما تحتوي أوصاف المواضيع على أسطر جديدة. ولكي يتناسب كل ثلاثي مع سطر واحد، تم إلغاء الأحرف الجديدة باستخدام "\n".

Freebase Deleted Triples

نوفّر أيضًا مجموعة من البيانات الثلاثية التي تم حذفها من Freebase بمرور الوقت. هذا هو الإصدار الأوّلي لمرة واحدة حتى آذار (مارس) 2013. في المستقبل، قد نقدّم تحديثات دورية للثلاثيات المحذوفة مؤخرًا، ولكن ليس لدينا حاليًا إطار زمني محدّد لذلك، ونقدّم فقط هذا التفريغ لمرة واحدة.

يتم توزيع قاعدة البيانات كملف ‎ .tar.gz (بحجم 2.1 غيغابايت مضغوطة، و7.7 غيغابايت غير مضغوطة). يحتوي على 63,036,271 ثلاثية محذوفة في 20 ملفًا (ليس هناك معنى معيّن للملفات الفردية، بل يسهل التعامل مع عدة ملفات أصغر حجمًا من ملف واحد كبير).

نشكر "تشون هاو تان" و"جون جياناندريا" على إتاحة هذه البيانات.

  • إجمالي الثلاثيات: 63 مليون
  • تاريخ التعديل: 9 يونيو 2013
  • تنسيق البيانات: CSV
  • الترخيص: CC-BY
2 غيغابايت gzip
8 غيغابايت غير مضغوط

إنّ تنسيق البيانات هو في الأساس CSV مع شرط مهم واحد. قد يحتوي حقل العنصر على أي أحرف، بما في ذلك الفواصل (بالإضافة إلى أي فواصل معقولة أخرى يمكنك التفكير فيها). ومع ذلك، نضمن عدم احتواء جميع الحقول الأخرى على فواصل، وبالتالي يمكن تحليل البيانات بشكل واضح.

يتم تعريف الأعمدة في مجموعة البيانات على النحو التالي:

  • creation_timestamp (وقت حقبة Unix بالمللي ثانية)
  • صانع المحتوى
  • deletion_timestamp (وقت حقبة Unix بالملّي ثانية)
  • deletor
  • الموضوع (MID)
  • predicate (MID)
  • object (معرّف/قيمة حرفية)
  • language_code
CSV
1352854086000,/user/mwcl_wikipedia_en,1352855856000,/user/mwcl_wikipedia_en,/m/03r90,/type/object/key,/wikipedia/en/$B816,en
1355171076000,/user/mwcl_musicbrainz,1364258198000,/user/turtlewax_bot,/m/0nncp9z,/music/recording/artist,/m/01vbfm4,en
1176630380000,/user/mwcl_images,1335928144000,/user/gardening_bot,/m/029w57m,/common/image/size,/m/0kly56,en
1292854917000,/user/mwcl_musicbrainz,1364823418001,/user/mbz_pipeline_merge_bot,/m/0fv1vl8,/type/object/type,/common/topic,en
1205530905000,/user/mwcl_images,1336022041000,/user/gardening_bot,/m/01x5scz,/common/licensed_object/license,/m/02x6b,en
1302391361000,/user/content_administrator,1336190973000,/user/gardening_bot,/m/0gkb45y,/type/object/type,/type/content,en
1176728962002,/user/mwcl_images,1335954186000,/user/gardening_bot,/m/08430h,/common/topic/image,/m/02cs147,en
1172002568007,/user/mwcl_chefmoz,1283588560000,/user/delete_bot,/m/01z4c1z,/type/object/name,La Casa Rosa Mexican Restaurant,en

عمليات الربط بين Freebase وWikidata

تم إنشاء البيانات استنادًا إلى ملف Wikidata-Dump بتاريخ 28 تشرين الأول (أكتوبر) 2013، ولا تحتوي إلا على الروابط التي تتضمّن رابطَين مشتركَين على الأقل في Wikipedia وليس رابطًا واحدًا مختلفًا في Wikipedia. بالإضافة إلى ذلك، يتم ترتيب الأسطر حسب عدد روابط Wikipedia المشتركة (مع أنّ هذا الأمر لا يهمّ كثيرًا في Turtle).
  • إجمالي عدد الثلاثيات: 2.1 مليون
  • تاريخ التعديل: 28 تشرين الأول (أكتوبر) 2013
  • تنسيق البيانات: N-Triples RDF
  • الترخيص: CC0
21.2 ميغابايت gzip
242.9 ميغابايت غير مضغوط

يتم تسلسل بيانات RDF باستخدام تنسيق N-Triples، ويتم ترميزها كنص UTF-8 وضغطها باستخدام Gzip.

RDF
<http://rdf.freebase.com/ns/m.0695j>  <http://www.w3.org/2002/07/owl#sameAs>  <http://www.wikidata.org/entity/Q6718> .
<http://rdf.freebase.com/ns/m.05nrg>  <http://www.w3.org/2002/07/owl#sameAs7>  <http://www.wikidata.org/entity/Q538> .
<http://rdf.freebase.com/ns/m.0jgd>  <http://www.w3.org/2002/07/owl#sameAs>  <http://www.wikidata.org/entity/Q414> .
<http://rdf.freebase.com/ns/m.0d_23>  <http://www.w3.org/2002/07/owl#sameAs>  <http://www.wikidata.org/entity/Q2537> .
<http://rdf.freebase.com/ns/m.04g7d>  <http://www.w3.org/2002/07/owl#sameAs>  <http://www.wikidata.org/entity/Q315> .

الترخيص

يتم توفير عمليات تفريغ بيانات Freebase مجانًا لأي غرض مع تحديثات منتظمة من Google. يتم توزيعها، مثل Freebase نفسها، بموجب ترخيص Creative Commons Attribution (المعروف أيضًا باسم CC-BY)، ويخضع استخدامها لبنود الخدمة. يتم توفير عمليات ربط المعرّفات في Freebase/Wikidata بموجب CC0 ويمكن استخدامها بدون قيود.

الاقتباس

إذا أردت الاستشهاد بهذه البيانات في منشور، يمكنك استخدام:

Google, Freebase Data Dumps, https://developers.google.com/freebase/data, <month> <day>, <year>

أو بتنسيق BibTeX:

BibTex
@misc{freebase:datadumps,
  title = "Freebase Data Dumps"
  author = "Google",
  howpublished = "\url{https://developers.google.com/freebase/data}",
  edition = "<month> <day>, <year>",
  year = "<year>"
}