Дампы данных

Дампы данных — это загружаемая версия данных в Freebase. Они представляют собой моментальный снимок данных, хранящихся в Freebase, и схемы, которая их структурирует, и предоставляются по той же лицензии CC-BY. Сопоставления Freebase/Wikidata предоставляются по лицензии CC0.

  1. Тройки на свободной базе
  2. Удаленные тройки Freebase
  3. Сопоставления Freebase/Викиданных
  4. Лицензия
  5. Цитирование

Тройки на свободной базе

Этот набор данных содержит все факты, находящиеся в настоящее время в Freebase.
  • Всего троек: 1,9 миллиарда
  • Обновлено: еженедельно
  • Формат данных: N-тройки RDF
  • Лицензия: CC-BY
22 Гб архив
250 ГБ без сжатия

Данные RDF сериализуются с использованием формата N-Triples, кодируются как текст UTF-8 и сжимаются с помощью Gzip.

RDF
<http://rdf.freebase.com/ns/g.11vjz1ynm> <http://rdf.freebase.com/ns/measurement_unit.dated_percentage.date> "2001-02"^^<http://www.w3.org/2001/XMLSchema#gYearMonth>  .
<http://rdf.freebase.com/ns/g.11vjz1ynm>  <http://rdf.freebase.com/ns/measurement_unit.dated_percentage.source> <http://rdf.freebase.com/ns/g.11x1gf2m6>  .
<http://rdf.freebase.com/ns/g.11vjz1ynm>  <http://rdf.freebase.com/ns/type.object.type> <http://rdf.freebase.com/ns/measurement_unit.dated_percentage>  .
<http://rdf.freebase.com/ns/g.11vjz1ynm>  <http://rdf.freebase.com/ns/measurement_unit.dated_percentage.rate> 4.5 .
<http://rdf.freebase.com/ns/g.11vjz1ynm>  <http://www.w3.org/1999/02/22-rdf-syntax-ns#type> <http://rdf.freebase.com/ns/measurement_unit.dated_percentage>  .

Если вы пишете свой собственный код для разбора дампов RDF, часто более эффективно читать непосредственно из файла GZip, а не сначала извлекать данные, а затем обрабатывать несжатые данные.

<subject>  <predicate>  <object> .

Примечание. В Freebase объекты имеют MID, похожие на /m/012rkqx . В RDF эти MID становятся m.012rkqx. Аналогично, схемы Freebase, такие как /common/topic , записываются как common.topic .

Субъект — это идентификатор объекта Freebase. Это может быть MID Freebase (например, m.012rkqx) для тем и CVT или удобочитаемый идентификатор (например, common.topic ) для схемы.

Предикат всегда является удобочитаемым идентификатором для свойства Freebase или свойства из стандартного словаря RDF, такого как RDFS . Пространства имен внешних ключей Freebase также используются в качестве предикатов, чтобы упростить поиск ключей по пространству имен.

Поле объекта может содержать Freebase MID для объекта или удобочитаемый ID для схемы из Freebase или других словарей RDF. Он также может включать буквенные значения, такие как строки, логические значения и числовые значения.

Описания тем часто содержат новые строки. Чтобы каждая тройка помещалась на одной строке, мы экранировали символы новой строки с помощью «\n».

Удаленные тройки Freebase

Мы также предоставляем дамп троек, которые были удалены из Freebase с течением времени. Это одноразовый дамп до марта 2013 года. В будущем мы можем рассмотреть возможность предоставления периодических обновлений недавно удаленных троек, но на данный момент у нас нет конкретных сроков для этого, и мы предоставляем только этот одноразовый дамп.

Дамп распространяется в виде файла .tar.gz (2,1Гб в сжатом виде, 7,7Гб в несжатом). Он содержит 63 036 271 удаленную тройку в 20 файлах (в отдельных файлах нет особого смысла, просто легче манипулировать несколькими меньшими файлами, чем одним огромным файлом).

Спасибо Chun How Tan и John Giannandrea за возможность выпуска этих данных.

  • Всего троек: 63 миллиона
  • Обновлено: 9 июня 2013 г.
  • Формат данных: CSV
  • Лицензия: CC-BY
2 Гб архив
8 ГБ без сжатия

Формат данных, по сути, CSV с одной важной оговоркой. Поле объекта может содержать любые символы, включая запятые (а также любые другие разумные разделители, которые вы можете придумать). Тем не менее, все остальные поля гарантированно не содержат запятых, поэтому данные могут быть проанализированы однозначно.

Столбцы в наборе данных определяются как:

  • create_timestamp (время эпохи Unix в миллисекундах)
  • создатель
  • deletion_timestamp (время эпохи Unix в миллисекундах)
  • удаление
  • предмет (середина)
  • предикат (MID)
  • объект (MID/литерал)
  • language_code
CSV
1352854086000,/user/mwcl_wikipedia_en,1352855856000,/user/mwcl_wikipedia_en,/m/03r90,/type/object/key,/wikipedia/en/$B816,en
1355171076000,/user/mwcl_musicbrainz,1364258198000,/user/turtlewax_bot,/m/0nncp9z,/music/recording/artist,/m/01vbfm4,en
1176630380000,/user/mwcl_images,1335928144000,/user/gardening_bot,/m/029w57m,/common/image/size,/m/0kly56,en
1292854917000,/user/mwcl_musicbrainz,1364823418001,/user/mbz_pipeline_merge_bot,/m/0fv1vl8,/type/object/type,/common/topic,en
1205530905000,/user/mwcl_images,1336022041000,/user/gardening_bot,/m/01x5scz,/common/licensed_object/license,/m/02x6b,en
1302391361000,/user/content_administrator,1336190973000,/user/gardening_bot,/m/0gkb45y,/type/object/type,/type/content,en
1176728962002,/user/mwcl_images,1335954186000,/user/gardening_bot,/m/08430h,/common/topic/image,/m/02cs147,en
1172002568007,/user/mwcl_chefmoz,1283588560000,/user/delete_bot,/m/01z4c1z,/type/object/name,La Casa Rosa Mexican Restaurant,en

Сопоставления Freebase/Викиданных

Данные были созданы на основе дампа Викиданных от 28 октября 2013 г. и содержат только те ссылки, которые имеют как минимум две общие ссылки на Википедию и ни одной несогласующейся с ними ссылки на Википедию. Кроме того, строки сортируются по количеству общих ссылок на Википедию (хотя в Черепахе это не имеет большого значения).
  • Всего троек: 2,1 млн.
  • Обновлено: 28 октября 2013 г.
  • Формат данных: N-тройки RDF
  • Лицензия: CC0
21,2 МБ gzip
242,9 МБ без сжатия

Данные RDF сериализуются с использованием формата N-Triples, кодируются как текст UTF-8 и сжимаются с помощью Gzip.

RDF
<http://rdf.freebase.com/ns/m.0695j>  <http://www.w3.org/2002/07/owl#sameAs>  <http://www.wikidata.org/entity/Q6718> .
<http://rdf.freebase.com/ns/m.05nrg>  <http://www.w3.org/2002/07/owl#sameAs7>  <http://www.wikidata.org/entity/Q538> .
<http://rdf.freebase.com/ns/m.0jgd>  <http://www.w3.org/2002/07/owl#sameAs>  <http://www.wikidata.org/entity/Q414> .
<http://rdf.freebase.com/ns/m.0d_23>  <http://www.w3.org/2002/07/owl#sameAs>  <http://www.wikidata.org/entity/Q2537> .
<http://rdf.freebase.com/ns/m.04g7d>  <http://www.w3.org/2002/07/owl#sameAs>  <http://www.wikidata.org/entity/Q315> .

Лицензия

Дампы данных Freebase предоставляются бесплатно для любых целей с регулярными обновлениями Google. Они распространяются, как и сама Freebase, под Creative Commons Attribution (он же CC-BY) , и их использование регулируется Условиями обслуживания . Сопоставления идентификаторов Freebase/Wikidata предоставляются в соответствии с CC0 и могут использоваться без ограничений.

Цитирование

Если вы хотите процитировать эти дампы данных в публикации, вы можете использовать:

Google, Freebase Data Dumps, https://developers.google.com/freebase/data, <month> <day>, <year>

Или как BibTeX:

БибТекс
@misc{freebase:datadumps,
  title = "Freebase Data Dumps"
  author = "Google",
  howpublished = "\url{https://developers.google.com/freebase/data}",
  edition = "<month> <day>, <year>",
  year = "<year>"
}