Volcado de datos

Los volcados de datos son una versión descargable de los datos de Freebase. Estos constituyen un resumen de los datos almacenados en Freebase y el esquema que los estructura, y se proporcionan bajo la misma licencia CC-BY. Las asignaciones de Freebase/Wikidata se proporcionan bajo la licencia CC0.

  1. Triples Freebase
  2. Triples borrados de Freebase
  3. Mapas de Freebase/Wikidata
  4. Licencia
  5. Citado

Triples Freebase

Este conjunto de datos contiene todos los datos que se encuentran actualmente en Freebase.
  • Total de triples: 1.900 millones
  • Actualizado: Semanalmente
  • Formato de datos: N-Triples RDF
  • Licencia: CC-BY
Gzip de 22 GB
250 GB sin comprimir

Los datos RDF se serializan con el formato N-Triples, codificados como texto UTF-8 y comprimidos con Gzip.

RDF
<http://rdf.freebase.com/ns/g.11vjz1ynm> <http://rdf.freebase.com/ns/measurement_unit.dated_percentage.date> "2001-02"^^<http://www.w3.org/2001/XMLSchema#gYearMonth>  .
<http://rdf.freebase.com/ns/g.11vjz1ynm>  <http://rdf.freebase.com/ns/measurement_unit.dated_percentage.source> <http://rdf.freebase.com/ns/g.11x1gf2m6>  .
<http://rdf.freebase.com/ns/g.11vjz1ynm>  <http://rdf.freebase.com/ns/type.object.type> <http://rdf.freebase.com/ns/measurement_unit.dated_percentage>  .
<http://rdf.freebase.com/ns/g.11vjz1ynm>  <http://rdf.freebase.com/ns/measurement_unit.dated_percentage.rate> 4.5 .
<http://rdf.freebase.com/ns/g.11vjz1ynm>  <http://www.w3.org/1999/02/22-rdf-syntax-ns#type> <http://rdf.freebase.com/ns/measurement_unit.dated_percentage>  .

Si está escribiendo su propio código para analizar los volcados de RDF, suele ser más eficiente leerlos directamente desde el archivo GZip en lugar de extraerlos primero y, luego, procesar los datos sin comprimir.

<subject>  <predicate>  <object> .

Nota: En Freebase, los objetos tienen MID que se parecen a /m/012rkqx. En RDF, esos MID se convierten en m.012rkqx. Del mismo modo, el esquema de Freebase como /common/topic se escribe como common.topic.

El subject es el ID de un objeto de Freebase. Puede ser un MID de Freebase (p. ej., m.012rkqx) para temas y CVT o un ID legible (p. ej., common.topic) para el esquema.

El predicado siempre es un ID legible para una propiedad Freebase o una propiedad de un vocabulario de RDF estándar, como RDFS. Los espacios de nombres de claves externas de Freebase también se usan como predicados para facilitar la búsqueda de claves por espacio de nombres.

El campo del objeto puede contener un MID de Freebase para un objeto o un ID legible para el esquema de Freebase u otros vocabularios de RDF. También puede incluir valores literales como strings, booleanos y valores numéricos.

Las descripciones de los temas suelen contener saltos de línea. Para que cada triple ajuste quepa en una línea, se escapan líneas nuevas con "\n".

Triples borrados de Freebase

También proporcionamos un volcado de triples, que se han borrado de Freebase con el paso del tiempo. Este es un volcado de una sola vez hasta marzo de 2013. En el futuro, podríamos considerar proporcionar actualizaciones periódicas de los elementos triples borrados recientemente, pero, por el momento, no tenemos un plazo específico para hacerlo y solo proporcionamos este volcado único.

El volcado se distribuye como un archivo .tar.gz (comprimido de 2.1 Gb, sin comprimir de 7.7 GB). Contiene 63,036,271 elementos triples borrados en 20 archivos (no hay un significado particular para los archivos individuales, solo es más fácil manipular varios archivos más pequeños que un archivo enorme).

Gracias a Chun How Tan y John Giannandrea por hacer posible este lanzamiento de datos.

  • Total de triples: 63 millones
  • Actualizado: 9 de junio de 2013
  • Formato de datos: CSV
  • Licencia: CC-BY
Gzip de 2 GB
8 GB sin comprimir

Básicamente, el formato de los datos es CSV con una salvedad importante. El campo de objeto puede contener cualquier carácter, incluidas comas (así como cualquier otro delimitador razonable que se le ocurra). Sin embargo, se garantiza que todos los demás campos no contienen comas, por lo que los datos aún se pueden analizar de manera inequívoca.

Las columnas del conjunto de datos se definen de la siguiente manera:

  • Creation_timestamp (tiempo de época Unix en milisegundos)
  • creador
  • delete_timestamp (tiempo Unix epoch en milisegundos)
  • delegado
  • sujeto (MID)
  • predicado (MID)
  • objeto (MID/literal)
  • código_idioma
CSV
1352854086000,/user/mwcl_wikipedia_en,1352855856000,/user/mwcl_wikipedia_en,/m/03r90,/type/object/key,/wikipedia/en/$B816,en
1355171076000,/user/mwcl_musicbrainz,1364258198000,/user/turtlewax_bot,/m/0nncp9z,/music/recording/artist,/m/01vbfm4,en
1176630380000,/user/mwcl_images,1335928144000,/user/gardening_bot,/m/029w57m,/common/image/size,/m/0kly56,en
1292854917000,/user/mwcl_musicbrainz,1364823418001,/user/mbz_pipeline_merge_bot,/m/0fv1vl8,/type/object/type,/common/topic,en
1205530905000,/user/mwcl_images,1336022041000,/user/gardening_bot,/m/01x5scz,/common/licensed_object/license,/m/02x6b,en
1302391361000,/user/content_administrator,1336190973000,/user/gardening_bot,/m/0gkb45y,/type/object/type,/type/content,en
1176728962002,/user/mwcl_images,1335954186000,/user/gardening_bot,/m/08430h,/common/topic/image,/m/02cs147,en
1172002568007,/user/mwcl_chefmoz,1283588560000,/user/delete_bot,/m/01z4c1z,/type/object/name,La Casa Rosa Mexican Restaurant,en

Asignaciones de Freebase/Wikidata

Los datos se crearon en función de la información de Wikidata-Dump del 28 de octubre de 2013 y contienen solo aquellos vínculos que tienen, como mínimo, dos vínculos de Wikipedia comunes y no hay un solo Wikipedia-Link en desacuerdo. Además, las líneas se ordenan según el número de vínculos de Wikipedia comunes (aunque en la tortuga esto no importa mucho).
  • Triples totales: 2.1 millones
  • Actualizado: 28 de octubre de 2013
  • Formato de datos: N-Triples RDF
  • Licencia: CC0
Gzip de 21.2 MB
242.9 MB sin comprimir

Los datos RDF se serializan con el formato N-Triples, codificados como texto UTF-8 y comprimidos con Gzip.

RDF
<http://rdf.freebase.com/ns/m.0695j>  <http://www.w3.org/2002/07/owl#sameAs>  <http://www.wikidata.org/entity/Q6718> .
<http://rdf.freebase.com/ns/m.05nrg>  <http://www.w3.org/2002/07/owl#sameAs7>  <http://www.wikidata.org/entity/Q538> .
<http://rdf.freebase.com/ns/m.0jgd>  <http://www.w3.org/2002/07/owl#sameAs>  <http://www.wikidata.org/entity/Q414> .
<http://rdf.freebase.com/ns/m.0d_23>  <http://www.w3.org/2002/07/owl#sameAs>  <http://www.wikidata.org/entity/Q2537> .
<http://rdf.freebase.com/ns/m.04g7d>  <http://www.w3.org/2002/07/owl#sameAs>  <http://www.wikidata.org/entity/Q315> .

Licencia

Los volcados de datos Freebase se proporcionan sin costo para cualquier propósito con actualizaciones periódicas de Google. Se distribuyen, como Freebase, bajo la Atribución de Creative Commons (también conocido como CC-BY), y el uso está sujeto a las Condiciones del Servicio. Las asignaciones de ID de Freebase/Wikidata se proporcionan en CC0 y se pueden usar sin restricciones.

Citas

Si quieres citar estos volcados de datos en una publicación, puedes usar:

Google, Freebase Data Dumps, https://developers.google.com/freebase/data, <month> <day>, <year>

O como BibTeX:

BibTex
@misc{freebase:datadumps,
  title = "Freebase Data Dumps"
  author = "Google",
  howpublished = "\url{https://developers.google.com/freebase/data}",
  edition = "<month> <day>, <year>",
  year = "<year>"
}