Vidages de données

Les vidages de données sont une version téléchargeable des données de Freebase. Ils constituent un instantané des données stockées dans Freebase et du schéma qui les structure. Ils sont fournis sous la même licence CC-BY. Les mappages Freebase/Wikidata sont fournis sous la licence CC0.

  1. Triplets Freebase
  2. Triplets Freebase supprimés
  3. Mappages Freebase/Wikidata
  4. Licence
  5. Citations

Triplets Freebase

Cet ensemble de données contient tous les faits actuellement disponibles dans Freebase.
  • Nombre total de triplets : 1,9 milliard
  • Fréquence de mise à jour : chaque semaine
  • Format des données : RDF N-Triples
  • Licence : CC-BY
22 Go gzip
250 Go non compressé

Les données RDF sont sérialisées au format N-Triples, encodées en texte UTF-8 et compressées avec Gzip.

RDF
<http://rdf.freebase.com/ns/g.11vjz1ynm> <http://rdf.freebase.com/ns/measurement_unit.dated_percentage.date> "2001-02"^^<http://www.w3.org/2001/XMLSchema#gYearMonth>  .
<http://rdf.freebase.com/ns/g.11vjz1ynm>  <http://rdf.freebase.com/ns/measurement_unit.dated_percentage.source> <http://rdf.freebase.com/ns/g.11x1gf2m6>  .
<http://rdf.freebase.com/ns/g.11vjz1ynm>  <http://rdf.freebase.com/ns/type.object.type> <http://rdf.freebase.com/ns/measurement_unit.dated_percentage>  .
<http://rdf.freebase.com/ns/g.11vjz1ynm>  <http://rdf.freebase.com/ns/measurement_unit.dated_percentage.rate> 4.5 .
<http://rdf.freebase.com/ns/g.11vjz1ynm>  <http://www.w3.org/1999/02/22-rdf-syntax-ns#type> <http://rdf.freebase.com/ns/measurement_unit.dated_percentage>  .

Si vous écrivez votre propre code pour analyser les dumps RDF, il est souvent plus efficace de lire directement à partir du fichier GZip plutôt que d'extraire d'abord les données, puis de traiter les données non compressées.

<subject>  <predicate>  <object> .

Remarque : Dans Freebase, les objets ont des MID qui ressemblent à /m/012rkqx. Dans RDF, ces MIDs deviennent m.012rkqx. De même, les schémas Freebase tels que /common/topic sont écrits sous la forme common.topic.

Le sujet est l'ID d'un objet Freebase. Il peut s'agir d'un MID Freebase (par exemple, m.012rkqx) pour les thèmes et les CVT, ou d'un ID lisible par l'utilisateur (par exemple, common.topic) pour le schéma.

Le prédicat est toujours un ID lisible par l'homme pour une propriété Freebase ou une propriété d'un vocabulaire RDF standard tel que RDFS. Les espaces de noms de clés étrangères Freebase sont également utilisés comme prédicats pour faciliter la recherche de clés par espace de noms.

Le champ "object" peut contenir un MID Freebase pour un objet ou un ID lisible par l'homme pour un schéma provenant de Freebase ou d'autres vocabulaires RDF. Il peut également inclure des valeurs littérales telles que des chaînes, des valeurs booléennes et des valeurs numériques.

Les descriptions de thèmes contiennent souvent des sauts de ligne. Pour que chaque triplet tienne sur une seule ligne, nous avons échappé les sauts de ligne avec "\n".

Triplets Freebase supprimés

Nous fournissons également un dump des triplets qui ont été supprimés de Freebase au fil du temps. Il s'agit d'un transfert unique jusqu'en mars 2013. À l'avenir, nous pourrons envisager de fournir des mises à jour régulières des triplets récemment supprimés, mais pour le moment, nous n'avons pas de calendrier précis pour le faire. Nous ne fournissons que cette vidange unique.

La décharge est distribuée sous forme de fichier .tar.gz (2,1 Go compressé, 7,7 Go non compressé). Il contient 63 036 271 triplets supprimés dans 20 fichiers (les fichiers individuels n'ont pas de signification particulière, il est simplement plus facile de manipuler plusieurs petits fichiers qu'un seul fichier énorme).

Merci à Chun How Tan et John Giannandrea d'avoir rendu possible la publication de ces données.

  • Nombre total de triplets : 63 millions
  • Mise à jour : 9 juin 2013
  • Format des données : CSV
  • Licence : CC-BY
2 Go gzip
8 Go non compressé

Le format des données est essentiellement CSV, avec une mise en garde importante. Le champ "Objet" peut contenir n'importe quel caractère, y compris des virgules (ainsi que tout autre délimiteur raisonnable auquel vous pourriez penser). Toutefois, tous les autres champs ne contiennent pas de virgules, ce qui permet d'analyser les données de manière non ambiguë.

Les colonnes de l'ensemble de données sont définies comme suit :

  • creation_timestamp (durée de l'epoch Unix en millisecondes)
  • créateur
  • deletion_timestamp (temps Unix en millisecondes)
  • deletor
  • objet (MID)
  • prédicat (MID)
  • objet (MID/littéral)
  • language_code
CSV
1352854086000,/user/mwcl_wikipedia_en,1352855856000,/user/mwcl_wikipedia_en,/m/03r90,/type/object/key,/wikipedia/en/$B816,en
1355171076000,/user/mwcl_musicbrainz,1364258198000,/user/turtlewax_bot,/m/0nncp9z,/music/recording/artist,/m/01vbfm4,en
1176630380000,/user/mwcl_images,1335928144000,/user/gardening_bot,/m/029w57m,/common/image/size,/m/0kly56,en
1292854917000,/user/mwcl_musicbrainz,1364823418001,/user/mbz_pipeline_merge_bot,/m/0fv1vl8,/type/object/type,/common/topic,en
1205530905000,/user/mwcl_images,1336022041000,/user/gardening_bot,/m/01x5scz,/common/licensed_object/license,/m/02x6b,en
1302391361000,/user/content_administrator,1336190973000,/user/gardening_bot,/m/0gkb45y,/type/object/type,/type/content,en
1176728962002,/user/mwcl_images,1335954186000,/user/gardening_bot,/m/08430h,/common/topic/image,/m/02cs147,en
1172002568007,/user/mwcl_chefmoz,1283588560000,/user/delete_bot,/m/01z4c1z,/type/object/name,La Casa Rosa Mexican Restaurant,en

Mappages Freebase/Wikidata

Les données ont été créées à partir du fichier dump Wikidata du 28 octobre 2013. Elles ne contiennent que les liens qui ont au moins deux liens Wikipédia communs et aucun lien Wikipédia en désaccord. De plus, les lignes sont triées par nombre de liens Wikipédia communs (bien que cela n'ait pas vraiment d'importance dans Turtle).
  • Triples totaux : 2,1 M
  • Mise à jour : 28 octobre 2013
  • Format des données : RDF N-Triples
  • Licence : CC0
21,2 Mo gzip
242,9 Mo non compressé

Les données RDF sont sérialisées au format N-Triples, encodées en texte UTF-8 et compressées avec Gzip.

RDF
<http://rdf.freebase.com/ns/m.0695j>  <http://www.w3.org/2002/07/owl#sameAs>  <http://www.wikidata.org/entity/Q6718> .
<http://rdf.freebase.com/ns/m.05nrg>  <http://www.w3.org/2002/07/owl#sameAs7>  <http://www.wikidata.org/entity/Q538> .
<http://rdf.freebase.com/ns/m.0jgd>  <http://www.w3.org/2002/07/owl#sameAs>  <http://www.wikidata.org/entity/Q414> .
<http://rdf.freebase.com/ns/m.0d_23>  <http://www.w3.org/2002/07/owl#sameAs>  <http://www.wikidata.org/entity/Q2537> .
<http://rdf.freebase.com/ns/m.04g7d>  <http://www.w3.org/2002/07/owl#sameAs>  <http://www.wikidata.org/entity/Q315> .

Licence

Les dumps de données Freebase sont fournis sans frais pour n'importe quel usage et sont régulièrement mis à jour par Google. Comme Freebase, ils sont distribués sous la licence Creative Commons Attribution (CC-BY) et leur utilisation est soumise aux Conditions d'utilisation. Les mappages d'ID Freebase/Wikidata sont fournis sous licence CC0 et peuvent être utilisés sans restriction.

Citer

Si vous souhaitez citer ces dumps de données dans une publication, vous pouvez utiliser :

Google, Freebase Data Dumps, https://developers.google.com/freebase/data, <month> <day>, <year>

Ou au format BibTeX :

BibTex
@misc{freebase:datadumps,
  title = "Freebase Data Dumps"
  author = "Google",
  howpublished = "\url{https://developers.google.com/freebase/data}",
  edition = "<month> <day>, <year>",
  year = "<year>"
}