Les vidages de données sont une version téléchargeable des données de Freebase. Ils constituent un instantané des données stockées dans Freebase et du schéma qui les structure. Ils sont fournis sous la même licence CC-BY. Les mappages Freebase/Wikidata sont fournis sous la licence CC0.
Triplets Freebase
Cet ensemble de données contient tous les faits actuellement disponibles dans Freebase. |
|
22 Go gzip 250 Go non compressé |
Les données RDF sont sérialisées au format N-Triples, encodées en texte UTF-8 et compressées avec Gzip.
<http://rdf.freebase.com/ns/g.11vjz1ynm> <http://rdf.freebase.com/ns/measurement_unit.dated_percentage.date> "2001-02"^^<http://www.w3.org/2001/XMLSchema#gYearMonth> . <http://rdf.freebase.com/ns/g.11vjz1ynm> <http://rdf.freebase.com/ns/measurement_unit.dated_percentage.source> <http://rdf.freebase.com/ns/g.11x1gf2m6> . <http://rdf.freebase.com/ns/g.11vjz1ynm> <http://rdf.freebase.com/ns/type.object.type> <http://rdf.freebase.com/ns/measurement_unit.dated_percentage> . <http://rdf.freebase.com/ns/g.11vjz1ynm> <http://rdf.freebase.com/ns/measurement_unit.dated_percentage.rate> 4.5 . <http://rdf.freebase.com/ns/g.11vjz1ynm> <http://www.w3.org/1999/02/22-rdf-syntax-ns#type> <http://rdf.freebase.com/ns/measurement_unit.dated_percentage> .
Si vous écrivez votre propre code pour analyser les dumps RDF, il est souvent plus efficace de lire directement à partir du fichier GZip plutôt que d'extraire d'abord les données, puis de traiter les données non compressées.
<subject> <predicate> <object> .
Remarque : Dans Freebase, les objets ont des MID qui ressemblent à /m/012rkqx
. Dans RDF, ces MIDs deviennent m.012rkqx. De même, les schémas Freebase tels que /common/topic
sont écrits sous la forme common.topic
.
Le sujet est l'ID d'un objet Freebase. Il peut s'agir d'un MID Freebase (par exemple, m.012rkqx) pour les thèmes et les CVT, ou d'un ID lisible par l'utilisateur (par exemple, common.topic
) pour le schéma.
Le prédicat est toujours un ID lisible par l'homme pour une propriété Freebase ou une propriété d'un vocabulaire RDF standard tel que RDFS. Les espaces de noms de clés étrangères Freebase sont également utilisés comme prédicats pour faciliter la recherche de clés par espace de noms.
Le champ "object" peut contenir un MID Freebase pour un objet ou un ID lisible par l'homme pour un schéma provenant de Freebase ou d'autres vocabulaires RDF. Il peut également inclure des valeurs littérales telles que des chaînes, des valeurs booléennes et des valeurs numériques.
Les descriptions de thèmes contiennent souvent des sauts de ligne. Pour que chaque triplet tienne sur une seule ligne, nous avons échappé les sauts de ligne avec "\n".
Triplets Freebase supprimés
Nous fournissons également un dump des triplets qui ont été supprimés de Freebase au fil du temps. Il s'agit d'un transfert unique jusqu'en mars 2013. À l'avenir, nous pourrons envisager de fournir des mises à jour régulières des triplets récemment supprimés, mais pour le moment, nous n'avons pas de calendrier précis pour le faire. Nous ne fournissons que cette vidange unique.
La décharge est distribuée sous forme de fichier .tar.gz (2,1 Go compressé, 7,7 Go non compressé). Il contient 63 036 271 triplets supprimés dans 20 fichiers (les fichiers individuels n'ont pas de signification particulière, il est simplement plus facile de manipuler plusieurs petits fichiers qu'un seul fichier énorme).
Merci à Chun How Tan et John Giannandrea d'avoir rendu possible la publication de ces données.
2 Go gzip 8 Go non compressé |
Le format des données est essentiellement CSV, avec une mise en garde importante. Le champ "Objet" peut contenir n'importe quel caractère, y compris des virgules (ainsi que tout autre délimiteur raisonnable auquel vous pourriez penser). Toutefois, tous les autres champs ne contiennent pas de virgules, ce qui permet d'analyser les données de manière non ambiguë.
Les colonnes de l'ensemble de données sont définies comme suit :
- creation_timestamp (durée de l'epoch Unix en millisecondes)
- créateur
- deletion_timestamp (temps Unix en millisecondes)
- deletor
- objet (MID)
- prédicat (MID)
- objet (MID/littéral)
- language_code
1352854086000,/user/mwcl_wikipedia_en,1352855856000,/user/mwcl_wikipedia_en,/m/03r90,/type/object/key,/wikipedia/en/$B816,en 1355171076000,/user/mwcl_musicbrainz,1364258198000,/user/turtlewax_bot,/m/0nncp9z,/music/recording/artist,/m/01vbfm4,en 1176630380000,/user/mwcl_images,1335928144000,/user/gardening_bot,/m/029w57m,/common/image/size,/m/0kly56,en 1292854917000,/user/mwcl_musicbrainz,1364823418001,/user/mbz_pipeline_merge_bot,/m/0fv1vl8,/type/object/type,/common/topic,en 1205530905000,/user/mwcl_images,1336022041000,/user/gardening_bot,/m/01x5scz,/common/licensed_object/license,/m/02x6b,en 1302391361000,/user/content_administrator,1336190973000,/user/gardening_bot,/m/0gkb45y,/type/object/type,/type/content,en 1176728962002,/user/mwcl_images,1335954186000,/user/gardening_bot,/m/08430h,/common/topic/image,/m/02cs147,en 1172002568007,/user/mwcl_chefmoz,1283588560000,/user/delete_bot,/m/01z4c1z,/type/object/name,La Casa Rosa Mexican Restaurant,en
Mappages Freebase/Wikidata
Les données ont été créées à partir du fichier dump Wikidata du 28 octobre 2013. Elles ne contiennent que les liens qui ont au moins deux liens Wikipédia communs et aucun lien Wikipédia en désaccord. De plus, les lignes sont triées par nombre de liens Wikipédia communs (bien que cela n'ait pas vraiment d'importance dans Turtle). |
|
21,2 Mo gzip 242,9 Mo non compressé |
Les données RDF sont sérialisées au format N-Triples, encodées en texte UTF-8 et compressées avec Gzip.
<http://rdf.freebase.com/ns/m.0695j> <http://www.w3.org/2002/07/owl#sameAs> <http://www.wikidata.org/entity/Q6718> . <http://rdf.freebase.com/ns/m.05nrg> <http://www.w3.org/2002/07/owl#sameAs7> <http://www.wikidata.org/entity/Q538> . <http://rdf.freebase.com/ns/m.0jgd> <http://www.w3.org/2002/07/owl#sameAs> <http://www.wikidata.org/entity/Q414> . <http://rdf.freebase.com/ns/m.0d_23> <http://www.w3.org/2002/07/owl#sameAs> <http://www.wikidata.org/entity/Q2537> . <http://rdf.freebase.com/ns/m.04g7d> <http://www.w3.org/2002/07/owl#sameAs> <http://www.wikidata.org/entity/Q315> .
Licence
Les dumps de données Freebase sont fournis sans frais pour n'importe quel usage et sont régulièrement mis à jour par Google. Comme Freebase, ils sont distribués sous la licence Creative Commons Attribution (CC-BY) et leur utilisation est soumise aux Conditions d'utilisation. Les mappages d'ID Freebase/Wikidata sont fournis sous licence CC0 et peuvent être utilisés sans restriction.
Citer
Si vous souhaitez citer ces dumps de données dans une publication, vous pouvez utiliser :
Google, Freebase Data Dumps, https://developers.google.com/freebase/data, <month> <day>, <year>
Ou au format BibTeX :
@misc{freebase:datadumps, title = "Freebase Data Dumps" author = "Google", howpublished = "\url{https://developers.google.com/freebase/data}", edition = "<month> <day>, <year>", year = "<year>" }