Data dump

I dump di dati sono una versione scaricabile dei dati in Freebase. costituiscono un'istantanea dei dati archiviati in Freebase e nello schema che li struttura e sono forniti con la stessa licenza CC-BY. Le mappature Freebase/Wikidata sono fornite in base alla licenza CC0.

  1. Triple freebase
  2. Triple Freebase eliminato
  3. Mappe Freebase/Wikidata
  4. Licenza
  5. Citazione

Triplo freebase

Questo set di dati contiene tutti i dati attualmente disponibili in Freebase.
  • Totale triple: 1,9 miliardi
  • Aggiornamento: settimanale
  • Formato dei dati: N-Triples RDF
  • Licenza: CC-BY
22 GB in formato gzip
250 GB non compresso

I dati RDF sono serializzati utilizzando il formato N-Triples, codificati come testo UTF-8 e compressi con Gzip.

RDF
<http://rdf.freebase.com/ns/g.11vjz1ynm> <http://rdf.freebase.com/ns/measurement_unit.dated_percentage.date> "2001-02"^^<http://www.w3.org/2001/XMLSchema#gYearMonth>  .
<http://rdf.freebase.com/ns/g.11vjz1ynm>  <http://rdf.freebase.com/ns/measurement_unit.dated_percentage.source> <http://rdf.freebase.com/ns/g.11x1gf2m6>  .
<http://rdf.freebase.com/ns/g.11vjz1ynm>  <http://rdf.freebase.com/ns/type.object.type> <http://rdf.freebase.com/ns/measurement_unit.dated_percentage>  .
<http://rdf.freebase.com/ns/g.11vjz1ynm>  <http://rdf.freebase.com/ns/measurement_unit.dated_percentage.rate> 4.5 .
<http://rdf.freebase.com/ns/g.11vjz1ynm>  <http://www.w3.org/1999/02/22-rdf-syntax-ns#type> <http://rdf.freebase.com/ns/measurement_unit.dated_percentage>  .

Se stai scrivendo il tuo codice per analizzare i file RDF, spesso è più efficiente leggerli direttamente dal file GZip invece di estrarre prima i dati e poi elaborare quelli non compressi.

<subject>  <predicate>  <object> .

Nota: in Freebase, gli oggetti hanno MID simili a /m/012rkqx. In RDF quei MID diventano m.012rkqx. Allo stesso modo, lo schema Freebase come /common/topic è scritto come common.topic.

L'oggetto è l'ID di un oggetto Freebase. Può essere un MID Freebase (ad es. m.012rkqx) per argomenti e CVT o un ID leggibile (ad es. common.topic) per lo schema.

Il predicato è sempre un ID leggibile per una proprietà Freebase o una proprietà da un vocabolario RDF standard come RDFS. Gli spazi dei nomi delle chiavi esterne di Freebase vengono utilizzati anche come predicati per semplificare la ricerca delle chiavi per spazio dei nomi.

Il campo dell'oggetto può contenere un MID Freebase per un oggetto o un ID leggibile per lo schema di Freebase o di altri vocabolari RDF. Può anche includere valori letterali come stringhe, valori booleani e valori numerici.

Le descrizioni degli argomenti contengono spesso nuove righe. Per includere tre elementi in una riga, abbiamo utilizzato i caratteri di escape per le nuove righe con "\n".

Freebase tripla eliminata

Forniamo anche un dump dei tripli che sono stati eliminati da Freebase nel corso del tempo. Si tratta di un dump una tantum effettuato fino a marzo 2013. In futuro, potremmo fornire aggiornamenti periodici delle triple eliminate di recente, ma al momento non abbiamo un periodo di tempo specifico per farlo e stiamo fornendo solo questo dump una tantum.

Il dump viene distribuito come file .tar.gz (2,1 Gb compressi, 7,7 Gb non compressi). Contiene 63.036.271 triple eliminate in 20 file (non ha un significato particolare per i singoli file, è solo più facile manipolare diversi file più piccoli di un file enorme).

Grazie a Chun How Tan e John Giannandrea per aver reso possibile la diffusione di questi dati.

  • Totale triple: 63 milioni
  • Ultimo aggiornamento: 9 giugno 2013
  • Formato dei dati: CSV
  • Licenza: CC-BY
2 GB in formato gzip
8 GB in formato non compresso

Il formato dei dati è essenzialmente CSV con un'importante avvertenza. Il campo dell'oggetto può contenere qualsiasi carattere, comprese le virgole (oltre a qualsiasi altro delimitatore ragionevole). Tuttavia, è garantito che tutti gli altri campi non contengano virgole, pertanto i dati possono essere analizzati in modo univoco.

Le colonne del set di dati sono definite come:

  • Creation_timestamp (tempo eix di Unix in millisecondi)
  • creatore
  • Eliminazione_timestamp (tempo eix di Unix in millisecondi)
  • Deletor
  • soggetto (MID)
  • predicato (MID)
  • (MID/Literal)
  • codice_lingua
CSV
1352854086000,/user/mwcl_wikipedia_en,1352855856000,/user/mwcl_wikipedia_en,/m/03r90,/type/object/key,/wikipedia/en/$B816,en
1355171076000,/user/mwcl_musicbrainz,1364258198000,/user/turtlewax_bot,/m/0nncp9z,/music/recording/artist,/m/01vbfm4,en
1176630380000,/user/mwcl_images,1335928144000,/user/gardening_bot,/m/029w57m,/common/image/size,/m/0kly56,en
1292854917000,/user/mwcl_musicbrainz,1364823418001,/user/mbz_pipeline_merge_bot,/m/0fv1vl8,/type/object/type,/common/topic,en
1205530905000,/user/mwcl_images,1336022041000,/user/gardening_bot,/m/01x5scz,/common/licensed_object/license,/m/02x6b,en
1302391361000,/user/content_administrator,1336190973000,/user/gardening_bot,/m/0gkb45y,/type/object/type,/type/content,en
1176728962002,/user/mwcl_images,1335954186000,/user/gardening_bot,/m/08430h,/common/topic/image,/m/02cs147,en
1172002568007,/user/mwcl_chefmoz,1283588560000,/user/delete_bot,/m/01z4c1z,/type/object/name,La Casa Rosa Mexican Restaurant,en

Mappature Freebase/Wikidata

I dati sono stati creati in base al Wikidata-Dump del 28 ottobre 2013 e contengono solo i link che hanno almeno due Wikipedia-Link comuni e non un singolo Wikipedia-Link in disaccordo. Inoltre, le righe sono ordinate in base al numero di link di Wikipedia comuni (sebbene in tartaruga questo aspetto non sia veramente importante).
  • Totale tripli: 2,1 Mln
  • Ultimo aggiornamento: 28 ottobre 2013
  • Formato dei dati: N-Triples RDF
  • Licenza: CC0
21,2 MB del file gzip
242,9 MB non compresso

I dati RDF sono serializzati utilizzando il formato N-Triples, codificati come testo UTF-8 e compressi con Gzip.

RDF
<http://rdf.freebase.com/ns/m.0695j>  <http://www.w3.org/2002/07/owl#sameAs>  <http://www.wikidata.org/entity/Q6718> .
<http://rdf.freebase.com/ns/m.05nrg>  <http://www.w3.org/2002/07/owl#sameAs7>  <http://www.wikidata.org/entity/Q538> .
<http://rdf.freebase.com/ns/m.0jgd>  <http://www.w3.org/2002/07/owl#sameAs>  <http://www.wikidata.org/entity/Q414> .
<http://rdf.freebase.com/ns/m.0d_23>  <http://www.w3.org/2002/07/owl#sameAs>  <http://www.wikidata.org/entity/Q2537> .
<http://rdf.freebase.com/ns/m.04g7d>  <http://www.w3.org/2002/07/owl#sameAs>  <http://www.wikidata.org/entity/Q315> .

Licenza

I dump dei dati Freebase vengono forniti senza costi per qualsiasi scopo con aggiornamenti regolari da parte di Google. Sono distribuiti, come Freebase stesso, nell'ambito dell'attribuzione Creative Commons (ovvero CC-BY) e l'utilizzo è soggetto ai Termini di servizio. Le mappature degli ID Freebase/Wikidata sono fornite in CC0 e possono essere utilizzate senza restrizioni.

Citazione

Se vuoi citare questi dump di dati in una pubblicazione, puoi utilizzare:

Google, Freebase Data Dumps, https://developers.google.com/freebase/data, <month> <day>, <year>

Oppure con BibTeX:

BibTex
@misc{freebase:datadumps,
  title = "Freebase Data Dumps"
  author = "Google",
  howpublished = "\url{https://developers.google.com/freebase/data}",
  edition = "<month> <day>, <year>",
  year = "<year>"
}