Data dump

I dump dei dati sono una versione scaricabile dei dati in Freebase. Costituiscono uno snapshot dei dati archiviati in Freebase e dello schema che li struttura e vengono forniti con la stessa licenza CC-BY. I mapping Freebase/Wikidata sono forniti ai sensi della licenza CC0.

  1. Freebase Triples
  2. Freebase Deleted Triples
  3. Mappature Freebase/Wikidata
  4. Licenza
  5. Citazione

Freebase Triples

Questo set di dati contiene tutti i fatti attualmente presenti in Freebase.
  • Totale triple: 1,9 miliardi
  • Aggiornamento: settimanale
  • Formato dati: N-Triples RDF
  • Licenza: CC-BY
22 GB gzip
250 GB non compresso

I dati RDF vengono serializzati utilizzando il formato N-Triples, codificati come testo UTF-8 e compressi con Gzip.

RDF
<http://rdf.freebase.com/ns/g.11vjz1ynm> <http://rdf.freebase.com/ns/measurement_unit.dated_percentage.date> "2001-02"^^<http://www.w3.org/2001/XMLSchema#gYearMonth>  .
<http://rdf.freebase.com/ns/g.11vjz1ynm>  <http://rdf.freebase.com/ns/measurement_unit.dated_percentage.source> <http://rdf.freebase.com/ns/g.11x1gf2m6>  .
<http://rdf.freebase.com/ns/g.11vjz1ynm>  <http://rdf.freebase.com/ns/type.object.type> <http://rdf.freebase.com/ns/measurement_unit.dated_percentage>  .
<http://rdf.freebase.com/ns/g.11vjz1ynm>  <http://rdf.freebase.com/ns/measurement_unit.dated_percentage.rate> 4.5 .
<http://rdf.freebase.com/ns/g.11vjz1ynm>  <http://www.w3.org/1999/02/22-rdf-syntax-ns#type> <http://rdf.freebase.com/ns/measurement_unit.dated_percentage>  .

Se scrivi il tuo codice per analizzare i dump RDF, spesso è più efficiente leggere direttamente dal file GZip anziché estrarre prima i dati e poi elaborare i dati decompressi.

<subject>  <predicate>  <object> .

Nota: in Freebase, gli oggetti hanno MID simili a /m/012rkqx. In RDF questi ID diventano m.012rkqx. Allo stesso modo, lo schema Freebase come /common/topic viene scritto come common.topic.

Il soggetto è l'ID di un oggetto Freebase. Può essere un MID Freebase (ad es. m.012rkqx) per argomenti e CVT o un ID leggibile (ad es. common.topic) per lo schema.

Il predicato è sempre un ID leggibile da una persona per una proprietà Freebase o una proprietà di un vocabolario RDF standard come RDFS. Gli spazi dei nomi delle chiavi esterne di Freebase vengono utilizzati anche come predicati per semplificare la ricerca delle chiavi per spazio dei nomi.

Il campo dell'oggetto può contenere un MID Freebase per un oggetto o un ID leggibile per lo schema di Freebase o altri vocabolari RDF. Può includere anche valori letterali come stringhe, valori booleani e numerici.

Le descrizioni degli argomenti spesso contengono caratteri di fine riga. Per fare in modo che ogni tripla rientri in una riga, abbiamo eseguito l'escape dei caratteri di nuova riga con "\n".

Freebase Deleted Triples

Forniamo anche un dump delle triple che sono state eliminate da Freebase nel tempo. Si tratta di un dump una tantum fino a marzo 2013. In futuro potremmo prendere in considerazione la possibilità di fornire aggiornamenti periodici delle triple eliminate di recente, ma al momento non abbiamo una tempistica specifica per farlo e forniamo solo questo dump una tantum.

Il dump viene distribuito come file .tar.gz (2,1 GB compresso, 7,7 GB non compresso). Contiene 63.036.271 triple eliminate in 20 file (i singoli file non hanno un significato particolare, è solo più facile manipolare diversi file più piccoli rispetto a un unico file enorme).

Grazie a Chun How Tan e John Giannandrea per aver reso possibile il rilascio di questi dati.

  • Tripli totali: 63 milioni
  • Ultimo aggiornamento: 9 giugno 2013
  • Formato dati:CSV
  • Licenza: CC-BY
2 GB gzip
8 GB non compresso

Il formato dei dati è essenzialmente CSV con un'importante avvertenza. Il campo dell'oggetto può contenere qualsiasi carattere, comprese le virgole (e qualsiasi altro delimitatore ragionevole che ti venga in mente). Tuttavia, è garantito che tutti gli altri campi non contengano virgole, quindi i dati possono comunque essere analizzati in modo non ambiguo.

Le colonne nel set di dati sono definite come segue:

  • creation_timestamp (tempo Unix in millisecondi)
  • creator
  • deletion_timestamp (tempo Unix in millisecondi)
  • eliminatore
  • soggetto (MID)
  • predicato (MID)
  • oggetto (MID/letterale)
  • language_code
CSV
1352854086000,/user/mwcl_wikipedia_en,1352855856000,/user/mwcl_wikipedia_en,/m/03r90,/type/object/key,/wikipedia/en/$B816,en
1355171076000,/user/mwcl_musicbrainz,1364258198000,/user/turtlewax_bot,/m/0nncp9z,/music/recording/artist,/m/01vbfm4,en
1176630380000,/user/mwcl_images,1335928144000,/user/gardening_bot,/m/029w57m,/common/image/size,/m/0kly56,en
1292854917000,/user/mwcl_musicbrainz,1364823418001,/user/mbz_pipeline_merge_bot,/m/0fv1vl8,/type/object/type,/common/topic,en
1205530905000,/user/mwcl_images,1336022041000,/user/gardening_bot,/m/01x5scz,/common/licensed_object/license,/m/02x6b,en
1302391361000,/user/content_administrator,1336190973000,/user/gardening_bot,/m/0gkb45y,/type/object/type,/type/content,en
1176728962002,/user/mwcl_images,1335954186000,/user/gardening_bot,/m/08430h,/common/topic/image,/m/02cs147,en
1172002568007,/user/mwcl_chefmoz,1283588560000,/user/delete_bot,/m/01z4c1z,/type/object/name,La Casa Rosa Mexican Restaurant,en

Mappature Freebase/Wikidata

I dati sono stati creati in base al dump di Wikidata del 28 ottobre 2013 e contengono solo i link che hanno almeno due link di Wikipedia in comune e non un singolo link di Wikipedia in disaccordo. Inoltre, le righe sono ordinate in base al numero di link di Wikipedia comuni (anche se in Turtle questo non ha molta importanza).
  • Tripli totali: 2,1 milioni
  • Ultimo aggiornamento: 28 ottobre 2013
  • Formato dati: N-Triples RDF
  • Licenza: CC0
21,2 MB gzip
242,9 MB non compresso

I dati RDF vengono serializzati utilizzando il formato N-Triples, codificati come testo UTF-8 e compressi con Gzip.

RDF
<http://rdf.freebase.com/ns/m.0695j>  <http://www.w3.org/2002/07/owl#sameAs>  <http://www.wikidata.org/entity/Q6718> .
<http://rdf.freebase.com/ns/m.05nrg>  <http://www.w3.org/2002/07/owl#sameAs7>  <http://www.wikidata.org/entity/Q538> .
<http://rdf.freebase.com/ns/m.0jgd>  <http://www.w3.org/2002/07/owl#sameAs>  <http://www.wikidata.org/entity/Q414> .
<http://rdf.freebase.com/ns/m.0d_23>  <http://www.w3.org/2002/07/owl#sameAs>  <http://www.wikidata.org/entity/Q2537> .
<http://rdf.freebase.com/ns/m.04g7d>  <http://www.w3.org/2002/07/owl#sameAs>  <http://www.wikidata.org/entity/Q315> .

Licenza

I dump di dati di Freebase vengono forniti senza costi per qualsiasi scopo con aggiornamenti regolari da parte di Google. Come Freebase, sono distribuiti con licenza Creative Commons Attribution (CC-BY) e l'utilizzo è soggetto ai Termini di servizio. I mapping degli ID Freebase/Wikidata sono forniti ai sensi della licenza CC0 e possono essere utilizzati senza limitazioni.

Citazione

Se vuoi citare questi dump di dati in una pubblicazione, puoi utilizzare:

Google, Freebase Data Dumps, https://developers.google.com/freebase/data, <month> <day>, <year>

Oppure come BibTeX:

BibTex
@misc{freebase:datadumps,
  title = "Freebase Data Dumps"
  author = "Google",
  howpublished = "\url{https://developers.google.com/freebase/data}",
  edition = "<month> <day>, <year>",
  year = "<year>"
}