Os despejos de dados são uma versão para download dos dados no Freebase. Eles constituem um snapshot dos dados armazenados no Freebase e no esquema que os estrutura, sendo fornecidos sob a mesma licença CC-BY. Os mapeamentos do Freebase/Wikidata são fornecidos sob a licença CC0.
Triplas do Freebase
Esse conjunto de dados contém todos os fatos atualmente na Freebase. |
|
22 GB gzip 250 GB sem compactação |
Os dados RDF são serializados usando o formato N-Triples, codificados como texto UTF-8 e compactados com Gzip.
<http://rdf.freebase.com/ns/g.11vjz1ynm> <http://rdf.freebase.com/ns/measurement_unit.dated_percentage.date> "2001-02"^^<http://www.w3.org/2001/XMLSchema#gYearMonth> . <http://rdf.freebase.com/ns/g.11vjz1ynm> <http://rdf.freebase.com/ns/measurement_unit.dated_percentage.source> <http://rdf.freebase.com/ns/g.11x1gf2m6> . <http://rdf.freebase.com/ns/g.11vjz1ynm> <http://rdf.freebase.com/ns/type.object.type> <http://rdf.freebase.com/ns/measurement_unit.dated_percentage> . <http://rdf.freebase.com/ns/g.11vjz1ynm> <http://rdf.freebase.com/ns/measurement_unit.dated_percentage.rate> 4.5 . <http://rdf.freebase.com/ns/g.11vjz1ynm> <http://www.w3.org/1999/02/22-rdf-syntax-ns#type> <http://rdf.freebase.com/ns/measurement_unit.dated_percentage> .
Se você estiver escrevendo seu próprio código para analisar os despejos de RDF, geralmente é mais eficiente ler diretamente do arquivo GZip do que extrair os dados primeiro e depois processar os dados descompactados.
<subject> <predicate> <object> .
Observação: no Freebase, os objetos têm MIDs que parecem /m/012rkqx
. No RDF, esses MIDs se tornam m.012rkqx. Da mesma forma, o esquema do Freebase, como /common/topic
, é escrito como common.topic
.
O assunto é o ID de um objeto do Freebase. Pode ser um MID do Freebase (por exemplo, m.012rkqx) para temas e CVTs ou um ID legível para humanos (por exemplo, common.topic
) para o esquema.
O predicado é sempre um ID legível de uma propriedade do Freebase ou de um vocabulário RDF padrão, como RDFS. Os namespaces de chave estrangeira do Freebase também são usados como predicados para facilitar a pesquisa de chaves por namespace.
O campo de objeto pode conter um MID do Freebase para um objeto ou um ID legível para humanos para um esquema do Freebase ou outros vocabulários RDF. Também pode incluir valores literais, como strings, booleanos e valores numéricos.
As descrições de tópicos geralmente contêm novas linhas. Para que cada tripla caiba em uma linha, usamos o escape de novas linhas com "\n".
Triplas excluídas do Freebase
Também fornecemos um despejo de triplas que foram excluídas da Freebase ao longo do tempo. Esse é um despejo único até março de 2013. No futuro, podemos considerar fornecer atualizações periódicas de triplas excluídas recentemente, mas no momento não temos um prazo específico para isso e estamos fornecendo apenas este despejo único.
O dump é distribuído como um arquivo .tar.gz (2,1 GB compactado, 7,7 GB descompactado). Ele contém 63.036.271 triplas excluídas em 20 arquivos. Não há um significado específico para os arquivos individuais. É apenas mais fácil manipular vários arquivos menores do que um arquivo enorme.
Agradecemos a Chun How Tan e John Giannandrea por tornar possível o lançamento desses dados.
2 GB gzip 8 GB sem compactação |
O formato de dados é essencialmente CSV, com uma observação importante. O campo de objeto pode conter qualquer caractere, incluindo vírgulas (e qualquer outro delimitador razoável que você possa imaginar). No entanto, todos os outros campos não contêm vírgulas, então os dados ainda podem ser analisados sem ambiguidade.
As colunas no conjunto de dados são definidas como:
- creation_timestamp (tempo de época Unix em milissegundos)
- criador
- deletion_timestamp (tempo de época Unix em milissegundos)
- excluidor
- assunto (MID)
- predicado (MID)
- objeto (MID/literal)
- language_code
1352854086000,/user/mwcl_wikipedia_en,1352855856000,/user/mwcl_wikipedia_en,/m/03r90,/type/object/key,/wikipedia/en/$B816,en 1355171076000,/user/mwcl_musicbrainz,1364258198000,/user/turtlewax_bot,/m/0nncp9z,/music/recording/artist,/m/01vbfm4,en 1176630380000,/user/mwcl_images,1335928144000,/user/gardening_bot,/m/029w57m,/common/image/size,/m/0kly56,en 1292854917000,/user/mwcl_musicbrainz,1364823418001,/user/mbz_pipeline_merge_bot,/m/0fv1vl8,/type/object/type,/common/topic,en 1205530905000,/user/mwcl_images,1336022041000,/user/gardening_bot,/m/01x5scz,/common/licensed_object/license,/m/02x6b,en 1302391361000,/user/content_administrator,1336190973000,/user/gardening_bot,/m/0gkb45y,/type/object/type,/type/content,en 1176728962002,/user/mwcl_images,1335954186000,/user/gardening_bot,/m/08430h,/common/topic/image,/m/02cs147,en 1172002568007,/user/mwcl_chefmoz,1283588560000,/user/delete_bot,/m/01z4c1z,/type/object/name,La Casa Rosa Mexican Restaurant,en
Mapeamentos da Freebase/Wikidata
Os dados foram criados com base no despejo da Wikidata de 28 de outubro de 2013 e contêm apenas os links que têm pelo menos dois links comuns da Wikipédia e nenhum link discordante da Wikipédia. Além disso, as linhas são classificadas pelo número de links comuns da Wikipédia (embora isso não seja muito importante em Turtle). |
|
21,2 MB gzip 242,9 MB sem compactação |
Os dados RDF são serializados usando o formato N-Triples, codificados como texto UTF-8 e compactados com Gzip.
<http://rdf.freebase.com/ns/m.0695j> <http://www.w3.org/2002/07/owl#sameAs> <http://www.wikidata.org/entity/Q6718> . <http://rdf.freebase.com/ns/m.05nrg> <http://www.w3.org/2002/07/owl#sameAs7> <http://www.wikidata.org/entity/Q538> . <http://rdf.freebase.com/ns/m.0jgd> <http://www.w3.org/2002/07/owl#sameAs> <http://www.wikidata.org/entity/Q414> . <http://rdf.freebase.com/ns/m.0d_23> <http://www.w3.org/2002/07/owl#sameAs> <http://www.wikidata.org/entity/Q2537> . <http://rdf.freebase.com/ns/m.04g7d> <http://www.w3.org/2002/07/owl#sameAs> <http://www.wikidata.org/entity/Q315> .
Licença
Os despejos de dados do Freebase são fornecidos sem custo financeiro para qualquer finalidade com atualizações regulares do Google. Eles são distribuídos, assim como o próprio Freebase, sob a licença Creative Commons Attribution (CC-BY), e o uso está sujeito aos Termos de Serviço. Os mapeamentos de ID do Freebase/Wikidata são fornecidos sob CC0 e podem ser usados sem restrições.
Citação
Se quiser citar esses despejos de dados em uma publicação, use:
Google, Freebase Data Dumps, https://developers.google.com/freebase/data, <month> <day>, <year>
Ou como BibTeX:
@misc{freebase:datadumps, title = "Freebase Data Dumps" author = "Google", howpublished = "\url{https://developers.google.com/freebase/data}", edition = "<month> <day>, <year>", year = "<year>" }