Daten-Dumps

Data Dumps sind eine herunterladbare Version der Daten in Freebase. Sie stellen einen Snapshot der in Freebase gespeicherten Daten und dem Schema dar, in dem sie strukturiert sind. Sie werden unter derselben CC-BY-Lizenz bereitgestellt. Die Freebase/Wikidata-Zuordnungen werden unter der CC0-Lizenz angegeben.

  1. Freebase-Dreifach
  2. Gelöschte Triple-Freebases
  3. Freebase/Wikidata-Zuordnungen
  4. Lizenz
  5. Zitieren

Freebase-Dreier

Dieses Dataset enthält alle Fakten, die aktuell in Freebase enthalten sind.
  • Dreifach insgesamt:1,9 Milliarden
  • Aktualisiert: Wöchentlich
  • Datenformat:N-Triples RDF
  • Lizenz:CC-BY
22 GB gzip
250 GB unkomprimiert

Die RDF-Daten werden im N-Triples-Format serialisiert, als UTF-8-Text codiert und mit Gzip komprimiert.

RDF
<http://rdf.freebase.com/ns/g.11vjz1ynm> <http://rdf.freebase.com/ns/measurement_unit.dated_percentage.date> "2001-02"^^<http://www.w3.org/2001/XMLSchema#gYearMonth>  .
<http://rdf.freebase.com/ns/g.11vjz1ynm>  <http://rdf.freebase.com/ns/measurement_unit.dated_percentage.source> <http://rdf.freebase.com/ns/g.11x1gf2m6>  .
<http://rdf.freebase.com/ns/g.11vjz1ynm>  <http://rdf.freebase.com/ns/type.object.type> <http://rdf.freebase.com/ns/measurement_unit.dated_percentage>  .
<http://rdf.freebase.com/ns/g.11vjz1ynm>  <http://rdf.freebase.com/ns/measurement_unit.dated_percentage.rate> 4.5 .
<http://rdf.freebase.com/ns/g.11vjz1ynm>  <http://www.w3.org/1999/02/22-rdf-syntax-ns#type> <http://rdf.freebase.com/ns/measurement_unit.dated_percentage>  .

Wenn Sie eigenen Code schreiben, um die RDF-Dumps zu parsen, ist es oft effizienter, die Daten direkt aus der GZip-Datei zu lesen, als zuerst die Daten zu extrahieren und dann die unkomprimierten Daten zu verarbeiten.

<subject>  <predicate>  <object> .

Hinweis: In Freebase haben Objekte MIDs, die wie /m/012rkqx aussehen. In RDF werden diese MIDs zu m.012rkqx. Entsprechend werden Freebase-Schemas wie /common/topic als common.topic geschrieben.

Die subject ist die ID eines Freebase-Objekts. Es kann eine Freebase-MID (z. B. m.012rkqx) für Themen und CVTs oder eine menschenlesbare ID sein (z. B. common.topic) für das Schema.

Das Prädikat ist immer eine menschenlesbare ID für eine Freebase-Property oder eine Property aus einem Standard-RDF-Vokabular wie RDFS. Freie Namespaces von Fremdschlüsseln werden auch als Prädikate verwendet, um die Suche nach Schlüsseln nach Namespace zu erleichtern.

Das Objektfeld kann eine Freebase-MID für ein Objekt oder eine menschenlesbare ID für das Schema aus Freebase oder anderen RDF-Vokabeln enthalten. Es kann auch Literalwerte wie Strings, boolesche Werte und numerische Werte enthalten.

Themenbeschreibungen enthalten oft neue Zeilen. Um jedes Dreifache in eine Zeile zu passen, wurden Zeilenumbrüche mit „\n“ maskiert.

Gelöschte Triples für Freebase

Außerdem stellen wir eine Liste von dreifachen Tabellen bereit, die im Laufe der Zeit aus Freebase gelöscht wurden. Dies ist ein einmaliger Dump bis März 2013. Wir planen eventuell, in Zukunft regelmäßig Updates zu kürzlich gelöschten 3 Beiträgen anzubieten. Derzeit haben wir jedoch noch keinen genauen Zeitraum dafür und bieten lediglich diesen einmaligen Dump an.

Der Dump wird als TAR.GZ-Datei verteilt (2,1 GB komprimiert, 7,7 GB unkomprimiert). Sie enthält 63.036.271 gelöschte 3-fache Dateien in 20 Dateien. Die einzelnen Dateien haben keine besondere Bedeutung – es ist lediglich einfacher, mehrere kleinere Dateien zu bearbeiten als eine riesige Datei.

Danke an Chun How Tan und John Giannandrea, dass du diese Daten freigegeben hast.

  • Dreifache Ergebnisse:63 Millionen
  • Aktualisiert: 9. Juni 2013
  • Datenformat:CSV
  • Lizenz:CC-BY
2 GB gzip
8 GB unkomprimiert

Das Datenformat ist im Wesentlichen eine CSV-Datei mit einem wichtigen Vorbehalt. Das Objektfeld kann beliebige Zeichen enthalten, einschließlich Kommas sowie anderer angemessener Trennzeichen, die Ihnen einfallen. Die anderen Felder enthalten jedoch bestimmt keine Kommas, sodass die Daten weiterhin eindeutig geparst werden können.

Die Spalten im Dataset sind so definiert:

  • creation_timestamp (Unix-Epochenzeit in Millisekunden)
  • Creator
  • delete_timestamp (Unix-Epochenzeit in Millisekunden)
  • Deletor
  • Betreff (MID)
  • Prädikat (MID)
  • Objekt (MID/Literal)
  • Sprachcode
CSV
1352854086000,/user/mwcl_wikipedia_en,1352855856000,/user/mwcl_wikipedia_en,/m/03r90,/type/object/key,/wikipedia/en/$B816,en
1355171076000,/user/mwcl_musicbrainz,1364258198000,/user/turtlewax_bot,/m/0nncp9z,/music/recording/artist,/m/01vbfm4,en
1176630380000,/user/mwcl_images,1335928144000,/user/gardening_bot,/m/029w57m,/common/image/size,/m/0kly56,en
1292854917000,/user/mwcl_musicbrainz,1364823418001,/user/mbz_pipeline_merge_bot,/m/0fv1vl8,/type/object/type,/common/topic,en
1205530905000,/user/mwcl_images,1336022041000,/user/gardening_bot,/m/01x5scz,/common/licensed_object/license,/m/02x6b,en
1302391361000,/user/content_administrator,1336190973000,/user/gardening_bot,/m/0gkb45y,/type/object/type,/type/content,en
1176728962002,/user/mwcl_images,1335954186000,/user/gardening_bot,/m/08430h,/common/topic/image,/m/02cs147,en
1172002568007,/user/mwcl_chefmoz,1283588560000,/user/delete_bot,/m/01z4c1z,/type/object/name,La Casa Rosa Mexican Restaurant,en

Freebase/Wikidata-Zuordnungen

Die Daten wurden auf der Grundlage des Wikidata-Dump vom 28. Oktober 2013 erstellt und enthalten nur Links, die mindestens zwei gängige Wikipedia-Links enthalten, und nicht einen einzelnen, der nicht zu Wikipedia-Links passt. Darüber hinaus sind die Zeilen nach der Anzahl der gängigen Wikipedia-Links sortiert, obwohl das in Turtle nicht so wichtig ist.
  • Dreifache Ergebnisse:2,1 Mio.
  • Aktualisiert: 28. Oktober 2013
  • Datenformat:N-Triples RDF
  • Lizenz: CC0
21,2 MB gzip
242,9 MB unkomprimiert

Die RDF-Daten werden im N-Triples-Format serialisiert, als UTF-8-Text codiert und mit Gzip komprimiert.

RDF
<http://rdf.freebase.com/ns/m.0695j>  <http://www.w3.org/2002/07/owl#sameAs>  <http://www.wikidata.org/entity/Q6718> .
<http://rdf.freebase.com/ns/m.05nrg>  <http://www.w3.org/2002/07/owl#sameAs7>  <http://www.wikidata.org/entity/Q538> .
<http://rdf.freebase.com/ns/m.0jgd>  <http://www.w3.org/2002/07/owl#sameAs>  <http://www.wikidata.org/entity/Q414> .
<http://rdf.freebase.com/ns/m.0d_23>  <http://www.w3.org/2002/07/owl#sameAs>  <http://www.wikidata.org/entity/Q2537> .
<http://rdf.freebase.com/ns/m.04g7d>  <http://www.w3.org/2002/07/owl#sameAs>  <http://www.wikidata.org/entity/Q315> .

Lizenz

Freebase Data Dumps werden kostenlos für jeden Zweck mit regelmäßigen Updates von Google bereitgestellt. Sie werden, wie Freebase selbst, gemäß der Creative-Commons-Attribution (auch „CC-BY“) genannt und unterliegen den Nutzungsbedingungen. Die Freebase-/Wikidata-ID-Zuordnungen werden unter CC0 angegeben und können ohne Einschränkungen verwendet werden.

Zitieren

Wenn Sie diese Datendumps in einer Publikation zitieren möchten, können Sie Folgendes verwenden:

Google, Freebase Data Dumps, https://developers.google.com/freebase/data, <month> <day>, <year>

Oder als BibTeX:

BibTex
@misc{freebase:datadumps,
  title = "Freebase Data Dumps"
  author = "Google",
  howpublished = "\url{https://developers.google.com/freebase/data}",
  edition = "<month> <day>, <year>",
  year = "<year>"
}