Datensatz

Ein Datensatz lässt sich einfacher finden, wenn Sie strukturierte Daten verwenden, um ergänzende Informationen wie den Namen, eine Beschreibung, den Ersteller und das Distributionsformat anzugeben. Um das Auffinden von Datensätzen zu erleichtern, nutzt Google schema.org und andere Metadatenstandards, die den Seiten, die Datensätze beschreiben, hinzugefügt werden können. Der Zweck dieses Markups besteht darin, das Auffinden von Datensätzen aus Bereichen wie Bio- und Sozialwissenschaften, maschinellem Lernen oder zivilen und staatlichen Daten zu optimieren.

Hier einige Beispiele für mögliche Datensätze:

  • Eine Tabelle oder CSV-Datei mit einigen Daten
  • Eine organisierte Sammlung von Tabellen
  • Eine Datei in einem proprietären Format, die Daten enthält
  • Eine Sammlung von Dateien, die gemeinsam einen aussagekräftigen Datensatz bilden
  • Ein strukturiertes Objekt mit Daten in einem anderen Format, die Sie zur Verarbeitung in ein spezielles Tool laden möchten
  • Bilder von Daten
  • Dateien für maschinelles Lernen, beispielsweise trainierte Parameter oder Definitionen von Strukturen neuronaler Netzwerke
  • Alles, was für Sie wie ein Datensatz aussieht

So ermöglichen wir das Auffinden von Datensätzen

Damit wir strukturierte Daten über Datensätze auf Webseiten verstehen können, nutzen wir wahlweise Dataset-Markup von schema.org oder gleichwertige Strukturen im DCAT-Format (Data Catalog Vocabulary) des W3C. Außerdem erforschen wir die experimentelle Unterstützung für strukturierte Daten auf der Grundlage von W3C-konformem CSVW. Wir werden unseren Ansatz orientiert daran, wie sich die Best Practices für die Datensatzbeschreibung entwickeln, künftig ebenfalls weiterentwickeln. Weitere Informationen finden Sie unter Das Auffinden von öffentlichen Datensätze erleichtern.

Beispiele

Hier sehen Sie ein Beispiel für Datensätze mit der – bevorzugten – JSON-LD-Syntax im Testtool für strukturierte Daten. Das gleiche Vokabular kann auch in RDFa 1.1-, Mikrodaten- oder W3C-DCAT-Vokabular verwendet werden. Das folgende Beispiel basiert auf der Beschreibung eines realen Datensatzes.

JSON-LD

Hier sehen Sie ein Beispiel eines Datensatzes in JSON-LD:

RDFa

Hier ein Beispiel für einen Datensatz in RDFa:

Richtlinien

Websites müssen die Richtlinien für strukturierte Daten einhalten. Zusätzlich empfehlen wir die folgenden Best Practices für Sitemaps und Best Practices für Quelle und Herkunft.

Best Practices für Sitemaps

Wenn Sie eine Sitemap-Datei verwenden, kann Google Ihre URLs einfacher finden. Mithilfe von Sitemap-Dateien und sameAs-Markup wird dokumentiert, wie Datensatzbeschreibungen auf Ihrer Website veröffentlicht werden.

Wenn Sie ein Datensatz-Repository haben, dann gibt es auf Ihrer Website wahrscheinlich mindestens zwei Seitentypen: kanonische Seiten – also "Landingpages" – für jeden Datensatz sowie Seiten, die mehrere Datensätze auflisten, also etwa Suchergebnisse oder Datensatzteilmengen. Wir empfehlen, strukturierte Daten zu einem Datensatz den kanonischen Seiten hinzuzufügen. Mit der Property sameAs stellen Sie eine Verknüpfung zur kanonischen Seite her, wenn Sie mehreren Kopien des Datensatzes, wie etwa Auflistungen auf Suchergebnisseiten, strukturierte Daten hinzufügen.

Best Practices für Quelle und Herkunft

Offene Datensätze werden häufig mehrfach veröffentlicht, aggregiert und auf der Basis anderer Datensätze erstellt. Im Folgenden finden Sie eine erste Skizze unseres Ansatzes, mit dem wir Situationen darstellen, in denen ein Datensatz eine Kopie eines anderen Datensatzes ist oder in anderer Weise auf diesem basiert.

  • In Fällen, in denen der Datensatz oder die Beschreibung eine einfache Neuveröffentlichung von bereits anderweitig veröffentlichtem Material ist, verwenden Sie die Property sameAs zur Kennzeichnung der kanonischsten URLs für das Original.
  • Falls der wieder veröffentlichte Datensatz – gegebenenfalls einschließlich seiner Metadaten – beträchtlich verändert wurde, verwenden Sie die Property isBasedOn.
  • Wenn ein Datensatz von mehreren Originalen abstammt oder diese aggregiert, verwenden Sie ebenfalls die Property isBasedOn.
  • Mit der Property identifier können Sie relevante Digital Object Identifiers (DOIs) oder Compact Identifiers anhängen. Wenn der Datensatz mehrere IDs enthält, verwenden Sie die Property identifier mehrmals. In JSON-LD wird dies mithilfe der JSON-Listensyntax dargestellt.

Wir hoffen, unsere Empfehlungen auf Grundlage des Nutzerfeedbacks optimieren zu können, und zwar insbesondere in den Bereichen Herkunft und Versionierung und bei den Datumsangaben im Zusammenhang mit der Veröffentlichung von Zeitreihen. Wir laden Sie außerdem ein, an den Diskussionen in der Community teilzunehmen.

Empfehlungen für textbasierte Properties

Wir empfehlen, alle textbasierten Felder auf maximal 5.000 Zeichen zu beschränken. Die Google Datensatzsuche verwendet nur die ersten 5.000 Zeichen jedes textbasierten Feldes. Namen und Titel bestehen normalerweise nur aus wenigen Wörtern oder einem kurzen Satz.

Bekannte Fehler und Warnungen

Möglicherweise treten im Testtool für strukturierte Daten von Google und in anderen Validierungssystemen Fehler oder Warnungen auf. Validierungssysteme empfehlen Organisationen möglicherweise auch, Kontaktdaten einschließlich eines contactType einzubinden; nützliche Werte hierfür sind customer service, emergency, journalist, newsroom und public engagement. Fehler für csvw:Table als unerwarteter Wert der Property mainEntity können Sie ignorieren.

Definitionen strukturierter Datentypen

Damit Ihre Inhalte als Rich-Suchergebnis angezeigt werden können, müssen Sie alle erforderlichen Properties hinzufügen. Sie können auch die empfohlenen Properties einbinden, um weitere Informationen zu Ihren Inhalten hinzuzufügen und Ihren Nutzern so einen Mehrwert zu bieten.

Überprüfen Sie Ihr Markup mit dem Testtool für strukturierte Daten.

Das Hauptaugenmerk liegt auf der Beschreibung von Informationen zu einem Datensatz bzw. dessen Metadaten und der Beschreibung seiner Inhalte. So geben Datensatz-Metadaten beispielsweise an, welchen Zweck der Datensatz erfüllt, welche Variablen er misst oder wer ihn erstellt hat. Nicht enthalten sind dagegen zum Beispiel konkrete Werte für die Variablen.

Dataset

Die vollständige Definition von Dataset finden Sie unter schema.org/Dataset.

Sie können zusätzliche Informationen zur Veröffentlichung des Datensatzes angeben, etwa die Lizenz, den Zeitpunkt der Veröffentlichung, den DOI oder einen sameAs-Wert, der auf eine kanonische Version des Datensatzes in einem anderen Repository verweist. Fügen Sie identifier, license und sameAs für Datensätze hinzu, um Informationen zu Herkunft und Lizenz zur Verfügung zu stellen.

Erforderliche Propertys
description Text

Eine kurze Zusammenfassung, die den Datensatz beschreibt

Richtlinien

  • Die Zusammenfassung muss zwischen 50 und 5.000 Zeichen lang sein.
  • Die Zusammenfassung kann Markdown-Syntax enthalten. Für eingebettete Bilder müssen URLs für den absoluten Pfad verwendet werden, keine relativen Pfade.
  • Markieren Sie im JSON-LD-Format neue Zeilen mit \n, also zwei Zeichen: einem umgekehrten Schrägstrich und dem Kleinbuchstaben "n".
name Text

Ein aussagekräftiger Name für den Datensatz. Beispiel: "Schneehöhen in der nördlichen Hemisphäre".

Empfohlene Properties
alternateName Text

Alternative Namen für diesen Datensatz, z. B. Aliasse oder Abkürzungen. Beispiel im JSON-LD-Format:

"name": "The Quick, Draw! Dataset"
"alternateName": ["Quick Draw Dataset", "quickdraw-dataset"]
creator Person oder Organization

Der Ersteller oder Autor dieses Datensatzes. Verwenden Sie ORCID-ID als Wert für die sameAs-Property des Typs Person. Verwenden Sie ROR-ID um Institutionen und Organisationen eindeutig zu identifizieren. Beispiel (im JSON-LD-Format):

"creator": [
    {
        "@type": "Person",
        "sameAs": "http://orcid.org/0000-0000-0000-0000",
        "givenName": "Jane",
        "familyName": "Foo",
        "name": "Jane Foo"
    },
    {
        "@type": "Person",
        "sameAs": "http://orcid.org/0000-0000-0000-0001",
        "givenName": "Jo",
        "familyName": "Bar",
        "name": "Jo Bar"
    },
    {
        "@type": "Organization",
        "sameAs": "http://ror.org/xxxxxxxxx",
        "name": "Fictitious Research Consortium"
    }
]
citation Text oder CreativeWork

Kennzeichnet wissenschaftliche Artikel, die vom Datenanbieter empfohlen und zusätzlich zum Datensatz selbst zitiert werden. Wenn Sie Informationen zum Datensatz hinzufügen möchten, verwenden Sie stattdessen die Felder name, identifier, creator und publisher. Mit diesem Feld kann eine ähnliche wissenschaftliche Publikation eindeutig identifiziert werden, z. B. ein Datendeskriptor, ein Artikel oder eine Datenpublikation, den bzw. die dieser Datensatz ergänzt. Beispiele im JSON-LD-Format:

"citation": "https://doi.org/10.1111/111"
"citation": "https://identifiers.org/pubmed:11111111"
"citation": "https://identifiers.org/arxiv:0111.1111v1"
"citation":
 "Doe J (2014) Influence of X ... https://doi.org/10.1111/111"

Zusätzliche Richtlinien

  • Verwenden Sie dieses Feld nicht, um Zitationen für den Datensatz selbst anzugeben. Hiermit sollen nur ähnliche wissenschaftliche Artikel markiert werden, nicht der Datensatz selbst. Wenn Sie Informationen dem Datensatz hinzufügen möchten, verwenden Sie stattdessen die Felder name, identifier, creator und publisher.
  • Wenn Sie das Zitationsfeld mit einem Zitations-Snippet füllen, geben Sie nach Möglichkeit die Artikel-ID an, z. B. einen DOI.

    Empfohlen: "Mustermann M (2014) Die Auswirkungen von X. Biomics 1(1). https://doi.org/10.1111/111"

    Nicht empfohlen: "Mustermann M (2014) Die Auswirkungen von X. Biomics 1(1)."

identifier URL, Text oder PropertyValue

Eine ID, z. B. ein DOI oder ein Compact Identifier. Wenn der Datensatz mehrere IDs enthält, verwenden Sie die Property identifier mehrmals. In JSON-LD wird dies mithilfe der JSON-Listensyntax dargestellt.

keywords Text

Stichwörter, die den Datensatz zusammenfassen.

license URL, Text

Eine Lizenz, unter der der Datensatz verbreitet wird.

sameAs URL

Link zu einer Seite, die weitere Informationen zum selben Datensatz enthält. Befindet sich normalerweise in einem anderen Repository.

spatialCoverage Text, Place

Sie können einen einzelnen Punkt angeben, der den räumlichen Aspekt des Datensatzes beschreibt. Binden Sie diese Property nur ein, wenn der Datensatz eine räumliche Dimension hat. Beispielsweise könnte dies ein einzelner Punkt sein, an dem alle Messungen erfasst wurden, oder es könnten die Koordinaten eines Begrenzungsrahmens für einen Bereich sein.

Punkte

"spatialCoverage:" {
  "@type": "Place",
  "geo": {
    "@type": "GeoCoordinates",
    "latitude": 39.3280,
    "longitude": 120.1633
  }
}

Formen

Verwenden Sie GeoShape zur Beschreibung von Flächen unterschiedlicher Formen. Einen Begrenzungsrahmen legen Sie beispielsweise so fest:

"spatialCoverage:" {
  "@type": "Place",
  "geo": {
    "@type": "GeoShape",
    "box": "39.3280 120.1633 40.445 123.7878"
  }
}

Punkte innerhalb der Properties box, circle, line oder polygon müssen als Werte angegeben werden, die dem Längen- und Breitengrad (in dieser Reihenfolge) entsprechen und durch ein Leerzeichen getrennt sind.

Benannte Orte

"spatialCoverage:" "Tahoe City, CA"
temporalCoverage Text

Die Daten im Datensatz erstrecken sich über einen bestimmten Zeitrahmen. Binden Sie diese Property nur ein, wenn der Datensatz eine zeitliche Dimension hat. Schema.org verwendet zur Beschreibung von Zeiträumen und -punkten den Standard ISO 8601. Sie können Datumsangaben je nach Datensatzintervall unterschiedlich beschreiben. Offene Intervalle geben Sie dabei mit zwei Dezimalpunkten (..) an.

Einzelnes Datum

"temporalCoverage" : "2008"

Zeitraum

"temporalCoverage" : "1950-01-01/2013-12-18"

Offener Zeitraum

"temporalCoverage" : "2013-12-19/.."
variableMeasured Text, PropertyValue

Die Variable, die von diesem Datensatz gemessen wird. Beispiel: Temperatur oder Druck.

version Text, Number

Die Versionsnummer für den Datensatz.

url URL

Die Position einer Seite, die den Datensatz beschreibt.

DataCatalog

Die vollständige Definition von DataCatalog finden Sie unter schema.org/DataCatalog.

Datensätze werden häufig in Repositories veröffentlicht, die viele weitere Datensätze enthalten. Derselbe Datensatz kann außerdem in mehreren derartigen Repositories enthalten sein. Sie können einen Datenkatalog, zu dem dieser Datensatz gehört, durch einen direkten Verweis angeben.

Empfohlene Properties
includedInDataCatalog DataCatalog

Der Katalog, zu dem der Datensatz gehört.

DataDownload

Die vollständige Definition von DataDownload finden Sie unter schema.org/DataDownload. Fügen Sie zusätzlich zu den Dataset-Properties die folgenden Properties hinzu, die Optionen für den Download von Datensätzen angeben.

Die Property distribution beschreibt, wie der Datensatz selbst abgerufen wird, denn die URL verweist häufig auf die Landingpage, die den Datensatz beschreibt. distribution dagegen gibt an, wo und in welchem Format die eigentlichen Daten abgerufen werden können. Die Property kann mehrere Werte haben, beispielsweise eine URL für eine CSV-Version und eine andere URL für eine Excel-Version.

Erforderliche Propertys
distribution.contentUrl URL

Der Link zum Download.

Properties
distribution DataDownload

Die Beschreibung des Speicherorts, von dem der Datensatz heruntergeladen werden kann, und des Dateiformats für den Download.

distribution.fileFormat Text

Das Dateiformat der Distribution.

Tabellarische Datensätze

Ein tabellarischer Datensatz ist in erster Linie als Raster aus Zeilen und Spalten organisiert. Für Seiten, die tabellarische Datensätze einbetten, können Sie auch expliziteres Markup erstellen, das auf der oben beschriebenen grundlegenden Herangehensweise aufbaut. Gegenwärtig verstehen wir hierunter eine Variante von CSVW, die parallel zu für Nutzer gedachte tabellarische Inhalte auf der HTML-Seite bereitgestellt wird. Informationen zu CSVW ("CSV on the Web") finden Sie beim W3C.

Das nachfolgende Beispiel zeigt eine kleine Tabelle, die im CSVW-Format in JSON-LD codiert ist. Im Testtool für strukturierte Daten gibt es hierzu verschiedene bekannte Fehler.

Hilfe und Tools

Feedback geben zu...