Ensemble de données

Les ensembles de données sont plus faciles à identifier lorsque vous fournissez des informations complémentaires telles que leur nom, leur description, leur créateur et leurs formats de distribution en tant que données structurées. L'approche de Google en matière de découverte des ensembles de données repose sur l'utilisation de schema.org et d'autres normes de métadonnées qui peuvent être ajoutées aux pages décrivant des ensembles de données. Le but de ce balisage est d'améliorer la découverte de ces derniers dans des domaines divers tels que les sciences de la vie, les sciences sociales, le machine learning, les données civiques et gouvernementales, et plus encore.

Voici quelques exemples d'ensembles de données :

  • Tableau ou fichier CSV contenant des données
  • Collection organisée de tableaux
  • Fichier de données dans un format propriétaire
  • Collection de fichiers qui constituent un ensemble de données lorsqu'ils sont réunis
  • Objet structuré contenant des données dans un autre format que vous souhaitez charger dans un outil spécial de traitement
  • Images capturant des données
  • Fichiers relatifs au machine learning, tels que des paramètres d'entraînement ou des définitions de la structure du réseau neuronal
  • Tout ce qui s'apparente à un ensemble de données à vos yeux

Notre approche en matière de découverte des ensembles de données

Pour interpréter les données structurées liées aux ensembles de données dans les pages Web, nous utilisons soit le balisage d'ensemble de données de schema.org, soit des structures équivalentes représentées au format DCAT (Data Catalog Vocabulary) de W3C. Nous envisageons également de proposer un programme expérimental pour les données structurées basées sur W3C CSVW, et nous prévoyons d'évoluer et d'adapter notre approche à mesure que des bonnes pratiques émergent en matière de description des ensembles de données. Pour plus d'informations sur notre approche en matière de découverte des ensembles de données, consultez la section Faciliter la découverte des ensembles de données publics.

Exemples

Voici un exemple d'ensemble de données utilisant la syntaxe JSON-LD (recommandée) dans l'outil de test des données structurées. Le même vocabulaire peut également être utilisé dans les microdonnées, ainsi que dans les formats RDFa 1.1 et DCAT W3C. L'exemple suivant repose sur la description d'un ensemble de données réel.

JSON-LD

Voici un exemple d'ensemble de données au format JSON-LD :

RDFa

Voici un exemple d'ensemble de données au format RDFa :

Consignes

Les sites doivent respecter les consignes relatives aux données structurées. Nous vous recommandons également de vous reporter aux bonnes pratiques répertoriées ci-dessous en matière de sitemaps et de source et provenance.

Bonnes pratiques en matière de sitemaps

Créez un fichier sitemap pour aider Google à identifier vos URL. L'utilisation de ce fichier et du balisage sameAs permet de documenter la manière dont les descriptions des ensembles de données sont publiées sur votre site.

Si vous disposez d'un référentiel d'ensembles de données, vous utilisez probablement au moins deux types de pages : des pages canoniques ("pages de destination") de chaque ensemble de données et des pages répertoriant plusieurs ensembles de données (résultats de recherche ou sous-groupe d'ensembles de données, par exemple). Nous vous conseillons d'ajouter les données structurées liées aux ensembles de données aux pages canoniques. Utilisez la propriété sameAs pour renvoyer vers la page canonique si vous ajoutez des données structurées à plusieurs copies d'un ensemble de données, telles que des fiches dans les pages de résultats de recherche.

Bonnes pratiques en matière de source et de provenance

Il est courant que les ensembles de données ouverts soient republiés, agrégés et basés sur d'autres ensembles de données. Vous trouverez ici une première ébauche de l'approche que nous adoptons pour représenter les cas dans lesquels un ensemble de données est une copie d'un autre, ou une reprise modifiée.

  • Utilisez la propriété sameAs pour indiquer les URL les plus canoniques par rapport à l'original lorsque l'ensemble de données ou la description est une simple republication de documents publiés ailleurs.
  • Utilisez la propriété isBasedOn lorsque l'ensemble de données republié (y compris ses métadonnées) a été modifié de manière significative.
  • Lorsqu'un ensemble de données repose sur plusieurs originaux ou regroupe plusieurs originaux, utilisez la propriété isBasedOn.
  • Optez pour la propriété identifier afin d'associer tout identifiant d'objet numérique (DOI) ou identifiant compact pertinent. Si l'ensemble de données comporte plusieurs identifiants, utilisez plusieurs fois la propriété identifier. Si vous employez le format JSON-LD, ceci est représenté par la syntaxe de liste JSON.

Nous espérons peaufiner nos recommandations en fonction des commentaires que vous nous ferez parvenir, en particulier en ce qui concerne la description de la provenance, la gestion des versions et les dates associées à la publication des séries temporelles. Rejoignez les groupes de discussion de la communauté.

Recommandations en matière de propriétés textuelles

Nous vous recommandons de limiter toutes les propriétés textuelles à 5 000 caractères maximum. Google Recherche d'ensembles de données tient uniquement compte des 5 000 premiers caractères d'une propriété textuelle. Les noms et les titres ne comportent généralement que quelques mots ou une courte phrase.

Erreurs et avertissements connus

Vous pouvez rencontrer des erreurs ou des avertissements dans l'outil de test des données structurées de Google, ainsi que dans d'autres systèmes de validation. Les systèmes de validation peuvent suggérer que les entreprises incluent des coordonnées, y compris une valeur contactType. Parmi les valeurs utiles figurent customer service, emergency, journalist, newsroom et public engagement. Vous pouvez également ignorer les erreurs indiquant que csvw:Table est une valeur inattendue pour la propriété mainEntity.

Définitions des types de données structurées

Vous devez inclure les propriétés obligatoires pour que votre contenu puisse être affiché sous forme de résultat enrichi. Vous pouvez également inclure les propriétés recommandées pour ajouter d'autres informations à votre contenu et ainsi offrir une meilleure expérience utilisateur.

Vous pouvez utiliser l'outil de test des données structurées pour valider le balisage.

L'accent est mis sur la description des informations relatives à un ensemble de données (ses métadonnées) et sur la représentation de son contenu. Par exemple, les métadonnées de l'ensemble de données indiquent en quoi consiste ce dernier, les variables qu'il mesure, mais aussi son auteur, etc. En revanche, elles ne contiennent pas certaines informations, comme les valeurs spécifiques des variables.

Dataset

La définition complète de la propriété Dataset est disponible sur schema.org/Dataset.

Vous pouvez décrire des informations supplémentaires sur la publication de l'ensemble de données, telles que la licence, la date de publication, son ou une propriété sameAs renvoyant vers une version canonique de l'ensemble de données dans un autre référentiel. Ajoutez les propriétés identifier, license et sameAs pour les ensembles de données fournissant des informations de provenance et de licence.

Propriétés obligatoires
description Text

Court résumé décrivant un ensemble de données.

Consignes

  • Le résumé doit comporter entre 50 et 5 000 caractères.
  • Le résumé peut inclure la syntaxe Markdown. Les images incorporées doivent utiliser des URL de chemin absolu (au lieu de chemins relatifs).
  • Lorsque vous utilisez le format JSON-LD, commencez toute nouvelle ligne avec \n (barre oblique inverse suivie d'un "n" minuscule).
name Text

Nom descriptif d'un ensemble de données. Par exemple, "Épaisseur de neige dans l'hémisphère nord".

Propriétés recommandées
alternateName Text

Autres noms utilisés pour faire référence à cet ensemble de données, tels que des alias ou des abréviations. Exemple (au format JSON-LD) :

"name": "The Quick, Draw! Dataset"
"alternateName": ["Quick Draw Dataset", "quickdraw-dataset"]
creator Person ou Organization

Créateur ou auteur de cet ensemble de données. Pour identifier des personnes de manière unique, utilisez l'ID ORCID comme valeur de la propriété sameAs pour le type d'élément Person. Pour identifier des institutions et des entreprises de manière unique, utilisez l'ID ROR. Exemple au format JSON-LD :

"creator": [
    {
        "@type": "Person",
        "sameAs": "http://orcid.org/0000-0000-0000-0000",
        "givenName": "Jane",
        "familyName": "Foo",
        "name": "Jane Foo"
    },
    {
        "@type": "Person",
        "sameAs": "http://orcid.org/0000-0000-0000-0001",
        "givenName": "Jo",
        "familyName": "Bar",
        "name": "Jo Bar"
    },
    {
        "@type": "Organization",
        "sameAs": "http://ror.org/xxxxxxxxx",
        "name": "Fictitious Research Consortium"
    }
]
citation Text ou CreativeWork

Identifie les articles universitaires recommandés par le fournisseur de données en plus de l'ensemble de données lui-même. Fournissez la citation pour l'ensemble de données lui-même avec d'autres propriétés, comme name, identifier, creator et publisher. Par exemple, cette propriété peut identifier de manière unique une publication universitaire associée, telle qu'un descripteur de données ou un article pour lequel cet ensemble de données constitue un support complémentaire. Exemples (au format JSON-LD) :

"citation": "https://doi.org/10.1111/111"
"citation": "https://identifiers.org/pubmed:11111111"
"citation": "https://identifiers.org/arxiv:0111.1111v1"
"citation":
 "Doe J (2014) Influence of X ... https://doi.org/10.1111/111"

Consignes supplémentaires

  • N'utilisez pas cette propriété pour fournir des informations de citation relatives à l'ensemble de données lui-même. Il est destiné à l'identification des articles universitaires connexes, pas à l'ensemble de données. Pour fournir les informations nécessaires afin de citer l'ensemble de données lui-même, utilisez plutôt les propriétés name, identifier, creator et publisher.
  • Lorsque vous remplissez la propriété de citation avec un extrait, fournissez l'identifiant d'article (tel qu'un DOI) chaque fois que cela est possible.

    Recommandé : "Doe J (2014) Influence of X. Biomics 1 (1). https://doi.org/10.1111/111"

    Non recommandé : "Doe J (2014) Influence of X. Biomics 1 (1)."

identifier URL, Text ou

Identifiant, tel qu'un DOI ou un identifiant compact. Si l'ensemble de données comporte plusieurs identifiants, utilisez plusieurs fois la propriété identifier. Si vous employez le format JSON-LD, il est représenté par la syntaxe de liste JSON.

keywords Text

Mots clés résumant l'ensemble de données.

license URL, CreativeWork

Licence sous laquelle l'ensemble de données est distribué. Exemple :

"license" : "https://creativecommons.org/publicdomain/zero/1.0/"
"license" : {
  "@type": "CreativeWork",
  "name": "Custom license",
  "url": "https://example.com/custom_license"
  }
sameAs URL

Lien vers une page qui fournit plus d'informations sur le même ensemble de données, généralement dans un référentiel différent.

spatialCoverage Text, Place

Vous pouvez fournir un seul point décrivant l'aspect spatial de l'ensemble de données. Incluez cette propriété uniquement si l'ensemble de données présente une dimension spatiale (par exemple, un seul point où toutes les mesures ont été collectées ou les coordonnées du cadre de délimitation d'une zone).

Points

"spatialCoverage:" {
  "@type": "Place",
  "geo": {
    "@type": "GeoCoordinates",
    "latitude": 39.3280,
    "longitude": 120.1633
  }
}

Formes

Utilisez GeoShape pour décrire des zones de formes différentes (par exemple, pour spécifier un cadre de délimitation).

"spatialCoverage:" {
  "@type": "Place",
  "geo": {
    "@type": "GeoShape",
    "box": "39.3280 120.1633 40.445 123.7878"
  }
}

Les points dans les propriétés box, circle, line ou polygon doivent être exprimés sous forme de paire de valeurs séparées par un espace. Ces valeurs doivent correspondre à la latitude et à la longitude (dans cet ordre).

Lieux désignés

"spatialCoverage:" "Tahoe City, CA"
temporalCoverage Text

Les données de l'ensemble de données couvrent un intervalle de temps spécifique. Incluez cette propriété uniquement si l'ensemble de données présente une dimension temporelle. Schema.org utilise la norme ISO 8601 pour décrire les intervalles de temps et les points temporels. Vous pouvez décrire les dates différemment en fonction de l'intervalle de l'ensemble de données. Indiquez les intervalles ouverts avec deux décimales (..).

Date unique

"temporalCoverage" : "2008"

Période

"temporalCoverage" : "1950-01-01/2013-12-18"

Période ouverte

"temporalCoverage" : "2013-12-19/.."
variableMeasured Text, PropertyValue

Variable que cet ensemble de données mesure (par exemple, la température ou la pression).

version Text, Number

Numéro de version de l'ensemble de données.

url URL

Emplacement d'une page décrivant l'ensemble de données.

DataCatalog

La définition complète de la propriété DataCatalog est disponible sur schema.org/DataCatalog.

Les ensembles de données sont souvent publiés dans des référentiels contenant de nombreux autres ensembles de données. Le même ensemble de données peut être inclus dans plusieurs référentiels. Pour faire référence à un catalogue de données auquel cet ensemble de données appartient, vous pouvez l'y renvoyer directement.

Propriétés recommandées
includedInDataCatalog DataCatalog

Catalogue auquel appartient l'ensemble de données.

DataDownload

La définition complète de la propriété DataDownload est disponible sur schema.org/DataDownload. Outre les propriétés de l'ensemble de données, ajoutez les propriétés suivantes pour les ensembles de données offrant des options de téléchargement.

La propriété distribution décrit comment récupérer l'ensemble de données proprement dit, car l'URL renvoie souvent vers la page de destination qui le décrit. La propriété distribution précise où obtenir les données et dans quel format. Cette propriété peut contenir plusieurs valeurs (par exemple, une version CSV peut être disponible sous une URL, et une version Excel sous une autre).

Propriétés obligatoires
distribution.contentUrl URL

Lien de téléchargement.

Propriétés
distribution DataDownload

Description de l'emplacement de téléchargement de l'ensemble de données et du format de fichier à télécharger.

distribution.encodingFormat Text, URL

Format de fichier de la distribution.

Ensembles de données tabulaires

Un ensemble de données tabulaire se caractérise par une grille de lignes et de colonnes. Avec les pages incorporant des ensembles de données tabulaires, vous pouvez également créer un balisage plus explicite, en vous appuyant sur l'approche de base décrite ci-dessus. À ce stade, nous interprétons une variante de CSVW ("CSV on the Web", voir W3C), fournie parallèlement au contenu tabulaire destiné à l'utilisateur sur la page HTML.

Voici un exemple présentant un petit tableau codé au format CSVW JSON-LD. Il existe certaines erreurs connues dans l'outil de test des données structurées.

Aide et outils