Questions fréquentes sur DSPL

Ce document aborde les problèmes les plus fréquemment rencontrés par les propriétaires de données lors de la création d'ensembles de données DSPL et de leur importation dans l'explorateur de données publiques.

Sommaire

Questions d'ordre général

Qu'est-ce que la DSPL ?

DSPL signifie Dataset Publishing Language. Il s'agit d'un format de représentation à la fois pour les métadonnées (informations sur l'ensemble de données, telles que son nom et son fournisseur, ainsi que les concepts qu'il contient et affiche) et pour ses données réelles. Les métadonnées sont spécifiées au format XML, alors que les données sont fournies au format CSV.

Quels sont les principaux avantages de l'utilisation de DSPL ?

DSPL est conçu, dès le départ, pour des visualisations de données enrichies, comme celles de l'Explorateur de données publiques. La création de ces éléments nécessite des métadonnées détaillées sur des tranches, des dimensions et des métriques, des entités qui ne sont pas aussi bien compatibles avec d'autres formats d'ensembles de données.

DSPL est également compatible avec l'importation d'ensembles de données, les hiérarchies de concepts (par exemple, "country" est l'enfant de "continent"), les données géocodées et un certain nombre d'autres fonctionnalités uniques qui améliorent l'expérience d'exploration des données.

DSPL remplace-t-il d'autres formats utilisés pour l'échange et/ou l'analyse de données ?

En général, ce n'est pas possible. Comme indiqué dans la réponse précédente, DSPL est conçu pour la visualisation et l'exploration interactives. Il n'est pas conçu comme un format générique d'analyse ou d'échange de données.

En définitive, nous considérons la DSPL comme une solution complémentaire à celle d'autres formats. Les utilisateurs doivent pouvoir créer des ensembles de données DSPL à partir d'autres sources afin de créer des visualisations de données riches et interactives.

Que puis-je faire avec un ensemble de données DSPL ?

Vous pouvez les importer dans l'explorateur de données publiques, les publier et permettre à d'autres utilisateurs de les explorer via des visualisations riches et interactives. Les ensembles de données publiés peuvent également être inclus dans l'annuaire public des données afin que les utilisateurs intéressés puissent les trouver.

Il s'agit actuellement de la seule application utilisant DSPL. Toutefois, nous encourageons les utilisateurs à l'utiliser dans d'autres applications et nous pensons que l'adoption devrait augmenter au fil du temps.

Quels types d'ensembles de données sont les plus appropriés pour DSPL ?

Le format DSPL est compatible avec les collections arbitraires de tables et convient donc à une grande variété de types d'ensembles de données. Toutefois, seul un sous-ensemble d'ensembles de données DSPL génère des visualisations intéressantes dans l'explorateur de données publiques. Ce dernier produit, en particulier, fonctionne mieux pour les données qui sont:

  • Quantitatif:chaque point de données est associé à une ou plusieurs métriques numériques (par exemple, "population", "number of gri cas" ou "revenue".
  • Catégoriel : les données peuvent être organisées en un nombre fini de catégories descriptables (par exemple, "pays", "sexe", "tranche d'âge").
  • Série temporelle:pour chaque catégorie, les métriques de données varient en fonction du temps, et les points adjacents sont espacés d'au moins un jour (l'explorateur Public Data ne peut pas visualiser les incréments de temps inférieurs à un jour).
  • Agrégation : il existe un seul point de données, et non une liste d'événements ou de faits, pour chaque combinaison date/catégorie/métrique.

J'ai créé un ensemble de données DSPL et je souhaite qu'il apparaisse dans l'annuaire public de données Google afin que d'autres utilisateurs puissent le trouver. Qui dois-je contacter ?

Veuillez remplir ce formulaire en indiquant un lien vers votre ensemble de données.

Je rencontre des difficultés avec DSPL. Où puis-je obtenir de l'aide ?

Veuillez publier votre question sur le forum de discussion DSPL.

Fichiers d'ensemble de données DSPL

Comment encoder mes fichiers XML et CSV ?

Tous les fichiers XML et CSV doivent être encodés au format UTF-8. Notez que le format ASCII (parfois appelé "texte brut") est un sous-ensemble de l'encodage UTF-8. Par conséquent, les ensembles de données dans ce format devraient également fonctionner.

Quel logiciel dois-je utiliser pour créer et modifier des fichiers de mon ensemble de données ?

Nous vous recommandons de modifier vos fichiers XML à l'aide d'un éditeur de texte brut avec mise en surbrillance de la syntaxe. Pour obtenir des recommandations spécifiques à une plate-forme, consultez cet article. Nous déconseillons l'utilisation de traitements de texte complets à usage général, car ces tags ont tendance à insérer des balises de mise en forme supplémentaires dans votre code XML, ce qui peut entraîner des erreurs d'importation.

Une feuille de calcul est généralement le moyen le plus simple de créer et de modifier vos fichiers de données. Veillez toutefois à les enregistrer au bon format (CSV/valeurs séparées par une virgule).

Je possède des données dans Excel, SPSS, SAS ou dans un autre système. Puis-je les importer directement dans Public Data Explorer ?

Non, pas pour l'instant. Vous devez d'abord exporter vos données au format CSV, ajouter les métadonnées XML appropriées, puis importer un ensemble de données conforme à DSPL dans Public Data Explorer.

Le nom de mes fichiers est-il important ?

Le nom du fichier XML de votre ensemble de données doit se terminer par .xml. Les fichiers de données CSV associés peuvent porter n'importe quel nom, à condition qu'ils correspondent à ceux indiqués dans les balises <file> de vos métadonnées XML. Le fichier ZIP utilisé pour empaqueter et importer l'ensemble de données dans Public Explorer peut également porter n'importe quel nom.

Dois-je trier mes fichiers CSV ?

Oui. Vous devez trier le contenu de vos fichiers CSV en fonction des dimensions non temporelles (dans n'importe quel ordre ou direction), puis éventuellement d'autres colonnes (par exemple, l'heure).

Par exemple, si vous disposez d'un fichier CSV contenant les colonnes date, dimension1, dimension2, metric1 et metric2, vous devez les trier selon dimension1 et dimension2 (dans n'importe quel ordre). Si vous souhaitez également trier par colonne de date/heure, il doit s'agir du dernier élément utilisé pour le tri.

Un tri de cette manière permet de regrouper les observations pour chaque série temporelle, ce qui améliore considérablement l'efficacité du processus d'importation DSPL.

Modèle et syntaxe XML

Comment puis-je définir une métrique et une dimension ?

Une dimension est une entité utilisée pour segmenter ou filtrer vos données. En revanche, une métrique décrit la ou les valeurs observées associées à chaque point de données.

En règle générale, les dimensions sont catégorielles, tandis que les métriques sont des valeurs numériques non catégoriques, qui varient dans le temps. Voici quelques exemples prototypiques de chacun d'eux:

  • Dimensions: pays, État, comté, région, année, mois, sexe, catégorie d'âge, segment sectoriel
  • Métriques : Population, PIB, taux de chômage, niveau d'alphabétisation, revenus, coût, prix

Quelle est la différence entre une propriété et un attribut ?

Les propriétés sont associées à chaque instance d'un concept. Par exemple, une propriété de continent a des valeurs différentes selon les pays. En revanche, les attributs sont associés au concept dans son ensemble. Par exemple, un attribut isParent est vrai pour tous les continents.

L'ordre des tags est-il important ?

Oui. Ajoutez vos balises dans l'ordre dans lequel elles apparaissent dans le Guide du développeur. Par exemple, <topic> doit apparaître avant <type> dans la définition d'un concept.

La casse est-elle importante ?

Oui, vous devez mettre les majuscules de votre balise XML et de vos noms d'attributs de la même manière que ceux utilisés dans le Guide du développeur. Par exemple, l'utilisation de isparent au lieu de isParent dans une balise property entraîne une erreur d'importation.

Un concept peut-il avoir deux parents ?

Non. Chaque concept ne peut être associé qu'à une seule référence isParent.

Un concept peut-il faire référence à lui-même ?

Oui. Consultez l'ensemble de données sur les ventes aux États-Unis pour obtenir un exemple de hiérarchie de concepts autoréférents.

Format des données

Comment mettre en forme des dates ?

Les dates peuvent être écrites dans n'importe quel format compatible avec la norme Joda DateTime. Le code de mise en forme Joda doit être stocké dans un attribut format de l'élément de colonne de table correspondant.

Les codes de mise en forme Joda pour certains formats de date courants sont répertoriés ci-dessous:

Exemple de date Format Joda
2010 yyyy
Mai 2010 MMM yyyy
21/05/2010 MM/dd/yyyy
25 mai 2010 dd/MM/yyyy
2010-05-21 yyyy-MM-dd

Notez en particulier que le code Joda pour les caractères du mois est M, et non m (qui représente les minutes).

Puis-je utiliser des unités de temps inférieures à un jour ?

Le format DateTime de Joda, et donc également DSPL, accepte des valeurs temporelles de l'ordre de quelques millisecondes. Toutefois, l'explorateur Google Données publiques ne peut pas (encore) visualiser les données granulaires de moins d'une journée.

Utiliser les concepts canoniques

Que sont les "concepts canoniques" et comment sont-ils utiles ?

Le terme "concepts canoniques" fait référence à un ensemble de concepts créés par Google et conçus comme des "composants fondamentaux" d'autres ensembles de données. Les concepts eux-mêmes sont définis dans six ensembles de données DSPL qui les regroupent en catégories telles que "heure", "geo", etc. Pour accéder à ces concepts, il vous suffit d'importer le ou les ensembles de données parents appropriés au début de votre fichier XML DSPL.

Les concepts canoniques sont utiles, car ils vous font gagner du temps (par exemple, en vous évitant de saisir manuellement les valeurs de latitude et de longitude pour chaque pays dans le monde) et indiquent comment vos données doivent être visualisées. Par exemple, Public Data Explorer utilise les concepts time:... pour formater l'axe X du graphique en courbes, utilise la propriété name du concept entity:entity pour générer des chaînes pour l'interface utilisateur du sélecteur de dimension, utilise les propriétés latitude et longitude de geo:location pour afficher les données dans la visualisation de carte, etc.

Tous les concepts canoniques sont-ils compris par l'explorateur de données publiques ?

Bien que la plupart des concepts canoniques fournis soient compris par l'explorateur de données publiques, certains ne sont pas (encore) visibles. Vous trouverez ci-dessous la liste des solutions que nous proposons, ainsi que quelques suggestions:

Concept Solution
quantity:index Utilisez quantity:ratio ou quantity:magnitude à la place.
time:quarter Utilisez time:month comme décrit dans le livre de recettes DSPL.
time:week Utilisez time:day comme décrit dans le livre de recettes DSPL.

Restez à l'écoute, car nous pourrons vous aider à améliorer ces concepts à l'avenir.

Comment utiliser un concept canonique dans mon ensemble de données ?

Consultez la documentation correspondant au concept spécifique que vous souhaitez utiliser, ainsi que le livre de recettes DSPL, qui fournit des instructions détaillées pour les plus courantes.

Importer et visualiser des ensembles de données

Pourquoi ne puis-je pas importer mon ensemble de données ?

L'interface d'importation de l'explorateur Google Données publiques analyse votre ensemble de données DSPL et bloque son importation en cas d'erreur. L'outil d'importation est très sensible à l'orthographe, aux majuscules et à l'ordre / aux emplacements des tags dans votre fichier XML, ainsi qu'à la mise en page et au tri des données dans vos fichiers CSV. Par conséquent, il peut s'écouler quelques instants avant d'obtenir les résultats escomptés et d'importer correctement l'ensemble de données.

La première étape pour résoudre ces problèmes consiste à examiner le ou les messages d'erreur indiqués dans l'UI et à prendre les mesures correctives appropriées. Étant donné que ces messages ne sont pas toujours les plus faciles à comprendre (ce que nous travaillons activement à améliorer), nous avons compilé une table contenant les explications les plus courantes:

Erreur Explication
clé en double... La table de définition de votre concept a une valeur d'ID répétée (c'est-à-dire une valeur de la colonne portant le même nom que le concept). Ces valeurs permettent d'identifier de manière unique les instances individuelles du concept. Par conséquent, les doublons ne sont pas autorisés.
L'exception d'analyse des lignes de données de la source causée par la combinaison de propriétés, [...], apparaît dans plusieurs groupes de lignes distincts dans les données. Votre fichier CSV n'est pas trié correctement. Consultez la discussion ci-dessus pour savoir comment procéder.
Exception lors de l'analyse de lignes de données en provenance d'une source causée par un format non valide : "..." est incorrect dans "...". Le format de cette valeur (généralement une date) dans votre fichier CSV ne correspond pas à celui de votre fichier XML. Modifiez le format ou la valeur afin qu'ils correspondent.
L'exception d'analyse des lignes de données de la source en raison du nombre d'éléments sur la ligne (...) ne correspond pas au nombre de propriétés spécifiées (...) pour la ligne: [...] Une ligne de votre fichier CSV contient trop ou pas assez de valeurs. Corrigez la mise en forme de cette ligne.
Exception lors de l'analyse des lignes de données à partir de la source en raison de la chaîne d'entrée "..." Une valeur de votre fichier CSV (généralement un entier ou une valeur flottante) contient des caractères non numériques (par exemple, un symbole dollar, un signe de pourcentage, etc.) qui l'empêchent d'être correctement analysée. Supprimez ces caractères en trop.
L'exception d'analyse des lignes de données à partir de la source en raison de la valeur de données "..." pour la propriété "..." de la tranche "..." n'est pas une valeur clé du concept référencé "...". L'une de vos tranches contient une valeur de dimension non reconnue (par exemple, un qui ne figure pas dans la liste de toutes les valeurs possibles pour le concept correspondant. Revenez au tableau de définition du concept de dimension et ajoutez la valeur si nécessaire.
L'en-tête "..." dans les données est une propriété constante dans le tableau L'en-tête de colonne du fichier CSV ne correspond pas à l'ID de colonne défini dans la définition de la table XML. Modifiez l'un ou l'autre afin qu'ils correspondent.
Erreur d'analyse XML. Un contenu non valide commençant par l'élément '...' a été détecté. L'un des éléments suivants est attendu : {...}, {...}, .... L'élément XML référencé n'est pas au bon endroit. Assurez-vous que l'ordre est correct, et que l'élément est associé au parent approprié (par exemple, info pour name).
Erreur d'analyse XML. L'attribut "..." ne peut pas apparaître dans l'élément "...". L'orthographe, la casse ou l'emplacement de cet attribut de balise XML sont incorrects. Consultez la documentation pour connaître l'utilisation appropriée.
Erreur d'analyse XML. L'élément "..." ne peut pas comporter de caractères [children], car le type de contenu est de type "élément uniquement". Votre fichier XML contient du texte échappant (peut-être à cause d'une balise sans < ou >). Corrigez le texte, puis réessayez.

Si vous ne parvenez pas à comprendre un message qui ne figure pas dans la liste ci-dessus, veuillez publier un message sur le forum DSPL. Nous essaierons de vous aider.

Mon ensemble de données a bien été importé, mais je ne parviens pas à afficher les visualisations dans Public Data Explorer. Que se passe-t-il ?

Ce problème se produit lorsque votre ensemble de données est un DSPL valide, mais qu'il ne figure pas dans le sous-ensemble de DSPL qui peut être visualisé dans l'explorateur Google Données publiques. Les causes possibles sont multiples:

  • Définir un concept de dimension sans table : sans ces informations, Public Data Explorer ne sait pas quelles options afficher dans l'interface utilisateur.
  • Créer un ensemble de données ne contenant que des métriques:l'explorateur Public Data requiert au moins une dimension catégorielle (c'est-à-dire non temporelle) définie quelque part dans l'ensemble de données pour structurer correctement l'interface utilisateur de visualisation.
  • Pas de dimension temporelle dans vos tranches : l'explorateur Public Data ne peut visualiser que les séries temporelles. Les tranches non temporelles seront ignorées par le produit.
  • Utilisation d'une dimension temporelle autre que celles time:... canoniques:Public Data Explorer utilise les concepts canoniques time pour la mise en page et l'animation des différentes visualisations du produit. Il ne comprend pas d'autres concepts de temps, tels que ceux créés dans votre propre ensemble de données.
  • Utilisation de valeurs de temps trop importantes ou trop petites : Public Data Explorer ne visualise pas encore d'ensembles de données dont la précision temporelle est inférieure à un jour. D'un autre côté, l'outil rencontre des problèmes avec des valeurs d'année très volumineuses (par exemple, avec des dizaines de milliers). Nous espérons rendre ces niveaux de précision plus flexibles à l'avenir.

Comment intégrer mon ensemble de données visualisé à mon site Web ?

Consultez cet article dans le centre d'aide Public Data Explorer. Comme expliqué dans le second, vous pouvez obtenir une "intégration complète" (c'est-à-dire une commande incluant les commandes d'exploration) en ajustant manuellement l'URL d'intégration.