Vérification DSPL

L'utilitaire de vérification DSPL permet de valider un ensemble de données DSPL par rapport à différents critères, y compris le respect du schéma officiel DSPL, la cohérence des références internes et la structure des fichiers CSV. L'utilitaire peut détecter de nombreux problèmes qui provoqueront des erreurs d'importation DSPL, ce qui vous aidera à les détecter et à les résoudre rapidement avant de lancer le processus d'entrée.

Notez que l'utilitaire ne vérifie pas (encore) le problème dans votre ensemble de données DSPL. Cependant, il identifiera les problèmes les plus courants. Par conséquent, si votre ensemble de données est validé par l'outil, il est fort probable qu'il puisse être importé et visualisé dans l'explorateur de données publiques. Pour en savoir plus, consultez la section Vérifier les détails ci-dessous.

Vérification DSPL en cours

Principes de base

Remarque:Ces instructions partent du principe que vous avez déjà suivi les instructions d'installation fournies sur la page "Outils" de DSPL.

Pour exécuter la vérification DSPL, accédez au terminal ou à l'invite sur votre système, puis saisissez:

python dsplcheck.py [path to dataset XML or zip file]

où le terme entre crochets est remplacé par le chemin d'accès relatif à un fichier XML d'ensemble de données ou à un groupe DSPL compressé.

Si l'ensemble de données est valide, l'outil affiche un message "validation réussie". Sinon, elle renvoie un ou plusieurs messages d'erreur décrivant pourquoi la validation a échoué. Dans le cas contraire, corrigez l'ensemble de données comme indiqué, puis exécutez à nouveau l'outil.

Vérification du niveau...

Par défaut, la vérification DSPL examine l'intégralité de l'ensemble de données, y compris les fichiers CSV référencés à partir du fichier XML DSPL principal. Ce processus fonctionne bien sur des ensembles de données de petite taille ou de taille moyenne, mais peut s'interrompre ou manquer de mémoire sur des ensembles de données très volumineux (c'est-à-dire avec des centaines de mégaoctets ou plus).

Pour résoudre ces problèmes, l'outil propose une option de niveau de vérification qui vous permet de définir le champ d'application de la vérification et d'améliorer les performances si nécessaire. Pour l'utiliser, insérez --checking_level=[...] avant le chemin de l'ensemble de données, où le terme entre crochets est remplacé par l'une des valeurs suivantes:

  • schema_only: validez le fichier XML de l'ensemble de données par rapport au schéma DSPL officiel, puis arrêtez-le.
  • schema_and_model : valide le schéma et le modèle de base, mais ignore le contenu CSV après la ligne d'en-tête.
  • full: procédez à la validation du schéma, du modèle et des données (par défaut).

Vérification des détails...

DSPL Check effectue la séquence de validation suivante:

  • Validation du schéma XML : vérifie que le fichier de métadonnées de votre ensemble de données est au format XML valide et qu'il est conforme au schéma DSPL officiel.
  • Existence du fichier CSV : vérifie que tous les fichiers CSV référencés dans votre ensemble de données existent et peuvent être chargés.
  • Vérifications de concepts:différentes vérifications de chaque concept de votre ensemble de données, y compris les suivantes :
    • L'ensemble de données contient au moins un concept*
    • Toutes les références de sujets sont valides
    • La référence à la table existe si le concept est utilisé comme dimension non temporelle*
    • La référence à la table est valide, le cas échéant
    • La table référencée comporte une colonne correspondant à l'ID du concept
  • Vérifications des tranches : différentes vérifications de chaque tranche de votre ensemble de données, y compris les suivantes :
    • L'ensemble de données contient au moins une tranche*
    • Au moins une tranche fait référence à une dimension non temporelle*
    • Les segments comportent au moins une statistique et une dimension
    • Référence à une seule dimension time concept canonique*
    • Chaque tranche a une combinaison unique de dimensions
    • Toutes les références à des concepts locaux sont valides
    • Une référence à une table existe
    • La référence à la table est valide
    • Le tableau référencé possède une colonne pour chaque dimension et métrique de la tranche
    • Les types de colonnes du tableau référencé correspondent aux types de concepts utilisés dans la tranche
  • Vérifications de table:diverses vérifications de chaque table de votre ensemble de données, y compris :
    • L'ensemble de données contient au moins une table*
    • Le fichier CSV contient le même nombre de colonnes que le tableau
    • Les chaînes d'en-tête CSV correspondent aux ID de colonne
    • Toutes les colonnes de date comportent un attribut format
    • Les formats de date correspondent approximativement aux concepts de temps associés.Par exemple, le format d'une colonne time:year inclut au moins un caractère y*.
  • Vérifications des données CSV : diverses vérifications des fichiers de données CSV référencés par le fichier XML de votre ensemble de données, y compris :
    • Chaque ligne CSV a le même nombre de colonnes que son en-tête
    • Le fichier CSV de définition de concept ne comporte pas plus d'une ligne par ID de concept
    • Le segment CSV ne comporte pas plus d'une ligne par combinaison de dimensions
    • Les valeurs de dimension référencées dans le segment CSV sont valides
    • Le fichier CSV de la tranche est correctement trié
    • Les valeurs des nombres entiers et flottants sont au bon format

Les critères marqués d'un * sont nécessaires pour la visualisation dans Public Data Explorer, mais ils ne sont techniquement pas requis par le format DSPL.

En revanche, l'outil ne prend pas (encore) en compte les éléments suivants:

  • Importations d'ensembles de données
  • Documentation de référence sur les attributs et les propriétés
  • Extensions de concept