Controllo DSPL

DSPL Check è un'utilità che convalida un set di dati DSPL in base a una serie di criteri, tra cui il rispetto dello schema DSPL ufficiale, la coerenza dei riferimenti interni e la struttura del file CSV. L'utilità può rilevare molti problemi che causeranno errori di importazione DSPL, aiutandoti a rilevare e risolvere rapidamente questi problemi prima di iniziare il processo di inserimento.

Tieni presente che l'utilità non verifica (ancora) il set di dati DSPL per ogni possibile problema. Tuttavia, individuerà i problemi più comuni, quindi se il set di dati viene convalidato correttamente dallo strumento, è molto probabile che sia importabile e visualizzabile in Public Data Explorer. Per ulteriori informazioni, consulta la sezione Verifica dei dettagli riportata di seguito.

Esecuzione del controllo DSPL

Nozioni di base

Nota: queste istruzioni presuppongono che tu abbia già seguito le istruzioni di installazione fornite nella pagina degli strumenti DSPL.

Per eseguire la verifica DSPL, vai al terminale / al prompt sul tuo sistema e digita:

python dsplcheck.py [path to dataset XML or zip file]

in cui il termine tra parentesi quadre è sostituito dal percorso relativo a un file XML del set di dati o a un pacchetto DSPL compresso.

Se il set di dati è valido, lo strumento stampa un messaggio di "convalida riuscita". In caso contrario, vengono visualizzati uno o più messaggi di errore che descrivono il motivo per cui la convalida non è riuscita. Se si verifica quest'ultimo, correggi il set di dati come indicato e poi esegui di nuovo lo strumento.

Controllo del livello

Per impostazione predefinita, DSPL Check esaminerà l'intero set di dati, inclusi i file CSV a cui fa riferimento il file XML DSPL principale. Questo processo funziona bene su set di dati di piccole e medie dimensioni, ma può impantanarsi o esaurire la memoria su set di dati di grandi dimensioni (ovvero in centinaia o anche megabyte).

Per risolvere questi casi, lo strumento dispone di un'opzione di livello di controllo che ti consente di impostare l'ambito del controllo e migliorare le prestazioni in base alle tue esigenze. Per utilizzarla, inserisci --checking_level=[...] prima del percorso del set di dati, dove il termine tra parentesi quadre è sostituito da uno dei seguenti valori:

  • schema_only: convalida il file XML del set di dati in base allo schema DSPL ufficiale, quindi interrompilo.
  • schema_and_model: esegui la convalida di schemi e modelli di base, ma ignora i contenuti CSV dopo la riga di intestazione.
  • full: esegui la convalida di schemi, modelli e dati (impostazione predefinita).

Verifica dei dettagli

Il controllo DSPL esegue la seguente sequenza di convalide:

  • Convalida dello schema XML: verifica che il file di metadati del set di dati sia un file XML valido ed è conforme allo schema DSPL ufficiale.
  • Esistenza CSV: controlla che tutti i file CSV a cui si fa riferimento nel set di dati esistano e siano caricabili.
  • Controlli dei concetti: vari controlli di ogni concetto nel tuo set di dati, tra cui:
    • Il set di dati ha almeno un concetto*
    • Tutti i riferimenti all'argomento sono validi
    • Il riferimento tabella esiste se il concetto viene utilizzato come dimensione non temporale*
    • Il riferimento alla tabella è valido se presente
    • La tabella di riferimento ha una colonna corrispondente all'ID concetto
  • Controlli della sezione: vari controlli di ogni sezione nel tuo set di dati, tra cui:
    • Il set di dati ha almeno una sezione*
    • Almeno una sezione fa riferimento a una dimensione non temporale*
    • La sezione ha almeno una metrica e una dimensione
    • Esattamente una dimensione fa riferimento time al concetto canonico*
    • Ogni sezione ha una combinazione unica di dimensioni
    • Tutti i riferimenti a concetti locali sono validi
    • Riferimento tabella esistente
    • Il riferimento alla tabella è valido
    • La tabella di riferimento contiene una colonna per ogni dimensione e metrica nella sezione
    • I tipi di colonna nella tabella di riferimento corrispondono ai tipi di concetti utilizzati nella sezione
  • Controlli della tabella: vari controlli di ogni tabella nel tuo set di dati, tra cui:
    • Il set di dati ha almeno una tabella*
    • Il file CSV contiene lo stesso numero di colonne della tabella
    • Le stringhe di intestazione CSV corrispondono agli ID colonna
    • Tutte le colonne relative alla data hanno un attributo format
    • I formati data si allineano (in modo approssimativo) ai concetti dell'orario associato, ad esempio il formato di una colonna time:year include almeno un carattere y*
  • Controlli dei dati in formato CSV: vari controlli dei file di dati CSV a cui il file XML del set di dati fa riferimento, tra cui:
    • Ogni riga CSV ha lo stesso numero di colonne dell'intestazione
    • Il file CSV di definizione dei concetti non ha più di una riga per ogni ID concetto
    • Il file Slice CSV non ha più di una riga per ogni combinazione di dimensioni
    • I valori delle dimensioni a cui viene fatto riferimento nel file CSV della sezione sono validi
    • Il file CSV di suddivisione è ordinato correttamente
    • I valori CSV interi e decimali sono formattati correttamente

I criteri contrassegnati da un asterisco (*) sono obbligatori per la visualizzazione in Public Data Explorer, ma tecnicamente non sono richiesti dal formato DSPL.

D'altro canto, lo strumento non considera (ancora) quanto segue:

  • Importazioni di set di dati
  • Riferimenti di attributi e proprietà
  • Estensioni concettuali