DSPL Check è un'utilità che convalida un set di dati DSPL in base a una serie di criteri, tra cui il rispetto dello schema DSPL ufficiale, la coerenza dei riferimenti interni e la struttura del file CSV. L'utilità può rilevare molti problemi che causeranno errori di importazione DSPL, aiutandoti a rilevare e risolvere rapidamente questi problemi prima di iniziare il processo di inserimento.
Tieni presente che l'utilità non verifica (ancora) il set di dati DSPL per ogni possibile problema. Tuttavia, individuerà i problemi più comuni, quindi se il set di dati viene convalidato correttamente dallo strumento, è molto probabile che sia importabile e visualizzabile in Public Data Explorer. Per ulteriori informazioni, consulta la sezione Verifica dei dettagli riportata di seguito.
Esecuzione del controllo DSPL
Nozioni di base
Nota: queste istruzioni presuppongono che tu abbia già seguito le istruzioni di installazione fornite nella pagina degli strumenti DSPL.
Per eseguire la verifica DSPL, vai al terminale / al prompt sul tuo sistema e digita:
python dsplcheck.py [path to dataset XML or zip file]
in cui il termine tra parentesi quadre è sostituito dal percorso relativo a un file XML del set di dati o a un pacchetto DSPL compresso.
Se il set di dati è valido, lo strumento stampa un messaggio di "convalida riuscita". In caso contrario, vengono visualizzati uno o più messaggi di errore che descrivono il motivo per cui la convalida non è riuscita. Se si verifica quest'ultimo, correggi il set di dati come indicato e poi esegui di nuovo lo strumento.
Controllo del livello
Per impostazione predefinita, DSPL Check esaminerà l'intero set di dati, inclusi i file CSV a cui fa riferimento il file XML DSPL principale. Questo processo funziona bene su set di dati di piccole e medie dimensioni, ma può impantanarsi o esaurire la memoria su set di dati di grandi dimensioni (ovvero in centinaia o anche megabyte).
Per risolvere questi casi, lo strumento dispone di un'opzione di livello di controllo che ti consente di impostare l'ambito del controllo e migliorare le prestazioni in base alle tue esigenze. Per utilizzarla, inserisci --checking_level=[...]
prima del percorso del set di dati, dove il termine tra parentesi quadre è sostituito da uno dei seguenti
valori:
schema_only
: convalida il file XML del set di dati in base allo schema DSPL ufficiale, quindi interrompilo.schema_and_model
: esegui la convalida di schemi e modelli di base, ma ignora i contenuti CSV dopo la riga di intestazione.full
: esegui la convalida di schemi, modelli e dati (impostazione predefinita).
Verifica dei dettagli
Il controllo DSPL esegue la seguente sequenza di convalide:
- Convalida dello schema XML: verifica che il file di metadati del set di dati sia un file XML valido ed è conforme allo schema DSPL ufficiale.
- Esistenza CSV: controlla che tutti i file CSV a cui si fa riferimento nel set di dati esistano e siano caricabili.
-
Controlli dei concetti: vari controlli di ogni concetto nel tuo set di dati, tra cui:
- Il set di dati ha almeno un concetto*
- Tutti i riferimenti all'argomento sono validi
- Il riferimento tabella esiste se il concetto viene utilizzato come dimensione non temporale*
- Il riferimento alla tabella è valido se presente
- La tabella di riferimento ha una colonna corrispondente all'ID concetto
-
Controlli della sezione: vari controlli di ogni sezione nel tuo set di dati, tra cui:
- Il set di dati ha almeno una sezione*
- Almeno una sezione fa riferimento a una dimensione non temporale*
- La sezione ha almeno una metrica e una dimensione
- Esattamente una dimensione fa riferimento
time
al concetto canonico* - Ogni sezione ha una combinazione unica di dimensioni
- Tutti i riferimenti a concetti locali sono validi
- Riferimento tabella esistente
- Il riferimento alla tabella è valido
- La tabella di riferimento contiene una colonna per ogni dimensione e metrica nella sezione
- I tipi di colonna nella tabella di riferimento corrispondono ai tipi di concetti utilizzati nella sezione
-
Controlli della tabella: vari controlli di ogni tabella nel tuo set di dati, tra cui:
- Il set di dati ha almeno una tabella*
- Il file CSV contiene lo stesso numero di colonne della tabella
- Le stringhe di intestazione CSV corrispondono agli ID colonna
- Tutte le colonne relative alla data hanno un attributo
format
- I formati data si allineano (in modo approssimativo) ai concetti dell'orario associato,
ad esempio il formato di una colonna
time:year
include almeno un caratterey
*
-
Controlli dei dati in formato CSV: vari controlli dei file di dati CSV a cui il file XML del set di dati fa riferimento, tra cui:
- Ogni riga CSV ha lo stesso numero di colonne dell'intestazione
- Il file CSV di definizione dei concetti non ha più di una riga per ogni ID concetto
- Il file Slice CSV non ha più di una riga per ogni combinazione di dimensioni
- I valori delle dimensioni a cui viene fatto riferimento nel file CSV della sezione sono validi
- Il file CSV di suddivisione è ordinato correttamente
- I valori CSV interi e decimali sono formattati correttamente
I criteri contrassegnati da un asterisco (*) sono obbligatori per la visualizzazione in Public Data Explorer, ma tecnicamente non sono richiesti dal formato DSPL.
D'altro canto, lo strumento non considera (ancora) quanto segue:
- Importazioni di set di dati
- Riferimenti di attributi e proprietà
- Estensioni concettuali