DSPL-Prüfung

Die DSPL-Prüfung ist ein Dienstprogramm, das ein DSPL-Dataset anhand einer Reihe von Kriterien überprüft, einschließlich der Einhaltung des offiziellen DSPL-Schemas, der Konsistenz interner Verweise und der CSV-Dateistruktur. Das Dienstprogramm kann viele Probleme erkennen, die zu DSPL-Importfehlern führen. So können Sie diese Probleme schnell erkennen und beheben, bevor Sie mit der Eingabe beginnen.

Beachten Sie, dass das Dienstprogramm Ihr DSPL-Dataset (noch) nicht auf jedes mögliche Problem prüft. Es werden jedoch die häufigsten Probleme erkannt. Wenn Ihr Dataset also erfolgreich vom Tool validiert wird, ist es sehr wahrscheinlich, dass es im Public Data Explorer importiert und visualisiert werden kann. Weitere Informationen finden Sie unten im Abschnitt Überprüfungsdetails.

DSPL-Prüfung wird ausgeführt

Grundlagen

Hinweis: Bei dieser Anleitung wird davon ausgegangen, dass du die Installationsanleitung bereits auf der Seite mit den DSPL-Tools befolgt hast.

Rufen Sie zum Ausführen der DSPL-Prüfung das Terminal bzw. die Eingabeaufforderung auf Ihrem System auf und geben Sie Folgendes ein:

python dsplcheck.py [path to dataset XML or zip file]

Dabei wird der in Klammern gesetzte Begriff durch den relativen Pfad zu einer Dataset-XML-Datei oder zu einem gezippten DSPL-Paket ersetzt.

Wenn das Dataset gültig ist, gibt das Tool die Meldung „Validierung erfolgreich“ aus. Andernfalls wird eine oder mehrere Fehlermeldungen ausgegeben, in denen beschrieben wird, warum die Überprüfung fehlgeschlagen ist. Korrigieren Sie in diesem Fall das Dataset wie angegeben und führen Sie das Tool noch einmal aus.

Girokonto

Standardmäßig prüft DSPL Check das gesamte Dataset, einschließlich der CSV-Dateien, auf die in der Haupt-DSPL-XML-Datei verwiesen wird. Dieser Vorgang eignet sich gut für kleine bis mittelgroße Datasets, kann bei Datasets mit sehr großen Datenmengen, d.h. in den Größen von Hunderten von Megabyte oder größer, jedoch verengt werden oder nicht genügend Arbeitsspeicher zur Verfügung haben.

Das Tool bietet eine Option zur Prüfung an, mit der Sie den Umfang der Prüfung festlegen und die Leistung gegebenenfalls verbessern können. Fügen Sie dazu --checking_level=[...] vor dem Dataset-Pfad ein, wobei der in Klammern gesetzte Begriff durch einen der folgenden Werte ersetzt wird:

  • schema_only: Validiert die Dataset-XML-Datei anhand des offiziellen DSPL-Schemas und stoppt dann.
  • schema_and_model: Führt eine Schema- und grundlegende Modellvalidierung durch, ignoriert jedoch CSV-Inhalte nach der Kopfzeile.
  • full: Schema, Modell und Datenvalidierung ausführen (Standard).

Details überprüfen

Die DSPL-Prüfung führt die folgende Validierungssequenz aus:

  • XML-Schemavalidierung: Überprüft, ob die Metadatendatei des Datasets eine gültige XML-Datei ist und dem offiziellen DSPL-Schema entspricht.
  • CSV-Existenz: Überprüft, ob alle CSV-Dateien, auf die im Dataset verwiesen wird, vorhanden und geladen sind.
  • Konzeptprüfungen:Verschiedene Prüfungen der einzelnen Konzepte in Ihrem Dataset, einschließlich:
    • Dataset hat mindestens ein Konzept*
    • Alle Themenreferenzen sind gültig
    • Tabellenreferenz ist vorhanden, wenn das Konzept als Dimension ohne Zeitangabe verwendet wird*
    • Tabellenreferenz ist gültig, falls vorhanden
    • Die Referenztabelle enthält eine Spalte für die Konzept-ID
  • Slice-Checks: Verschiedene Prüfungen jedes Abschnitts im Dataset, darunter:
    • Dataset enthält mindestens ein Segment*
    • Mindestens ein Segment verweist auf eine Dimension ohne Zeitangabe*
    • Das Segment hat mindestens einen Messwert und eine Dimension
    • Genau eine Dimension verweist auf das time kanonische Konzept*
    • Jedes Segment hat eine eindeutige Kombination von Dimensionen
    • Alle Verweise auf lokale Konzepte sind gültig
    • Tabellenreferenz vorhanden
    • Tabellenreferenz ist gültig
    • Die referenzierte Tabelle hat eine Spalte für jede Dimension und jeden Messwert im Segment
    • Die Spaltentypen in der referenzierten Tabelle stimmen mit den im Segment verwendeten Konzepten überein.
  • Tabellenprüfungen: Verschiedene Prüfungen jeder Tabelle im Dataset, z. B.:
    • Dataset enthält mindestens eine Tabelle*
    • Die CSV-Datei hat die gleiche Anzahl von Spalten wie die Tabelle
    • CSV-Header-Strings stimmen mit Spalten-IDs überein
    • Alle Datumsspalten haben das Attribut format
    • Datumsformate stimmen ungefähr mit den zugehörigen Zeitkonzepten überein.Das Format für eine time:year-Spalte enthält beispielsweise mindestens ein y-Zeichen.*
  • CSV-Datenprüfungen:Verschiedene Prüfungen der CSV-Datendateien, auf die in der XML-Datei Ihres Datasets verwiesen wird, darunter:
    • Jede CSV-Zeile hat dieselbe Anzahl an Spalten wie ihr Header
    • Die CSV-Datei mit der Konzeptdefinition enthält nicht mehr als eine Zeile pro Konzept-ID
    • Die Segment-CSV-Datei enthält nicht mehr als eine Zeile pro Kombination von Dimensionen
    • Dimensionswerte, auf die im CSV-Segment verwiesen wird, sind gültig
    • CSV-Slice ist richtig sortiert
    • Ganzzahl- und Gleitkomma-CSV-Werte sind korrekt formatiert

Kriterien, die mit einem * markiert sind, sind für die Visualisierung im Public Data Explorer erforderlich, für das DSPL-Format jedoch nicht erforderlich.

Andererseits überprüft das Tool (noch) nicht Folgendes:

  • Dataset-Importe
  • Attribut- und Attributreferenzen
  • Konzepterweiterungen