Pemeriksaan DSPL

Pemeriksaan DSPL adalah utilitas yang memvalidasi set data DSPL terhadap sejumlah kriteria termasuk kepatuhan terhadap skema DSPL resmi, konsistensi referensi internal, dan struktur file CSV. Utilitas ini dapat mendeteksi banyak masalah yang akan menyebabkan error impor DSPL, sehingga membantu Anda mendeteksi dan memperbaiki masalah ini dengan cepat sebelum memulai proses input.

Perhatikan bahwa utilitas tidak (belum) memeriksa set data DSPL untuk setiap masalah yang mungkin terjadi. Namun, alat ini akan mendeteksi masalah yang paling umum, sehingga jika set data berhasil divalidasi oleh alat, ada kemungkinan besar data akan dapat diimpor dan divisualisasikan di Penjelajah Data Publik. Lihat bagian Detail Pemeriksaan di bawah untuk informasi selengkapnya.

Menjalankan Pemeriksaan DSPL

Dasar-dasar

Catatan: Rute ini mengasumsikan bahwa Anda telah mengikuti petunjuk penginstalan yang diberikan di halaman DSPL Tools.

Untuk menjalankan Pemeriksaan DSPL, buka terminal / perintah pada sistem dan ketik:

python dsplcheck.py [path to dataset XML or zip file]

dengan istilah dalam tanda kurung diganti dengan jalur relatif ke file XML set data atau paket DSPL yang di-zip.

Jika set data valid, alat akan mencetak pesan "validasi berhasil". Jika tidak, proses ini akan menghasilkan satu atau beberapa pesan error yang menjelaskan alasan validasi gagal. Jika yang terakhir terjadi, perbaiki set data Anda sesuai petunjuk, lalu jalankan alat tersebut lagi.

Memeriksa Level

Secara default, Pemeriksaan DSPL akan memeriksa seluruh set data, termasuk CSV yang direferensikan dari file XML DSPL utama. Proses ini berfungsi dengan baik pada set data berukuran kecil hingga sedang, tetapi mungkin akan terhambat atau kehabisan memori pada set data yang sangat besar (yaitu, dalam ratusan megabyte atau lebih besar).

Untuk mengatasi kasus ini, alat ini memiliki opsi tingkat pemeriksaan yang memungkinkan Anda menetapkan cakupan pemeriksaan dan meningkatkan performa, sesuai kebutuhan. Untuk menggunakan, sisipkan --checking_level=[...] sebelum jalur set data, di mana istilah dalam tanda kurung diganti dengan salah satu nilai berikut:

  • schema_only: Validasi file XML set data terhadap skema DSPL resmi, lalu hentikan.
  • schema_and_model: Melakukan validasi skema dan model dasar, tetapi mengabaikan konten CSV setelah baris header.
  • full: Melakukan skema, model, dan validasi data (default).

Memeriksa Detail

Pemeriksaan DSPL melakukan urutan validasi berikut:

  • Validasi skema XML: Memverifikasi bahwa file metadata set data Anda adalah XML yang valid dan sesuai dengan skema DSPL resmi.
  • Keberadaan CSV: Memastikan bahwa semua file CSV yang dirujuk dari set data Anda ada dan dapat dimuat.
  • Pemeriksaan konsep: Berbagai pemeriksaan setiap konsep dalam set data Anda, termasuk:
    • Set data memiliki setidaknya satu konsep*
    • Semua referensi topik valid
    • Referensi tabel tersedia jika konsep digunakan sebagai dimensi non-waktu*
    • Referensi tabel valid jika ada
    • Tabel yang dirujuk memiliki kolom yang sesuai dengan ID konsep
  • Pemeriksaan Slice: Berbagai pemeriksaan setiap slice dalam set data Anda, termasuk:
    • Set data memiliki setidaknya satu bagian*
    • Setidaknya satu bagian merujuk ke dimensi non-waktu*
    • Slice memiliki setidaknya satu metrik dan satu dimensi
    • Satu dimensi mereferensikan konsep kanonis time*
    • Setiap bagian memiliki kombinasi dimensi yang unik
    • Semua referensi ke konsep lokal valid
    • Tersedia referensi tabel
    • Referensi tabel valid
    • Tabel yang direferensikan memiliki kolom untuk setiap dimensi dan metrik dalam irisan
    • Jenis kolom dalam tabel yang direferensikan cocok dengan jenis konsep yang digunakan dalam slice
  • Pemeriksaan tabel: Berbagai pemeriksaan pada setiap tabel dalam set data Anda, termasuk:
    • Set data memiliki setidaknya satu tabel*
    • File CSV memiliki jumlah kolom yang sama dengan tabel
    • String header CSV cocok dengan ID kolom
    • Semua kolom tanggal memiliki atribut format
    • Format tanggal selaras (kira-kira) dengan konsep waktu terkait, misalnya, format untuk kolom time:year menyertakan setidaknya satu karakter y*
  • Pemeriksaan data CSV: Berbagai pemeriksaan file data CSV yang direferensikan oleh file XML set data, termasuk:
    • Setiap baris CSV memiliki jumlah kolom yang sama dengan headernya
    • CSV definisi konsep memiliki tidak lebih dari satu baris untuk setiap ID konsep
    • CSV Slice tidak memiliki lebih dari satu baris untuk setiap kombinasi dimensi
    • Nilai dimensi yang dirujuk dalam slice CSV valid
    • Slice CSV diurutkan dengan benar
    • Bilangan bulat dan nilai CSV mengambang diformat dengan benar

Kriteria yang ditandai dengan * diperlukan untuk visualisasi di Penjelajah Data Publik, tetapi secara teknis tidak diwajibkan oleh format DSPL.

Di sisi lain, alat ini tidak (belum) melihat hal berikut:

  • Impor set data
  • Atribut dan referensi properti
  • Ekstensi konsep