Pemeriksaan DSPL adalah utilitas yang memvalidasi set data DSPL terhadap sejumlah kriteria termasuk kepatuhan terhadap skema DSPL resmi, konsistensi referensi internal, dan struktur file CSV. Utilitas ini dapat mendeteksi banyak masalah yang akan menyebabkan error impor DSPL, sehingga membantu Anda mendeteksi dan memperbaiki masalah ini dengan cepat sebelum memulai proses input.
Perhatikan bahwa utilitas tidak (belum) memeriksa set data DSPL untuk setiap masalah yang mungkin terjadi. Namun, alat ini akan mendeteksi masalah yang paling umum, sehingga jika set data berhasil divalidasi oleh alat, ada kemungkinan besar data akan dapat diimpor dan divisualisasikan di Penjelajah Data Publik. Lihat bagian Detail Pemeriksaan di bawah untuk informasi selengkapnya.
Menjalankan Pemeriksaan DSPL
Dasar-dasar
Catatan: Rute ini mengasumsikan bahwa Anda telah mengikuti petunjuk penginstalan yang diberikan di halaman DSPL Tools.
Untuk menjalankan Pemeriksaan DSPL, buka terminal / perintah pada sistem dan ketik:
python dsplcheck.py [path to dataset XML or zip file]
dengan istilah dalam tanda kurung diganti dengan jalur relatif ke file XML set data atau paket DSPL yang di-zip.
Jika set data valid, alat akan mencetak pesan "validasi berhasil". Jika tidak, proses ini akan menghasilkan satu atau beberapa pesan error yang menjelaskan alasan validasi gagal. Jika yang terakhir terjadi, perbaiki set data Anda sesuai petunjuk, lalu jalankan alat tersebut lagi.
Memeriksa Level
Secara default, Pemeriksaan DSPL akan memeriksa seluruh set data, termasuk CSV yang direferensikan dari file XML DSPL utama. Proses ini berfungsi dengan baik pada set data berukuran kecil hingga sedang, tetapi mungkin akan terhambat atau kehabisan memori pada set data yang sangat besar (yaitu, dalam ratusan megabyte atau lebih besar).
Untuk mengatasi kasus ini, alat ini memiliki opsi tingkat pemeriksaan
yang memungkinkan Anda menetapkan cakupan pemeriksaan dan meningkatkan
performa, sesuai kebutuhan. Untuk menggunakan, sisipkan --checking_level=[...]
sebelum jalur set data, di mana istilah dalam tanda kurung diganti dengan salah satu
nilai berikut:
schema_only
: Validasi file XML set data terhadap skema DSPL resmi, lalu hentikan.schema_and_model
: Melakukan validasi skema dan model dasar, tetapi mengabaikan konten CSV setelah baris header.full
: Melakukan skema, model, dan validasi data (default).
Memeriksa Detail
Pemeriksaan DSPL melakukan urutan validasi berikut:
- Validasi skema XML: Memverifikasi bahwa file metadata set data Anda adalah XML yang valid dan sesuai dengan skema DSPL resmi.
- Keberadaan CSV: Memastikan bahwa semua file CSV yang dirujuk dari set data Anda ada dan dapat dimuat.
-
Pemeriksaan konsep: Berbagai pemeriksaan setiap konsep dalam set data Anda, termasuk:
- Set data memiliki setidaknya satu konsep*
- Semua referensi topik valid
- Referensi tabel tersedia jika konsep digunakan sebagai dimensi non-waktu*
- Referensi tabel valid jika ada
- Tabel yang dirujuk memiliki kolom yang sesuai dengan ID konsep
-
Pemeriksaan Slice: Berbagai pemeriksaan setiap slice dalam set data Anda, termasuk:
- Set data memiliki setidaknya satu bagian*
- Setidaknya satu bagian merujuk ke dimensi non-waktu*
- Slice memiliki setidaknya satu metrik dan satu dimensi
- Satu dimensi mereferensikan
konsep
kanonis
time
* - Setiap bagian memiliki kombinasi dimensi yang unik
- Semua referensi ke konsep lokal valid
- Tersedia referensi tabel
- Referensi tabel valid
- Tabel yang direferensikan memiliki kolom untuk setiap dimensi dan metrik dalam irisan
- Jenis kolom dalam tabel yang direferensikan cocok dengan jenis konsep yang digunakan dalam slice
-
Pemeriksaan tabel: Berbagai pemeriksaan pada setiap tabel dalam set data Anda, termasuk:
- Set data memiliki setidaknya satu tabel*
- File CSV memiliki jumlah kolom yang sama dengan tabel
- String header CSV cocok dengan ID kolom
- Semua kolom tanggal memiliki atribut
format
- Format tanggal selaras (kira-kira) dengan konsep waktu terkait, misalnya, format untuk kolom
time:year
menyertakan setidaknya satu karaktery
*
-
Pemeriksaan data CSV: Berbagai pemeriksaan file data CSV
yang direferensikan oleh file XML set data, termasuk:
- Setiap baris CSV memiliki jumlah kolom yang sama dengan headernya
- CSV definisi konsep memiliki tidak lebih dari satu baris untuk setiap ID konsep
- CSV Slice tidak memiliki lebih dari satu baris untuk setiap kombinasi dimensi
- Nilai dimensi yang dirujuk dalam slice CSV valid
- Slice CSV diurutkan dengan benar
- Bilangan bulat dan nilai CSV mengambang diformat dengan benar
Kriteria yang ditandai dengan * diperlukan untuk visualisasi di Penjelajah Data Publik, tetapi secara teknis tidak diwajibkan oleh format DSPL.
Di sisi lain, alat ini tidak (belum) melihat hal berikut:
- Impor set data
- Atribut dan referensi properti
- Ekstensi konsep