فحص DSPL

التحقّق من DSPL هو أداة تتحقّق من مجموعة بيانات DSPL وفقًا لعدد من المعايير، بما في ذلك الالتزام بمخطط DSPL الرسمي واتّساق المراجع الداخلية وبنية ملف CSV. ويمكن لهذه الأداة المساعدة في اكتشاف العديد من المشاكل التي قد تسبب أخطاء استيراد DSPL، مما يساعدك على اكتشاف هذه المشكلات وإصلاحها بسرعة قبل بدء عملية الإدخال.

ملاحظة: لا تتحقّق الأداة (حتى الآن) من مجموعة بيانات DSPL بشأن كل المشكلة المحتملة. ومع ذلك، سيرصد الجهاز المشاكل الأكثر شيوعًا، لذا إذا نجحت الأداة في التحقّق من صحة مجموعة بياناتك، ستكون هناك فرصة كبيرة لأن يصبح قابلاً للاستيراد والعرض المرئي في "مستكشف البيانات العامة". راجع قسم تفاصيل التدقيق أدناه للاطلاع على مزيد من المعلومات.

جارٍ تشغيل فحص DSPL

الأساسيات

ملاحظة: تفترض هذه التوجيهات أنك قد اتّبعت تعليمات التثبيت الواردة في صفحة "أدوات DSPL"

لتشغيل DSPL Check، انتقل إلى الوحدة الطرفية / رسالة المطالبة على النظام واكتب:

python dsplcheck.py [path to dataset XML or zip file]

حيث يتم استبدال مصطلح الأقواس بمسار نسبي إلى ملف XML لمجموعة البيانات أو حزمة DSPL مضغوطة.

إذا كانت مجموعة البيانات صالحة، تطبع الأداة رسالة "تم التحقق بنجاح". وإلا، فإنها تعرض رسالة خطأ واحدة أو أكثر تصف سبب إخفاق عملية التحقق. وإذا حدث ذلك، أصلح مجموعة البيانات وفقًا للتوجيهات، ثم شغل الأداة مرة أخرى.

جارٍ التحقق من المستوى

يفحص DSPL Check مجموعة البيانات بأكملها بشكل تلقائي، بما في ذلك ملفات CSV المشار إليها من ملف DSPL XML الرئيسي. وتعمل هذه العملية بشكل جيد على مجموعات البيانات الصغيرة والمتوسطة، ولكن قد يتم تعليقها أو نفاد الذاكرة في مجموعات البيانات الكبيرة جدًا (أي في مئات الميغابايت أو أكبر).

لمعالجة هذه الحالات، تتضمّن الأداة خيار مستوى التحقّق، وهو ما يتيح لك ضبط نطاق الفحص وتحسين الأداء حسب الحاجة. لاستخدام هذه القاعدة، أدرِج --checking_level=[...] قبل مسار مجموعة البيانات، حيث يتم استبدال العبارة بين القوسين بإحدى القيم التالية:

  • schema_only: تحقق من صحة ملف XML لمجموعة البيانات في مقابل مخطط DSPL الرسمي، ثم توقف.
  • schema_and_model: يمكنك تنفيذ المخطط والتحقّق من صحة النموذج الأساسي، ولكن تتجاهل محتوى ملف CSV بعد سطر العنوان.
  • full: يمكنك تنفيذ المخطط والنموذج والتحقّق من صحة البيانات (تلقائي).

جارٍ التحقق من التفاصيل

ينفّذ فحص DSPL التسلسل التالي لعمليات التحقق:

  • التحقّق من صحة مخطّط XML: يتم التحقّق من أنّ ملف البيانات الوصفية لمجموعة البيانات صالح ويتوافق مع مخطط DSPL الرسمي.
  • وجود ملف CSV: يتم التحقُّق من وجود جميع ملفات CSV المشار إليها في مجموعة البيانات الخاصة بك وإمكانية تحميلها.
  • عمليات التحقق من المفاهيم: يتم إجراء عمليات تحقق متعددة لكل مفهوم في مجموعة البيانات، بما في ذلك:
    • تحتوي مجموعة البيانات على مفهوم واحد على الأقل*
    • كل مراجع الموضوع صالحة
    • يتوفّر مرجع الجدول في حال استخدام مفهوم كسمة غير مستندة إلى الوقت*
    • مرجع الجدول صالح في حال توفّره
    • يحتوي الجدول المرجعي على عمود يقابل رقم تعريف المفهوم
  • عمليات فحص الشرائح: عمليات التحقّق المختلفة لكل شريحة في مجموعة البيانات، بما في ذلك:
    • تحتوي مجموعة البيانات على شريحة واحدة على الأقل*
    • شريحة واحدة على الأقل تشير إلى بُعد بخلاف الوقت*
    • تحتوي الشريحة على مقياس واحد وبُعد واحد على الأقل.
    • يشير بُعد واحد فقط إلى المفهوم الأساسي time*
    • لكل شريحة مجموعة فريدة من الأبعاد.
    • جميع الإشارات إلى المفاهيم المحلية صالحة
    • مرجع الجدول موجود
    • مرجع الجدول صالح
    • يحتوي الجدول المرجعي على عمود لكل بُعد ومقياس في الشريحة
    • تتطابق أنواع الأعمدة في الجدول المُشار إليه مع أنواع المفاهيم المستخدمة في الشريحة
  • عمليات التحقق من الجداول: يتم إجراء عمليات تحقق مختلفة لكل جدول في مجموعة البيانات، بما في ذلك:
    • تحتوي مجموعة البيانات على جدول واحد على الأقل*
    • ملف CSV يحتوي على نفس عدد الأعمدة كما في الجدول
    • تطابق سلاسل عناوين CSV مع أرقام تعريف الأعمدة
    • تحتوي جميع أعمدة التاريخ على سمة format
    • تتم محاذاة تنسيقات التاريخ (تقريبًا) مع مفاهيم الوقت المرتبطة، على سبيل المثال، يتضمّن تنسيق عمود time:year حرف y واحدًا على الأقل*.
  • عمليات التحقّق من بيانات ملف CSV: عمليات التحقّق المختلفة من ملفات بيانات CSV التي يشير إليها ملف XML لمجموعة البيانات، بما في ذلك:
    • يحتوي كل صف CSV على نفس عدد الأعمدة الموجود في رأس العمود
    • لا يحتوي ملف CSV لتعريف المفهوم على أكثر من صف واحد لكل معرّف مفهوم
    • لا يحتوي ملف CSV للشريحة على أكثر من صف واحد لكل مجموعة من المكوِّنات.
    • قيم الأبعاد المشار إليها في الشريحة بتنسيق CSV صالحة
    • تم ترتيب ملف CSV للشريحة بشكل صحيح.
    • تم تنسيق قيم عدد صحيح وعائمة بتنسيق CSV بشكل صحيح

تُعدّ المعايير التي يتم وضع علامة * عليها ضرورية للتمثيل البصري في "مستكشف البيانات العامة"، ولكنها غير مطلوبة من الناحية الفنية بواسطة تنسيق DSPL.

على الجانب الآخر، لا تراجع الأداة (بعد) ما يلي:

  • عمليات استيراد مجموعات البيانات
  • مراجع السمات والمواقع
  • إضافات المفاهيم