بررسی DSPL

DSPL Check ابزاری است که یک مجموعه داده DSPL را بر اساس تعدادی معیار از جمله پایبندی به طرح رسمی DSPL، سازگاری مراجع داخلی و ساختار فایل CSV تأیید می کند. این ابزار می تواند بسیاری از مشکلات را که باعث خطاهای وارد کردن DSPL می شود، پیدا کند و به شما کمک کند تا قبل از شروع فرآیند ورودی، این مشکلات را به سرعت شناسایی و برطرف کنید.

توجه داشته باشید که ابزار (هنوز) مجموعه داده DSPL شما را برای هر مشکل احتمالی بررسی نمی کند. با این حال، رایج‌ترین مشکلات را برطرف می‌کند، بنابراین اگر مجموعه داده شما با موفقیت توسط ابزار تأیید شود، احتمال زیادی وجود دارد که در اکسپلورر داده‌های عمومی قابل واردات و تجسم باشد. برای اطلاعات بیشتر به بخش بررسی جزئیات زیر مراجعه کنید.

اجرای DSPL Check

مبانی

توجه: این دستورالعمل ها فرض می کنند که شما قبلاً دستورالعمل های نصب ارائه شده در صفحه ابزار DSPL را دنبال کرده اید.

برای اجرای DSPL Check، به ترمینال / فرمان سیستم خود بروید و تایپ کنید:

python dsplcheck.py [path to dataset XML or zip file]

که در آن عبارت پرانتزی با مسیر نسبی یک فایل XML داده یا بسته زیپ شده DSPL جایگزین می شود.

اگر مجموعه داده معتبر باشد، ابزار یک پیام "تأیید سنجی موفقیت آمیز" را چاپ می کند. در غیر این صورت، یک یا چند پیغام خطایی را که دلیل عدم موفقیت اعتبارسنجی را توضیح می دهد، خروجی می دهد. اگر مورد دوم رخ داد، مجموعه داده خود را طبق دستور اصلاح کنید، و سپس دوباره ابزار را اجرا کنید.

بررسی سطح

به طور پیش فرض، DSPL Check کل مجموعه داده، از جمله CSV های ارجاع شده از فایل اصلی DSPL XML را بررسی می کند. این فرآیند روی مجموعه داده‌های کوچک تا متوسط ​​به خوبی کار می‌کند، اما ممکن است در مجموعه داده‌هایی که بسیار بزرگ هستند (یعنی صدها مگابایت یا بزرگ‌تر) دچار گرفتگی یا کمبود حافظه شود.

برای رسیدگی به این موارد، این ابزار دارای گزینه بررسی سطح است که به شما امکان می دهد محدوده بررسی را تنظیم کنید و در صورت نیاز عملکرد را بهبود بخشید. برای استفاده، --checking_level=[...] قبل از مسیر داده وارد کنید، جایی که عبارت در پرانتز با یکی از مقادیر زیر جایگزین می شود:

  • schema_only : فایل XML مجموعه داده را در برابر طرح رسمی DSPL اعتبارسنجی کنید، سپس متوقف کنید.
  • schema_and_model : اعتبارسنجی طرحواره و مدل پایه را انجام دهید، اما محتوای CSV را بعد از خط سرصفحه نادیده بگیرید.
  • full : طرحواره، مدل و اعتبارسنجی داده (پیش‌فرض) را انجام دهید.

بررسی جزئیات

DSPL Check دنباله اعتبارسنجی زیر را انجام می دهد:

  • اعتبار سنجی طرحواره XML: تأیید می کند که فایل فوق داده مجموعه داده شما XML معتبر است و با طرح DSPL رسمی مطابقت دارد.
  • وجود CSV: بررسی می‌کند که همه فایل‌های CSV ارجاع‌شده از مجموعه داده شما وجود داشته باشند و قابل بارگیری باشند.
  • بررسی های مفهومی: بررسی های مختلف هر مفهوم در مجموعه داده شما، از جمله:
    • مجموعه داده حداقل یک مفهوم دارد *
    • تمام ارجاعات موضوع معتبر است
    • اگر از مفهوم به عنوان یک بعد غیرزمانی استفاده شود، مرجع جدول وجود دارد *
    • مرجع جدول در صورت وجود معتبر است
    • جدول مرجع دارای یک ستون مربوط به شناسه مفهومی است
  • بررسی های برش: بررسی های مختلف هر برش در مجموعه داده شما، از جمله:
    • مجموعه داده حداقل یک تکه دارد *
    • حداقل یک برش به یک بعد غیر زمان اشاره دارد *
    • Slice حداقل یک متریک و یک بعد دارد
    • دقیقاً یک بعد به مفهوم متعارف time اشاره دارد *
    • هر برش دارای ترکیبی منحصر به فرد از ابعاد است
    • تمام ارجاعات به مفاهیم محلی معتبر است
    • مرجع جدول وجود دارد
    • مرجع جدول معتبر است
    • جدول مرجع دارای یک ستون برای هر بعد و متریک در برش است
    • انواع ستون ها در جدول ارجاع شده با انواع مفاهیم استفاده شده در برش مطابقت دارند
  • بررسی جدول: بررسی های مختلف هر جدول در مجموعه داده شما، از جمله:
    • مجموعه داده حداقل یک جدول دارد *
    • فایل CSV دارای همان تعداد ستون جدول است
    • رشته‌های سرصفحه CSV با شناسه‌های ستون مطابقت دارند
    • تمام ستون های تاریخ دارای ویژگی format هستند
    • قالب‌های تاریخ (تقریباً) با مفاهیم مربوط به زمان همسو می‌شوند، به عنوان مثال، قالب برای ستون time:year شامل حداقل یک نویسه y *
  • بررسی داده‌های CSV: بررسی‌های مختلف فایل‌های داده CSV که توسط فایل XML مجموعه داده شما ارجاع شده‌اند، از جمله:
    • هر ردیف CSV دارای همان تعداد ستون به عنوان سربرگ است
    • تعریف مفهوم CSV بیش از یک ردیف برای هر شناسه مفهومی ندارد
    • Slice CSV بیش از یک ردیف برای هر ترکیبی از ابعاد ندارد
    • مقادیر ابعاد ارجاع شده در برش CSV معتبر هستند
    • برش CSV به درستی مرتب شده است
    • مقادیر CSV عدد صحیح و شناور به درستی قالب بندی شده اند

معیارهایی که با * مشخص شده اند برای تجسم در کاوشگر داده های عمومی ضروری هستند، اما از نظر فنی در قالب DSPL مورد نیاز نیستند.

از سوی دیگر، ابزار (هنوز) به موارد زیر نگاه نمی کند:

  • واردات مجموعه داده
  • ارجاعات صفت و اموال
  • پسوندهای مفهومی