DSPL Check ابزاری است که یک مجموعه داده DSPL را بر اساس تعدادی معیار از جمله پایبندی به طرح رسمی DSPL، سازگاری مراجع داخلی و ساختار فایل CSV تأیید می کند. این ابزار می تواند بسیاری از مشکلات را که باعث خطاهای وارد کردن DSPL می شود، پیدا کند و به شما کمک کند تا قبل از شروع فرآیند ورودی، این مشکلات را به سرعت شناسایی و برطرف کنید.
توجه داشته باشید که ابزار (هنوز) مجموعه داده DSPL شما را برای هر مشکل احتمالی بررسی نمی کند. با این حال، رایجترین مشکلات را برطرف میکند، بنابراین اگر مجموعه داده شما با موفقیت توسط ابزار تأیید شود، احتمال زیادی وجود دارد که در اکسپلورر دادههای عمومی قابل واردات و تجسم باشد. برای اطلاعات بیشتر به بخش بررسی جزئیات زیر مراجعه کنید.
اجرای DSPL Check
مبانی
توجه: این دستورالعمل ها فرض می کنند که شما قبلاً دستورالعمل های نصب ارائه شده در صفحه ابزار DSPL را دنبال کرده اید.
برای اجرای DSPL Check، به ترمینال / فرمان سیستم خود بروید و تایپ کنید:
python dsplcheck.py [path to dataset XML or zip file]
که در آن عبارت پرانتزی با مسیر نسبی یک فایل XML داده یا بسته زیپ شده DSPL جایگزین می شود.
اگر مجموعه داده معتبر باشد، ابزار یک پیام "تأیید سنجی موفقیت آمیز" را چاپ می کند. در غیر این صورت، یک یا چند پیغام خطایی را که دلیل عدم موفقیت اعتبارسنجی را توضیح می دهد، خروجی می دهد. اگر مورد دوم رخ داد، مجموعه داده خود را طبق دستور اصلاح کنید، و سپس دوباره ابزار را اجرا کنید.
بررسی سطح
به طور پیش فرض، DSPL Check کل مجموعه داده، از جمله CSV های ارجاع شده از فایل اصلی DSPL XML را بررسی می کند. این فرآیند روی مجموعه دادههای کوچک تا متوسط به خوبی کار میکند، اما ممکن است در مجموعه دادههایی که بسیار بزرگ هستند (یعنی صدها مگابایت یا بزرگتر) دچار گرفتگی یا کمبود حافظه شود.
برای رسیدگی به این موارد، این ابزار دارای گزینه بررسی سطح است که به شما امکان می دهد محدوده بررسی را تنظیم کنید و در صورت نیاز عملکرد را بهبود بخشید. برای استفاده، --checking_level=[...]
قبل از مسیر داده وارد کنید، جایی که عبارت در پرانتز با یکی از مقادیر زیر جایگزین می شود:
-
schema_only
: فایل XML مجموعه داده را در برابر طرح رسمی DSPL اعتبارسنجی کنید، سپس متوقف کنید. -
schema_and_model
: اعتبارسنجی طرحواره و مدل پایه را انجام دهید، اما محتوای CSV را بعد از خط سرصفحه نادیده بگیرید. -
full
: طرحواره، مدل و اعتبارسنجی داده (پیشفرض) را انجام دهید.
بررسی جزئیات
DSPL Check دنباله اعتبارسنجی زیر را انجام می دهد:
- اعتبار سنجی طرحواره XML: تأیید می کند که فایل فوق داده مجموعه داده شما XML معتبر است و با طرح DSPL رسمی مطابقت دارد.
- وجود CSV: بررسی میکند که همه فایلهای CSV ارجاعشده از مجموعه داده شما وجود داشته باشند و قابل بارگیری باشند.
- بررسی های مفهومی: بررسی های مختلف هر مفهوم در مجموعه داده شما، از جمله:
- مجموعه داده حداقل یک مفهوم دارد *
- تمام ارجاعات موضوع معتبر است
- اگر از مفهوم به عنوان یک بعد غیرزمانی استفاده شود، مرجع جدول وجود دارد *
- مرجع جدول در صورت وجود معتبر است
- جدول مرجع دارای یک ستون مربوط به شناسه مفهومی است
- بررسی های برش: بررسی های مختلف هر برش در مجموعه داده شما، از جمله:
- مجموعه داده حداقل یک تکه دارد *
- حداقل یک برش به یک بعد غیر زمان اشاره دارد *
- Slice حداقل یک متریک و یک بعد دارد
- دقیقاً یک بعد به مفهوم متعارف
time
اشاره دارد * - هر برش دارای ترکیبی منحصر به فرد از ابعاد است
- تمام ارجاعات به مفاهیم محلی معتبر است
- مرجع جدول وجود دارد
- مرجع جدول معتبر است
- جدول مرجع دارای یک ستون برای هر بعد و متریک در برش است
- انواع ستون ها در جدول ارجاع شده با انواع مفاهیم استفاده شده در برش مطابقت دارند
- بررسی جدول: بررسی های مختلف هر جدول در مجموعه داده شما، از جمله:
- مجموعه داده حداقل یک جدول دارد *
- فایل CSV دارای همان تعداد ستون جدول است
- رشتههای سرصفحه CSV با شناسههای ستون مطابقت دارند
- تمام ستون های تاریخ دارای ویژگی
format
هستند - قالبهای تاریخ (تقریباً) با مفاهیم مربوط به زمان همسو میشوند، به عنوان مثال، قالب برای ستون
time:year
شامل حداقل یک نویسهy
*
- بررسی دادههای CSV: بررسیهای مختلف فایلهای داده CSV که توسط فایل XML مجموعه داده شما ارجاع شدهاند، از جمله:
- هر ردیف CSV دارای همان تعداد ستون به عنوان سربرگ است
- تعریف مفهوم CSV بیش از یک ردیف برای هر شناسه مفهومی ندارد
- Slice CSV بیش از یک ردیف برای هر ترکیبی از ابعاد ندارد
- مقادیر ابعاد ارجاع شده در برش CSV معتبر هستند
- برش CSV به درستی مرتب شده است
- مقادیر CSV عدد صحیح و شناور به درستی قالب بندی شده اند
معیارهایی که با * مشخص شده اند برای تجسم در کاوشگر داده های عمومی ضروری هستند، اما از نظر فنی در قالب DSPL مورد نیاز نیستند.
از سوی دیگر، ابزار (هنوز) به موارد زیر نگاه نمی کند:
- واردات مجموعه داده
- ارجاعات صفت و اموال
- پسوندهای مفهومی