การตรวจสอบ DSPL

การตรวจสอบ DSPL เป็นยูทิลิตีที่ตรวจสอบชุดข้อมูล DSPL กับเกณฑ์ต่างๆ ซึ่งรวมถึงการปฏิบัติตามสคีมา DSPL อย่างเป็นทางการ ความสอดคล้องภายในของการอ้างอิง และโครงสร้างไฟล์ CSV ยูทิลิตีอาจตรวจพบปัญหาหลายอย่างที่จะทําให้นําเข้า DSPL ได้ ซึ่งจะช่วยให้คุณตรวจพบและแก้ไขปัญหาเหล่านี้ได้อย่างรวดเร็วก่อนเริ่มกระบวนการป้อนข้อมูล

โปรดทราบว่ายูทิลิตีจะไม่ (ในขณะนี้) ตรวจสอบชุดข้อมูล DSPL สําหรับปัญหาทั้งหมดที่อาจเกิดขึ้น แต่จะตรวจพบปัญหาที่พบบ่อยที่สุด ดังนั้นหากเครื่องมือตรวจสอบความถูกต้องโดยเครื่องมือเรียบร้อยแล้ว มีโอกาสสูงที่นําเข้าและมองเห็นได้ใน Public Data Explorer ดูข้อมูลเพิ่มเติมได้ในส่วนรายละเอียดการตรวจสอบด้านล่าง

กําลังเรียกใช้การตรวจสอบ DSPL

พื้นฐาน

หมายเหตุ: เส้นทางเหล่านี้จะถือว่าคุณได้ทําตามวิธีการติดตั้งที่ระบุไว้ในหน้าเครื่องมือ DSPL แล้ว

หากต้องการเรียกใช้การตรวจสอบ DSPL ให้ไปที่เทอร์มินัล / ข้อความแจ้งในระบบแล้วพิมพ์ดังนี้

python dsplcheck.py [path to dataset XML or zip file]

โดยแทนที่คําในวงเล็บด้วยเส้นทางที่เกี่ยวข้องไปยังไฟล์ XML ของชุดข้อมูลหรือแพ็กเกจ DSPL ที่บีบอัด

หากชุดข้อมูลถูกต้อง เครื่องมือจะพิมพ์ข้อความว่า "ตรวจสอบสําเร็จ" มิเช่นนั้น ระบบจะแสดงข้อความแสดงข้อผิดพลาดอย่างน้อย 1 ข้อความที่อธิบายสาเหตุที่ทําให้การตรวจสอบล้มเหลว หากเป็นกรณีหลัง ให้แก้ไขชุดข้อมูลตามคําสั่ง จากนั้นเรียกใช้เครื่องมืออีกครั้ง

ระดับการตรวจสอบ

โดยค่าเริ่มต้น การตรวจสอบ DSPL จะตรวจสอบชุดข้อมูลทั้งหมด รวมถึง CSV ที่อ้างอิงจากไฟล์ XML หลักของ DSPL กระบวนการนี้ทํางานได้ดีในชุดข้อมูลขนาดเล็กถึงขนาดกลาง แต่ก็อาจเหลือเฟือหรือหน่วยความจําหมดในชุดข้อมูลที่มีขนาดใหญ่มาก (กล่าวคือ มีขนาดหลายร้อยเมกะไบต์หรือใหญ่กว่านั้น)

เพื่อแก้ไขปัญหาเหล่านี้ เครื่องมือนี้มีตัวเลือกระดับการตรวจสอบที่ช่วยให้คุณกําหนดขอบเขตของการตรวจสอบและปรับปรุงประสิทธิภาพได้ตามความจําเป็น หากต้องการใช้งาน ให้แทรก --checking_level=[...] ก่อนเส้นทางชุดข้อมูล โดยแทนที่วงเล็บด้วยค่าใดค่าหนึ่งต่อไปนี้

  • schema_only: ตรวจสอบไฟล์ XML ของชุดข้อมูลกับสคีมา DSPL อย่างเป็นทางการ แล้วหยุด
  • schema_and_model: ควรตรวจสอบความถูกต้องของสคีมาและโมเดลพื้นฐาน แต่ละเว้นเนื้อหา CSV หลังบรรทัดส่วนหัว
  • full: ตรวจสอบสคีมา โมเดล และการตรวจสอบข้อมูล (ค่าเริ่มต้น)

กําลังตรวจสอบรายละเอียด

การตรวจสอบ DSPL จะดําเนินการตรวจสอบลําดับต่อไปนี้

  • การตรวจสอบสคีมา XML: ยืนยันว่าไฟล์ข้อมูลเมตาของชุดข้อมูลเป็น XML ที่ถูกต้องและเป็นไปตามสคีมา DSPL อย่างเป็นทางการ
  • การมีอยู่ของ CSV: ตรวจสอบว่าไฟล์ CSV ทั้งหมดที่อ้างอิงจากชุดข้อมูลมีการโหลดและโหลดได้
  • การตรวจสอบแนวคิด: การตรวจสอบแนวคิดต่างๆ ของแต่ละแนวคิดในชุดข้อมูล ซึ่งรวมถึง
    • ชุดข้อมูลมีแนวคิดอย่างน้อย 1 ข้อ*
    • การอ้างอิงหัวข้อทั้งหมดถูกต้อง
    • มีการอ้างอิงตารางหากมีการใช้แนวคิดเป็นมิติข้อมูลที่ไม่ใช่เวลา*
    • การอ้างอิงตารางถูกต้องหากมี
    • ตารางอ้างอิงมีคอลัมน์ที่สอดคล้องกับรหัสแนวคิด
  • การตรวจสอบส่วนแบ่ง: การตรวจสอบส่วนต่างๆ ของแต่ละชุดข้อมูล ดังนี้
    • ชุดข้อมูลมีอย่างน้อย 1 ส่วน*
    • อย่างน้อย 1 ส่วนอ้างอิงมิติข้อมูลที่ไม่ใช่เวลา*
    • ส่วนแบ่งมีเมตริกและมิติข้อมูลอย่างน้อย 1 รายการ
    • อ้างอิงถึงมิติข้อมูล 1 รายการ time แนวคิด Canonical*
    • แต่ละองค์ประกอบมีชุดค่าผสมของมิติข้อมูลที่ไม่ซ้ํากัน
    • การอ้างอิงแนวคิดท้องถิ่นทั้งหมดถูกต้อง
    • มีการอ้างอิงตารางแล้ว
    • การอ้างอิงตารางถูกต้อง
    • ตารางอ้างอิงมีคอลัมน์สําหรับมิติข้อมูลและเมตริกแต่ละรายการในส่วนแบ่ง
    • ประเภทคอลัมน์ในตารางที่อ้างอิงตรงกับประเภทของแนวคิดที่ใช้ในส่วนแบ่ง
  • การตรวจสอบตาราง: การตรวจสอบต่างๆ ของแต่ละตารางในชุดข้อมูล ซึ่งรวมถึง
    • ชุดข้อมูลมีตารางอย่างน้อย 1 ตาราง*
    • ไฟล์ CSV มีจํานวนคอลัมน์เท่ากับตาราง
    • สตริงส่วนหัว CSV ตรงกับรหัสคอลัมน์
    • คอลัมน์วันที่ทั้งหมดมีแอตทริบิวต์ format
    • รูปแบบวันที่สอดคล้องกับ (คร่าวๆ) กับแนวคิดเวลาที่เกี่ยวข้อง เช่น รูปแบบของคอลัมน์ time:year จะมีอักขระ y อย่างน้อย 1 ตัว*
  • การตรวจสอบข้อมูล CSV: การตรวจสอบไฟล์ข้อมูล CSV ที่อ้างอิงโดยไฟล์ XML ของชุดข้อมูล ซึ่งรวมถึงสิ่งต่อไปนี้
    • แถว CSV แต่ละแถวมีจํานวนคอลัมน์เท่ากับส่วนหัว
    • คําจํากัดความของ CSV ของแนวคิดมีไม่เกิน 1 แถวสําหรับรหัสแนวคิดแต่ละรายการ
    • CSV ของแถวจะมีแถวได้ไม่เกิน 1 แถวสําหรับมิติข้อมูลแต่ละรายการรวมกัน
    • ค่ามิติข้อมูลที่อ้างอิงใน CSV ส่วนถูกต้อง
    • จัดเรียง CSV ของสไลด์อย่างถูกต้องแล้ว
    • ค่า CSV จํานวนเต็มและแบบลอยมีรูปแบบที่ถูกต้อง

เกณฑ์ที่มีเครื่องหมาย * จําเป็นสําหรับการแสดงภาพใน Public Data Explorer แต่การใช้งานใน DSPL ไม่ได้บังคับทางเทคนิค

ในทางกลับกัน เครื่องมือจะไม่ (แต่) พิจารณาสิ่งต่อไปนี้

  • การนําเข้าชุดข้อมูล
  • การอ้างอิงแอตทริบิวต์และพร็อพเพอร์ตี้
  • ส่วนขยายแนวคิด