การตรวจสอบ DSPL เป็นยูทิลิตีที่ตรวจสอบชุดข้อมูล DSPL กับเกณฑ์ต่างๆ ซึ่งรวมถึงการปฏิบัติตามสคีมา DSPL อย่างเป็นทางการ ความสอดคล้องภายในของการอ้างอิง และโครงสร้างไฟล์ CSV ยูทิลิตีอาจตรวจพบปัญหาหลายอย่างที่จะทําให้นําเข้า DSPL ได้ ซึ่งจะช่วยให้คุณตรวจพบและแก้ไขปัญหาเหล่านี้ได้อย่างรวดเร็วก่อนเริ่มกระบวนการป้อนข้อมูล
โปรดทราบว่ายูทิลิตีจะไม่ (ในขณะนี้) ตรวจสอบชุดข้อมูล DSPL สําหรับปัญหาทั้งหมดที่อาจเกิดขึ้น แต่จะตรวจพบปัญหาที่พบบ่อยที่สุด ดังนั้นหากเครื่องมือตรวจสอบความถูกต้องโดยเครื่องมือเรียบร้อยแล้ว มีโอกาสสูงที่นําเข้าและมองเห็นได้ใน Public Data Explorer ดูข้อมูลเพิ่มเติมได้ในส่วนรายละเอียดการตรวจสอบด้านล่าง
กําลังเรียกใช้การตรวจสอบ DSPL
พื้นฐาน
หมายเหตุ: เส้นทางเหล่านี้จะถือว่าคุณได้ทําตามวิธีการติดตั้งที่ระบุไว้ในหน้าเครื่องมือ DSPL แล้ว
หากต้องการเรียกใช้การตรวจสอบ DSPL ให้ไปที่เทอร์มินัล / ข้อความแจ้งในระบบแล้วพิมพ์ดังนี้
python dsplcheck.py [path to dataset XML or zip file]
โดยแทนที่คําในวงเล็บด้วยเส้นทางที่เกี่ยวข้องไปยังไฟล์ XML ของชุดข้อมูลหรือแพ็กเกจ DSPL ที่บีบอัด
หากชุดข้อมูลถูกต้อง เครื่องมือจะพิมพ์ข้อความว่า "ตรวจสอบสําเร็จ" มิเช่นนั้น ระบบจะแสดงข้อความแสดงข้อผิดพลาดอย่างน้อย 1 ข้อความที่อธิบายสาเหตุที่ทําให้การตรวจสอบล้มเหลว หากเป็นกรณีหลัง ให้แก้ไขชุดข้อมูลตามคําสั่ง จากนั้นเรียกใช้เครื่องมืออีกครั้ง
ระดับการตรวจสอบ
โดยค่าเริ่มต้น การตรวจสอบ DSPL จะตรวจสอบชุดข้อมูลทั้งหมด รวมถึง CSV ที่อ้างอิงจากไฟล์ XML หลักของ DSPL กระบวนการนี้ทํางานได้ดีในชุดข้อมูลขนาดเล็กถึงขนาดกลาง แต่ก็อาจเหลือเฟือหรือหน่วยความจําหมดในชุดข้อมูลที่มีขนาดใหญ่มาก (กล่าวคือ มีขนาดหลายร้อยเมกะไบต์หรือใหญ่กว่านั้น)
เพื่อแก้ไขปัญหาเหล่านี้ เครื่องมือนี้มีตัวเลือกระดับการตรวจสอบที่ช่วยให้คุณกําหนดขอบเขตของการตรวจสอบและปรับปรุงประสิทธิภาพได้ตามความจําเป็น หากต้องการใช้งาน ให้แทรก --checking_level=[...]
ก่อนเส้นทางชุดข้อมูล โดยแทนที่วงเล็บด้วยค่าใดค่าหนึ่งต่อไปนี้
schema_only
: ตรวจสอบไฟล์ XML ของชุดข้อมูลกับสคีมา DSPL อย่างเป็นทางการ แล้วหยุดschema_and_model
: ควรตรวจสอบความถูกต้องของสคีมาและโมเดลพื้นฐาน แต่ละเว้นเนื้อหา CSV หลังบรรทัดส่วนหัวfull
: ตรวจสอบสคีมา โมเดล และการตรวจสอบข้อมูล (ค่าเริ่มต้น)
กําลังตรวจสอบรายละเอียด
การตรวจสอบ DSPL จะดําเนินการตรวจสอบลําดับต่อไปนี้
- การตรวจสอบสคีมา XML: ยืนยันว่าไฟล์ข้อมูลเมตาของชุดข้อมูลเป็น XML ที่ถูกต้องและเป็นไปตามสคีมา DSPL อย่างเป็นทางการ
- การมีอยู่ของ CSV: ตรวจสอบว่าไฟล์ CSV ทั้งหมดที่อ้างอิงจากชุดข้อมูลมีการโหลดและโหลดได้
-
การตรวจสอบแนวคิด: การตรวจสอบแนวคิดต่างๆ ของแต่ละแนวคิดในชุดข้อมูล ซึ่งรวมถึง
- ชุดข้อมูลมีแนวคิดอย่างน้อย 1 ข้อ*
- การอ้างอิงหัวข้อทั้งหมดถูกต้อง
- มีการอ้างอิงตารางหากมีการใช้แนวคิดเป็นมิติข้อมูลที่ไม่ใช่เวลา*
- การอ้างอิงตารางถูกต้องหากมี
- ตารางอ้างอิงมีคอลัมน์ที่สอดคล้องกับรหัสแนวคิด
-
การตรวจสอบส่วนแบ่ง: การตรวจสอบส่วนต่างๆ ของแต่ละชุดข้อมูล ดังนี้
- ชุดข้อมูลมีอย่างน้อย 1 ส่วน*
- อย่างน้อย 1 ส่วนอ้างอิงมิติข้อมูลที่ไม่ใช่เวลา*
- ส่วนแบ่งมีเมตริกและมิติข้อมูลอย่างน้อย 1 รายการ
- อ้างอิงถึงมิติข้อมูล 1 รายการ
time
แนวคิด Canonical* - แต่ละองค์ประกอบมีชุดค่าผสมของมิติข้อมูลที่ไม่ซ้ํากัน
- การอ้างอิงแนวคิดท้องถิ่นทั้งหมดถูกต้อง
- มีการอ้างอิงตารางแล้ว
- การอ้างอิงตารางถูกต้อง
- ตารางอ้างอิงมีคอลัมน์สําหรับมิติข้อมูลและเมตริกแต่ละรายการในส่วนแบ่ง
- ประเภทคอลัมน์ในตารางที่อ้างอิงตรงกับประเภทของแนวคิดที่ใช้ในส่วนแบ่ง
-
การตรวจสอบตาราง: การตรวจสอบต่างๆ ของแต่ละตารางในชุดข้อมูล ซึ่งรวมถึง
- ชุดข้อมูลมีตารางอย่างน้อย 1 ตาราง*
- ไฟล์ CSV มีจํานวนคอลัมน์เท่ากับตาราง
- สตริงส่วนหัว CSV ตรงกับรหัสคอลัมน์
- คอลัมน์วันที่ทั้งหมดมีแอตทริบิวต์
format
- รูปแบบวันที่สอดคล้องกับ (คร่าวๆ) กับแนวคิดเวลาที่เกี่ยวข้อง เช่น รูปแบบของคอลัมน์
time:year
จะมีอักขระy
อย่างน้อย 1 ตัว*
-
การตรวจสอบข้อมูล CSV: การตรวจสอบไฟล์ข้อมูล CSV ที่อ้างอิงโดยไฟล์ XML ของชุดข้อมูล ซึ่งรวมถึงสิ่งต่อไปนี้
- แถว CSV แต่ละแถวมีจํานวนคอลัมน์เท่ากับส่วนหัว
- คําจํากัดความของ CSV ของแนวคิดมีไม่เกิน 1 แถวสําหรับรหัสแนวคิดแต่ละรายการ
- CSV ของแถวจะมีแถวได้ไม่เกิน 1 แถวสําหรับมิติข้อมูลแต่ละรายการรวมกัน
- ค่ามิติข้อมูลที่อ้างอิงใน CSV ส่วนถูกต้อง
- จัดเรียง CSV ของสไลด์อย่างถูกต้องแล้ว
- ค่า CSV จํานวนเต็มและแบบลอยมีรูปแบบที่ถูกต้อง
เกณฑ์ที่มีเครื่องหมาย * จําเป็นสําหรับการแสดงภาพใน Public Data Explorer แต่การใช้งานใน DSPL ไม่ได้บังคับทางเทคนิค
ในทางกลับกัน เครื่องมือจะไม่ (แต่) พิจารณาสิ่งต่อไปนี้
- การนําเข้าชุดข้อมูล
- การอ้างอิงแอตทริบิวต์และพร็อพเพอร์ตี้
- ส่วนขยายแนวคิด