ডিএসপিএল চেক

ডিএসপিএল চেক একটি ইউটিলিটি যা একটি ডিএসপিএল ডেটাসেটকে অফিসিয়াল ডিএসপিএল স্কিমার আনুগত্য, অভ্যন্তরীণ রেফারেন্সের সামঞ্জস্য এবং CSV ফাইলের কাঠামো সহ বেশ কয়েকটি মানদণ্ডের বিরুদ্ধে যাচাই করে। ইউটিলিটি অনেক সমস্যা ধরতে পারে যা DSPL ইম্পোর্ট ত্রুটির কারণ হতে পারে, যা আপনাকে ইনপুট প্রক্রিয়া শুরু করার আগে এই সমস্যাগুলি দ্রুত সনাক্ত করতে এবং সমাধান করতে সাহায্য করে।

মনে রাখবেন যে ইউটিলিটি (এখনও) প্রতিটি সম্ভাব্য সমস্যার জন্য আপনার DSPL ডেটাসেট পরীক্ষা করে না। যাইহোক, এটি সবচেয়ে সাধারণ সমস্যাগুলি ধরবে, তাই যদি আপনার ডেটাসেটটি সফলভাবে টুল দ্বারা যাচাই করা হয়, তাহলে একটি শক্তিশালী সম্ভাবনা রয়েছে যে এটি পাবলিক ডেটা এক্সপ্লোরারে আমদানিযোগ্য এবং দৃশ্যমান হবে৷ আরও তথ্যের জন্য নীচের চেকিং বিশদ বিভাগটি দেখুন।

DSPL চেক চলছে

বেসিক

দ্রষ্টব্য: এই নির্দেশাবলী অনুমান করে যে আপনি ইতিমধ্যেই DSPL টুল পৃষ্ঠায় দেওয়া ইনস্টলেশন নির্দেশাবলী অনুসরণ করেছেন।

DSPL চেক চালানোর জন্য, আপনার সিস্টেমের টার্মিনাল/প্রম্পটে যান এবং টাইপ করুন:

python dsplcheck.py [path to dataset XML or zip file]

যেখানে বন্ধনী শব্দটিকে ডেটাসেট XML ফাইল বা জিপ করা DSPL বান্ডেলের আপেক্ষিক পাথ দিয়ে প্রতিস্থাপিত করা হয়।

ডেটাসেটটি বৈধ হলে, টুলটি একটি "বৈধকরণ সফল" বার্তা প্রিন্ট করে। অন্যথায়, এটি কেন বৈধতা ব্যর্থ হয়েছে তা বর্ণনা করে এক বা একাধিক ত্রুটি বার্তা আউটপুট করে। যদি পরবর্তীটি ঘটে থাকে, নির্দেশিত হিসাবে আপনার ডেটাসেট ঠিক করুন এবং তারপরে আবার টুলটি চালান।

স্তর পরীক্ষা করা হচ্ছে

ডিফল্টরূপে, DSPL চেক মূল, DSPL XML ফাইল থেকে উল্লেখ করা CSV সহ সমগ্র ডেটাসেট পরীক্ষা করবে। এই প্রক্রিয়াটি ছোট থেকে মাঝারি আকারের ডেটাসেটগুলিতে ভাল কাজ করে, তবে খুব বড় (যেমন, শত শত মেগাবাইট বা বড়) ডেটাসেটগুলিতে আটকে যেতে পারে বা মেমরি ফুরিয়ে যেতে পারে।

এই ক্ষেত্রে মোকাবেলা করার জন্য, টুলটিতে একটি চেকিং লেভেল বিকল্প রয়েছে যা আপনাকে চেকিংয়ের সুযোগ সেট করতে এবং প্রয়োজন অনুযায়ী কর্মক্ষমতা উন্নত করতে দেয়। ব্যবহার করতে, ডেটাসেট পাথের আগে --checking_level=[...] ঢোকান, যেখানে বন্ধনী শব্দটি নিম্নলিখিত মানগুলির মধ্যে একটি দ্বারা প্রতিস্থাপিত হয়:

  • schema_only : অফিসিয়াল DSPL স্কিমার বিরুদ্ধে ডেটাসেট XML ফাইলটি যাচাই করুন, তারপর বন্ধ করুন।
  • schema_and_model : স্কিমা এবং মৌলিক মডেল যাচাইকরণ করুন, কিন্তু হেডার লাইনের পরে CSV বিষয়বস্তু উপেক্ষা করুন।
  • full : স্কিমা, মডেল এবং ডেটা যাচাইকরণ (ডিফল্ট) করুন।

বিস্তারিত চেক করা হচ্ছে

ডিএসপিএল চেক নিম্নলিখিত যাচাইকরণের ক্রম সম্পাদন করে:

  • XML স্কিমা বৈধতা: যাচাই করে যে আপনার ডেটাসেট মেটাডেটা ফাইলটি বৈধ XML এবং অফিসিয়াল DSPL স্কিমার সাথে সঙ্গতিপূর্ণ৷
  • CSV অস্তিত্ব: পরীক্ষা করে যে আপনার ডেটাসেট থেকে উল্লেখ করা সমস্ত CSV ফাইল বিদ্যমান এবং লোডযোগ্য।
  • কনসেপ্ট চেক: আপনার ডেটাসেটের প্রতিটি কনসেপ্টের বিভিন্ন চেক, যার মধ্যে রয়েছে:
    • ডেটাসেটের অন্তত একটি ধারণা আছে *
    • সমস্ত বিষয় উল্লেখ বৈধ
    • সারণী রেফারেন্স বিদ্যমান যদি ধারণাটি অ-সময় মাত্রা হিসাবে ব্যবহার করা হয় *
    • টেবিল রেফারেন্স যদি উপস্থিত থাকে তাহলে বৈধ
    • উল্লেখিত টেবিলে ধারণা আইডির সাথে সম্পর্কিত একটি কলাম রয়েছে
  • স্লাইস চেক: আপনার ডেটাসেটের প্রতিটি স্লাইসের বিভিন্ন চেক, সহ:
    • ডেটাসেটের অন্তত একটি স্লাইস আছে *
    • কমপক্ষে একটি স্লাইস একটি অ-সময়ের মাত্রা উল্লেখ করে *
    • স্লাইসের অন্তত একটি মেট্রিক এবং একটি মাত্রা আছে
    • ঠিক এক মাত্রার উল্লেখ time ক্যানোনিকাল ধারণা *
    • প্রতিটি স্লাইসে মাত্রার একটি অনন্য সমন্বয় রয়েছে
    • স্থানীয় ধারণার সমস্ত উল্লেখ বৈধ
    • সারণী রেফারেন্স বিদ্যমান
    • টেবিল রেফারেন্স বৈধ
    • রেফারেন্স করা টেবিলে স্লাইসের প্রতিটি মাত্রা এবং মেট্রিকের জন্য একটি কলাম রয়েছে
    • উল্লেখিত সারণীতে কলামের প্রকারগুলি স্লাইসে ব্যবহৃত ধারণাগুলির প্রকারের সাথে মেলে
  • টেবিল চেক: আপনার ডেটাসেটের প্রতিটি টেবিলের বিভিন্ন চেক, সহ:
    • ডেটাসেটে অন্তত একটি টেবিল আছে *
    • CSV ফাইলে টেবিলের মতো একই সংখ্যক কলাম রয়েছে
    • CSV হেডার স্ট্রিং কলাম আইডির সাথে মেলে
    • সমস্ত তারিখ কলামের একটি format বৈশিষ্ট্য আছে
    • তারিখ বিন্যাসগুলি সংশ্লিষ্ট সময় ধারণার সাথে সারিবদ্ধ (মোটামুটি) করে, যেমন, একটি time:year কলামে কমপক্ষে একটি y অক্ষর থাকে *
  • CSV ডেটা চেক: আপনার ডেটাসেট XML ফাইল দ্বারা উল্লেখ করা CSV ডেটা ফাইলগুলির বিভিন্ন চেক, সহ:
    • প্রতিটি CSV সারির শিরোনাম হিসাবে একই সংখ্যক কলাম রয়েছে৷
    • ধারণার সংজ্ঞা CSV-এ প্রতিটি কনসেপ্ট আইডির জন্য একাধিক সারি নেই
    • প্রতিটি মাত্রার সংমিশ্রণের জন্য স্লাইস CSV-এ একের বেশি সারি নেই
    • স্লাইস CSV-এ উল্লেখ করা মাত্রা মান বৈধ
    • স্লাইস CSV সঠিকভাবে সাজানো হয়েছে
    • পূর্ণসংখ্যা এবং ফ্লোট CSV মান সঠিকভাবে ফরম্যাট করা হয়েছে

একটি * দ্বারা চিহ্নিত মানদণ্ডগুলি পাবলিক ডেটা এক্সপ্লোরারে ভিজ্যুয়ালাইজেশনের জন্য প্রয়োজনীয়, তবে DSPL বিন্যাসে প্রযুক্তিগতভাবে প্রয়োজন হয় না।

অন্যদিকে, টুলটি (এখনও) নিম্নলিখিতগুলি দেখে না:

  • ডেটাসেট আমদানি
  • বৈশিষ্ট্য এবং সম্পত্তি উল্লেখ
  • কনসেপ্ট এক্সটেনশন