این سند متداول ترین مسائلی را که صاحبان داده هنگام ایجاد مجموعه داده های DSPL و آپلود آنها در کاوشگر داده های عمومی تجربه می کنند، پوشش می دهد.
فهرست
سوالات عمومی
DSPL چیست؟
DSPL مخفف Dataset Publishing Language است. این یک فرمت نمایشی برای ابرداده (اطلاعات مربوط به مجموعه داده، مانند نام و ارائهدهنده آن، و همچنین مفاهیمی که حاوی و نمایش داده میشود) و دادههای واقعی مجموعههای داده است. فراداده در XML مشخص شده است، در حالی که داده ها در قالب CSV ارائه می شوند.
مزایای کلیدی استفاده از DSPL چیست؟
DSPL از ابتدا برای تجسم داده های غنی مانند آنچه در Public Data Explorer طراحی شده است. ایجاد این موارد به ابردادههای دقیق پیرامون برشها، ابعاد و معیارها نیاز دارد، موجودیتهایی که در قالبهای دیگر مجموعه دادهها به خوبی پشتیبانی نمیشوند.
DSPL همچنین از واردات داده، سلسله مراتب مفهومی (به عنوان مثال، "کشور" فرزند "قاره" است)، داده های جغرافیایی کدگذاری شده و تعدادی ویژگی منحصر به فرد دیگر که تجربه کاوش داده ها را بهبود می بخشد، پشتیبانی می کند.
آیا DSPL جایگزین فرمت های دیگری است که برای تبادل و/یا تجزیه و تحلیل داده ها استفاده می شود؟
به طور کلی نه. همانطور که در پاسخ قبلی اشاره شد، DSPL برای تجسم و کاوش تعاملی طراحی شده است. این به عنوان یک قالب کلی، مبادله یا تجزیه و تحلیل دادهها در نظر گرفته نشده است.
در نهایت، ما DSPL را مکمل سایر فرمتها میدانیم. کاربران باید بتوانند مجموعه داده های DSPL را از منابع دیگر به منظور ایجاد تجسم داده های تعاملی و غنی ایجاد کنند.
با مجموعه داده DSPL چه کاری می توانم انجام دهم؟
میتوانید آن را به اکسپلورر دادههای عمومی وارد کنید، آن را منتشر کنید و به دیگران اجازه دهید از طریق تجسمهای غنی و تعاملی، دادهها را کاوش کنند. مجموعه داده های منتشر شده را نیز می توان در فهرست داده های عمومی گنجاند تا کاربران علاقه مند بتوانند آنها را پیدا کنند.
در حال حاضر، این تنها برنامه ای است که از DSPL استفاده می کند. با این حال، ما مردم را تشویق می کنیم که از آن برای سایر برنامه ها استفاده کنند و انتظار داریم که پذیرش در طول زمان افزایش یابد.
چه نوع از مجموعه داده ها برای DSPL مناسب هستند؟
قالب DSPL از مجموعه های دلخواه جداول پشتیبانی می کند و بنابراین برای طیف گسترده ای از انواع داده ها مناسب است. با این حال، تنها زیر مجموعهای از مجموعه دادههای DSPL، تجسمهای جالبی را در Public Data Explorer ایجاد میکند. محصول دوم به ویژه برای داده هایی که عبارتند از:
- کمی: هر نقطه داده دارای یک یا چند معیار عددی مرتبط با آن است (به عنوان مثال، "جمعیت"، "تعداد موارد آنفولانزا"، "درآمد").
- طبقهبندی : دادهها را میتوان در تعداد محدودی از دستههای قابل توصیف متنی سازماندهی کرد (مانند «کشورها»، «جنسها»، «گروههای سنی»).
- سری های زمانی: برای هر دسته، معیارهای داده بر حسب زمان متفاوت است و نقاط مجاور حداقل یک روز از هم فاصله دارند (کاوشگر داده های عمومی نمی تواند افزایش های زمانی کوچکتر از یک روز را تجسم کند).
- تجمیع شده: برای هر ترکیب زمان / دسته / متریک، یک نقطه داده واحد وجود دارد، نه فهرستی از رویدادها یا حقایق.
من یک مجموعه داده DSPL ایجاد کردهام، و میخواهم در فهرست اطلاعات عمومی Google ظاهر شود تا دیگران بتوانند آن را پیدا کنند. با چه کسی تماس بگیرم؟
لطفاً این فرم را پر کنید و پیوندی به مجموعه داده خود ارائه دهید.
من با DSPL مشکل دارم. برای کمک به کجا مراجعه کنم؟
لطفاً مشکل خود را در انجمن گفتگوی DSPL ارسال کنید.
فایل های مجموعه داده DSPL
چگونه باید فایل های XML و CSV خود را رمزگذاری کنم؟
همه فایلهای XML و CSV باید دارای کد UTF-8 باشند. توجه داشته باشید که ASCII (گاهی اوقات به عنوان "متن ساده" شناخته می شود) زیر مجموعه ای از UTF-8 است، بنابراین مجموعه داده ها در آن فرمت نیز باید کار کنند.
از چه نرم افزاری برای ایجاد و ویرایش فایل های مجموعه داده خود استفاده کنم؟
یک ویرایشگر متن ساده، با برجسته سازی نحو برای اهداف خوانایی، انتخاب توصیه شده برای ویرایش فایل های XML شما است. برای برخی از توصیه های پلتفرم خاص، این مقاله را ببینید. ما توصیه میکنیم از استفاده از واژهپردازهای همهمنظوره با ویژگیهای کامل خودداری کنید، زیرا اینها تمایل دارند برچسبهای قالببندی اضافی را در XML شما وارد کنند، که میتواند باعث خطاهای وارد شود.
صفحه گسترده معمولاً ساده ترین راه برای ایجاد و ویرایش فایل های داده شما است. فقط مطمئن شوید که آنها را در قالب صحیح (CSV / مقادیر جدا شده با کاما) ذخیره کنید.
من اطلاعاتی در اکسل، SPSS، SAS یا سیستم های دیگر دارم. آیا می توانم اینها را مستقیماً به Public Data Explorer وارد کنم؟
نه الان نه. ابتدا باید داده های خود را به فرمت CSV صادر کنید، ابرداده مناسب XML را اضافه کنید و سپس یک مجموعه داده سازگار با DSPL را در Public Data Explorer آپلود کنید.
آیا اسم فایل هایم مهم است؟
فایل XML مجموعه داده شما باید نامی داشته باشد که به .xml
. ختم می شود. فایل های داده CSV مرتبط می توانند هر نامی داشته باشند، مشروط بر اینکه با نام های داده شده در تگ های <file>
در فراداده XML شما مطابقت داشته باشند. فایل زیپ مورد استفاده برای بسته بندی و وارد کردن مجموعه داده به Public Data Explorer نیز می تواند هر نامی داشته باشد.
آیا فایل های CSV من باید مرتب شوند؟
آره. شما باید محتوای فایلهای CSV خود را بر اساس ابعاد غیر زمان (به هر ترتیب یا جهت) و سپس، به صورت اختیاری، بر اساس هر یک از ستونهای دیگر (مثلاً زمان) مرتب کنید.
بنابراین، برای مثال، اگر یک CSV با ستونهای date
، dimension1
، dimension2
، metric1
و metric2
دارید، باید بر اساس dimension1
1 و dimension2
2 (به هر ترتیبی) مرتبسازی کنید. اگر می خواهید بر اساس ستون تاریخ/زمان نیز مرتب کنید، این آخرین چیزی است که بر اساس آن مرتب می کنید.
مرتبسازی به این روش مشاهدات هر سری زمانی را در کنار هم نگه میدارد، که کارایی فرآیند واردات DSPL را تا حد زیادی بهبود میبخشد.
مدل XML و نحو
چگونه تصمیم بگیرم که چه چیزی باید یک متریک و چه چیزی یک بعد باشد؟
بعد موجودی است که برای بخش بندی یا فیلتر کردن داده های شما استفاده می شود. از سوی دیگر، یک متریک، مقدار یا مقادیر مشاهده شده مرتبط با هر نقطه داده را توصیف می کند.
به طور کلی، ابعاد مقوله ای هستند در حالی که متریک ها مقادیر عددی غیر مقوله ای، متغیر با زمان هستند. برخی از نمونه های اولیه هر یک به شرح زیر است:
- ابعاد : کشور، ایالت، شهرستان، منطقه، سال، ماه، جنس، رده سنی، بخش صنعت
- معیارها : جمعیت، تولید ناخالص داخلی، نرخ بیکاری، سواد، درآمد، هزینه، قیمت
تفاوت بین یک ویژگی و یک ویژگی چیست؟
ویژگی هایی به هر نمونه از یک مفهوم متصل می شود. به عنوان مثال، یک ملک قاره برای کشورهای مختلف ارزش های متفاوتی خواهد داشت. از سوی دیگر، صفات با مفهوم به عنوان یک کل مرتبط هستند. به عنوان مثال: یک ویژگی isParent
برای همه قاره ها صادق است.
آیا ترتیب برچسب ها مهم است؟
آره. برچسبهای خود را به ترتیبی که در راهنمای برنامهنویس ظاهر میشوند اضافه کنید. برای مثال، <topic>
باید قبل از <type>
در تعریف یک مفهوم ظاهر شود.
آیا حروف بزرگ مهم است؟
بله، تگ XML و نامهای مشخصه شما باید به همان شکلی که در راهنمای برنامهنویس ظاهر میشوند، با حروف بزرگ نوشته شوند. به عنوان مثال، استفاده از isparent
به جای isParent
در تگ property
باعث خطای import می شود.
آیا یک مفهوم می تواند دو پدر و مادر داشته باشد؟
خیر. هر مفهوم می تواند تنها یک مرجع isParent
باشد.
آیا یک مفهوم می تواند به خودش اشاره کند؟
آره. برای نمونه ای از سلسله مراتب مفهومی خودارجاعی، به مجموعه داده خرده فروشی ایالات متحده مراجعه کنید.
قالب بندی داده ها
چگونه تاریخ ها را قالب بندی کنم؟
تاریخ ها را می توان در هر قالبی که با استاندارد Joda DateTime قابل توصیف باشد، نوشت. کد قالب بندی Joda باید در یک ویژگی format
در عنصر ستون جدول مربوطه ذخیره شود.
کدهای قالببندی Joda برای برخی از قالبهای محبوب تاریخ در زیر فهرست شدهاند:
مثال تاریخ | فرمت جودا |
---|---|
2010 | yyyy |
می 2010 | MMM yyyy |
2010/05/21 | MM/dd/yyyy |
21/05/2010 | dd/MM/yyyy |
2010/05/21 | yyyy-MM-dd |
به ویژه، توجه داشته باشید که کد جودا برای کاراکترهای ماه M
است، نه m
(که نشان دهنده دقیقه است).
آیا می توانم از واحدهای زمانی کوچکتر از یک روز استفاده کنم؟
فرمت Joda DateTime، و از این رو DSPL نیز، از مقادیر زمان تا مرتبه میلی ثانیه پشتیبانی می کند. با این حال، کاوشگر اطلاعات عمومی (هنوز) نمی تواند جزئیات زمانی کوچکتر از یک روز را تجسم کند.
استفاده از مفاهیم متعارف
"مفاهیم متعارف" چیست و چگونه مفید است؟
اصطلاح "مفاهیم متعارف" به مجموعه ای از مفاهیم ایجاد شده توسط گوگل اشاره دارد که به عنوان "بلوک های سازنده" اساسی در مجموعه داده های دیگر در نظر گرفته شده اند. خود مفاهیم در شش مجموعه داده DSPL تعریف شدهاند که اولی را در دستههایی مانند "زمان"، "جغرافیا" و غیره دستهبندی میکنند. برای دسترسی به این مفاهیم، کافی است مجموعه دادههای مادر مناسب را در ابتدای DSPL XML خود وارد کنید. فایل.
مفاهیم متعارف مفید هستند زیرا به صرفه جویی در زمان کمک می کنند (مثلاً با عدم نیاز به وارد کردن دستی مقادیر طول و عرض جغرافیایی برای هر کشور در جهان) و همچنین نشان می دهند که چگونه داده های شما باید تجسم شوند. برای مثال، Public Data Explorer از time:...
مفاهیم برای قالببندی نمودار خطی محور x استفاده میکند، از ویژگی name
مفهوم entity:entity
برای تولید رشتههایی برای رابط کاربری انتخابکننده ابعاد استفاده میکند، از ویژگیهای طول و latitude
longitude
استفاده میکند. geo:location
برای نمایش داده ها در تجسم نقشه و غیره.
آیا همه مفاهیم متعارف توسط Public Data Explorer درک می شوند؟
در حالی که اکثر مفاهیم متعارف ارائه شده توسط Public Data Explorer درک می شوند، تعداد کمی وجود دارند که (هنوز) قابل مشاهده نیستند. این موارد به همراه چند راه حل پیشنهادی در زیر ذکر شده است:
مفهوم | راه حل |
---|---|
quantity:index | به جای آن از quantity:ratio یا quantity:magnitude استفاده کنید. |
time:quarter | time:month همانطور که در کتاب آشپزی DSPL توضیح داده شده است. |
time:week | استفاده از time:day همانطور که در کتاب آشپزی DSPL توضیح داده شده است. |
برای پشتیبانی بهتر از این مفاهیم در آینده با ما همراه باشید.
چگونه از یک مفهوم متعارف در مجموعه داده خود استفاده کنم؟
مستندات مفهوم خاصی را که میخواهید استفاده کنید، ببینید، و همچنین کتاب آشپزی DSPL را بررسی کنید، که دستورالعملهای دقیق و گام به گام برای رایجترین موارد دارد.
وارد کردن و تجسم مجموعه داده ها
چرا نمی توانم مجموعه داده خود را با موفقیت وارد کنم؟
رابط آپلود Public Data Explorer مجموعه داده DSPL شما را اسکن می کند و در صورت شناسایی هر گونه خطایی، ورود آن را مسدود می کند. واردکننده به املا، حروف بزرگ، و ترتیب برچسب/قرار دادن برچسب در فایل XML شما، و همچنین طرحبندی و مرتبسازی دادهها در فایلهای CSV شما بسیار حساس است، بنابراین ممکن است چند پاس طول بکشد تا این موارد به درستی انجام شود و مجموعه داده شما وارد شود. با موفقیت.
اولین گام برای حل این مشکلات این است که به پیام(های) خطای داده شده در UI نگاه کنید و اقدامات اصلاحی مناسب را انجام دهید. از آنجایی که درک این پیام ها همیشه آسان نیست (چیزی که ما فعالانه روی بهبود آن کار می کنیم)، جدولی را گردآوری کرده ایم که رایج ترین آنها را توضیح می دهد:
خطا | توضیح |
---|---|
کلید تکراری: ... | جدول تعریف مفهوم شما دارای یک مقدار ID مکرر است (یعنی مقدار در ستونی با همان نام مفهوم). این مقادیر برای شناسایی منحصربهفرد نمونههای مفهومی استفاده میشوند، بنابراین تکرار مجاز نیست. |
استثنا در تجزیه ردیف های داده از منبع ناشی از ترکیب ویژگی ها، [...]، در بیش از یک گروه مجزا از ردیف ها در داده ها ظاهر می شود. | CSV شما به درستی مرتب نشده است. برای دستورالعمل نحوه انجام این کار به بحث بالا مراجعه کنید. |
استثنا در تجزیه ردیف های داده از منبع ناشی از قالب نامعتبر: "..." در "..." بد شکل است. | قالب بندی این مقدار (معمولاً یک تاریخ) در CSV شما با قالب ارائه شده در فایل XML شما سازگار نیست. قالب یا مقدار را طوری تغییر دهید که مطابقت داشته باشند. |
استثنا در تجزیه ردیف های داده از منبع ناشی از تعداد عناصر در خط (...) با تعداد ویژگی های مشخص شده (...) برای خط مطابقت نداشت: [...] | یک ردیف در CSV شما مقادیر بسیار زیاد یا بسیار کمی دارد. فرمت این ردیف را اصلاح کنید. |
استثنا در تجزیه ردیف های داده از منبع ناشی از رشته ورودی For: "..." | یک مقدار در CSV شما (معمولاً یک عدد صحیح یا شناور) دارای کاراکترهای غیر عددی (مثلاً نماد دلار، علامت درصد و غیره) است که از تجزیه صحیح آن جلوگیری می کند. این کاراکترهای اضافی را حذف کنید. |
استثنا در تجزیه ردیف های داده از منبع ناشی از مقدار داده "..." برای ویژگی "..." از Slice "..." یک مقدار کلیدی مفهوم ارجاع شده "..." نیست. | یکی از برشهای شما حاوی یک مقدار بعد ناشناخته است (یعنی یکی که در لیست همه مقادیر ممکن برای مفهوم مربوطه نیست). به جدول تعریف مفهوم ابعاد برگردید و در صورت لزوم مقدار را اضافه کنید. |
هدر "..." در داده ها یک ویژگی ثابت در جدول است | سرصفحه ستون در CSV با شناسه ستون تعریف شده در تعریف جدول XML مطابقت ندارد. یکی یا دیگری را طوری تغییر دهید که مطابقت داشته باشند. |
خطای تجزیه XML ... محتوای نامعتبر پیدا شد که با عنصر "..." شروع می شود. یکی از «{...}»، «{...}»، ... مورد انتظار است. | عنصر XML ارجاع شده در جای درستی قرار ندارد. بررسی کنید تا مطمئن شوید ترتیب درست است، و همچنین اینکه عنصر دارای والد صحیح است (به عنوان مثال، info برای name ). |
خطای تجزیه XML ... مشخصه '...' مجاز نیست در عنصر '...' ظاهر شود. | املا، حروف کوچک یا مکان این ویژگی تگ XML نادرست است. اسناد را برای استفاده مناسب بررسی کنید. |
خطای تجزیه XML. ... عنصر '...' نمی تواند شخصیت [فرزند] داشته باشد، زیرا نوع محتوای آن فقط عنصر است. | مقداری متن سرگردان در فایل XML شما وجود دارد (احتمالاً ناشی از برچسبی است که علامت < یا > را ندارد). متن را اصلاح کنید و دوباره امتحان کنید. |
اگر در درک پیامی که در لیست بالا نیست مشکل دارید، لطفاً یک پیام در انجمن DSPL ارسال کنید و ما سعی خواهیم کرد کمک کنیم.
مجموعه داده من با موفقیت وارد شد، اما نمی توانم هیچ تصویرسازی را برای نمایش در Public Data Explorer دریافت کنم. چه خبر است؟
این مشکل زمانی رخ می دهد که مجموعه داده شما DSPL معتبر باشد، اما در زیرمجموعه DSPL نیست که در اکسپلورر داده های عمومی قابل مشاهده است. دلایل زیادی برای این وجود دارد؛ رایج ترین آنها عبارتند از:
- تعریف مفهوم ابعاد بدون جدول: بدون این اطلاعات، Public Data Explorer نمی داند چه انتخاب هایی را در UI نمایش دهد.
- ایجاد یک مجموعه داده تنها با معیارها: Public Data Explorer حداقل به یک بعد طبقه بندی شده (به عنوان مثال، غیرزمان) در جایی از مجموعه داده نیاز دارد تا به درستی رابط کاربری تجسم را ساختار دهد.
- عدم درج بعد زمانی در برشهای شما: کاوشگر داده عمومی فقط میتواند سریهای زمانی را تجسم کند. برش های غیر زمان توسط محصول نادیده گرفته می شود.
- استفاده از یک بعد زمانی غیر از
time:...
ones: Public Data Explorer از مفاهیمtime
متعارف برای چیدمان و متحرک سازی تجسم های مختلف در محصول استفاده می کند. دیگر مفاهیم زمانی را نمیفهمد، مثلاً مفاهیمی که در مجموعه دادههای شما ایجاد شدهاند. - استفاده از مقادیر زمانی که خیلی بزرگ یا خیلی کوچک هستند: Public Data Explorer هنوز مجموعه داده هایی را با جزئیات زمانی کوچکتر از یک روز تجسم نمی کند. در طرف دیگر طیف، ابزار با مقادیر بسیار بزرگ سال (مثلاً در ده ها هزار) مشکل دارد. ما امیدواریم که بتوانیم این جزئیات را در آینده انعطاف پذیرتر کنیم.
چگونه می توانم مجموعه داده های بصری خود را در وب سایت خود ادغام کنم؟
این مقاله را در مرکز راهنمای عمومی داده اکسپلورر ببینید. همانطور که در مورد دوم توضیح داده شد، می توانید با تنظیم دستی URL جاسازی، یک "جاسازی کامل" (یعنی یکی شامل کنترل های کاوش) دریافت کنید.