الأسئلة الشائعة حول DSPL

يتناول هذا المستند المشاكل الأكثر شيوعًا التي يواجهها مالكو البيانات عند إنشاء مجموعات بيانات DSPL وتحميلها إلى مستكشف البيانات العامة.

الفهرس

أسئلة عامة

ما المقصود بخدمة DSPL؟

يشير الاختصار DSPL إلى "لغة النشر لمجموعة البيانات". وهو عبارة عن تنسيق تمثيل لكل من البيانات الوصفية (معلومات حول مجموعة البيانات، مثل اسمها وموفرها، بالإضافة إلى المفاهيم التي تحتوي عليها وتعرضها) والبيانات الفعلية لمجموعات البيانات. يتم تحديد البيانات الوصفية بتنسيق XML، بينما يتم توفير البيانات بتنسيق CSV.

ما المزايا الرئيسية لاستخدام بروتوكول DSPL؟

صُمِّم برنامج DSPL من البداية بهدف توفير تصورات ثرية للبيانات مثل البيانات المتوفّرة في مستكشف البيانات العامة. يتطلب إنشاء هذه البيانات الوصفية بيانات وصفية تفصيلية حول الشرائح والأبعاد والمقاييس، وهي كيانات لا تتوفّر دعمًا جيدًا في تنسيقات مجموعات البيانات الأخرى.

يدعم DSPL أيضًا عمليات استيراد مجموعات البيانات، والتسلسلات الهرمية للمفاهيم (على سبيل المثال، "country" هي علامة فرعية من "القارة") والبيانات التي تم ترميزها جغرافيًا وعدد من الميزات الفريدة الأخرى التي تحسّن تجربة استكشاف البيانات.

هل DSPL بديل للتنسيقات الأخرى المستخدمة لتبادل البيانات و/أو التحليل؟

بوجه عام لا. كما أشرنا في الإجابة السابقة، تم تصميم DSPL للحصول على تمثيل بصري تفاعلي واستكشاف. وليس المقصود منه أن يكون تنسيقًا عامًا لتبادل البيانات أو تحليلاً لكل البيانات.

وفي النهاية، نعتبر DSPL مكمّلاً للتنسيقات الأخرى. يجب أن يتمكن المستخدمون من إنشاء مجموعات بيانات DSPL من مصادر أخرى بغرض إنشاء تمثيلات بصرية تفاعلية وغنية.

ما الذي يمكنني فعله باستخدام مجموعة بيانات DSPL؟

ويمكنك استيرادها إلى مستكشف البيانات العامة، ونشرها، والسماح للآخرين باستكشاف البيانات عبر تصورات تفاعلية غنية. كما يمكن تضمين مجموعات البيانات المنشورة في دليل البيانات العامة حتى يتمكن المستخدمون المهتمون من العثور عليها.

في الوقت الحالي، هذا هو التطبيق الوحيد الذي يستخدم DSPL. ومع ذلك، ننصح المستخدمين باستخدامه في تطبيقات أخرى، ونتوقّع أن يزيد معدّل الاستخدام بمرور الوقت.

ما أنواع مجموعات البيانات الأكثر ملاءمةً لبروتوكول DSPL؟

يتيح تنسيق DSPL مجموعات عشوائية من الجداول، وبالتالي يكون مناسبًا لمجموعة متنوعة من أنواع مجموعات البيانات. ومع ذلك، ستؤدي مجموعة فرعية فقط من مجموعات بيانات DSPL إلى إنشاء تمثيلات بصرية شيّقة في "مستكشف البيانات العلنية". أما المنتج الأخير، فهو يعمل بشكل أفضل مع البيانات التي:

  • الكمية: تحتوي كل نقطة بيانات على مقياس رقمي أو أكثر مرتبط بها (على سبيل المثال، "تعداد السكان"، "عدد حالات الإنفلونزا"، "الأرباح".
  • فئوية: يمكن تنظيم البيانات في عدد محدود من الفئات التي يمكن وصفها نصيًا (مثل "countries", "genders", "age groups".
  • السلسلة الزمنية: بالنسبة إلى كل فئة، تتفاوت مقاييس البيانات كدالة وقت، وتفصل النقاط المجاورة يومًا واحدًا على الأقل (لا يمكن لأداة "مستكشف البيانات العامة" تصوّر الزيادات الزمنية الأصغر من يوم).
  • مجمّعة: لكل مجموعة وقت / فئة / مقياس، تتوفر نقطة بيانات واحدة، وليس قائمة بالأحداث أو الحقائق.

لقد أنشأت مجموعة بيانات DSPL، وأود أن تظهر في دليل البيانات العامة من Google حتى يتمكن الآخرون من العثور عليها. بمن أتصل؟

يُرجى ملء هذا النموذج، وتقديم رابط إلى مجموعة البيانات.

أواجه مشكلة في DSPL. أين يمكنني الحصول على المساعدة؟

يُرجى نشر مشكلتك على منتدى مناقشة DSPL.

ملفات مجموعة بيانات DSPL

كيف يمكنني تشفير ملفات XML وCSV؟

يجب أن تكون جميع ملفات XML وCSV بتشفير UTF-8. يُرجى العِلم بأن ASCII (يُشار إليها أحيانًا باسم "النص العادي") هي مجموعة فرعية من UTF-8، لذا يجب أن تعمل مجموعات البيانات ذات التنسيق أيضًا.

ما هو البرنامج الذي يجب استخدامه لإنشاء ملفات مجموعات البيانات وتعديلها؟

محرِّر النصوص العادية، مع تمييز البنية لأغراض القراءة، هو الخيار المُقترَح لتعديل ملفات XML، ويمكنك مراجعة هذه المقالة للاطّلاع على بعض الاقتراحات المتعلّقة بالنظام الأساسي. ننصح بعدم استخدام برامج معالجة كلمات عامة وكاملة الميزات لأنها غالبًا ما تدرج علامات تنسيق إضافية في XML، ما قد يؤدي إلى حدوث أخطاء في الاستيراد.

عادةً ما يكون جدول البيانات هو أسهل طريقة لإنشاء ملفات البيانات وتعديلها. ولكن احرص على حفظها بالتنسيق الصحيح (قيم CSV / مفصولة بفواصل).

لدي بيانات في Excel أو SPSS أو SAS أو نظام آخر. هل يمكنني استيرادها مباشرة إلى مستكشف البيانات العامة؟

لا، ليس في الوقت الحالي عليك أولاً تصدير بياناتك إلى تنسيق CSV، وإضافة البيانات الوصفية المناسبة بتنسيق XML، ثم تحميل مجموعة بيانات متوافقة مع DSPL في Public Data Explorer.

هل هناك أهمية في تسمية ملفاتي؟

يجب أن يكون لملف XML لمجموعة البيانات اسم ينتهي بـ .xml. يمكن أن يكون لملفات بيانات CSV المرتبطة أي أسماء، شريطة أن تكون متطابقة مع الأسماء الواردة في علامات <file> في البيانات الوصفية بتنسيق XML. يمكن أن يكون لملف ZIP المستخدَم لحزمة مجموعة البيانات واستيرادها في مستكشف البيانات العامة أي اسم أيضًا.

هل يجب ترتيب ملفات CSV؟

نعم. يجب ترتيب محتوى ملفات CSV حسب المكوّنات غير المتعلقة بالوقت (بأي ترتيب أو اتجاه) ثم بحسب أي أعمدة أخرى (مثل الوقت).

على سبيل المثال، إذا كان لديك ملف CSV يحتوي على الأعمدة date وdimension1 وdimension2 وmetric1 وmetric2، يجب الترتيب حسب dimension1 وdimension2 (بأي ترتيب). وإذا أردت أيضًا الترتيب حسب عمود "التاريخ/الوقت"، يجب أن يكون هذا هو آخر شيء يتم الترتيب من خلاله.

يؤدي الترتيب بهذه الطريقة إلى الاحتفاظ بالملاحظات لكل سلسلة زمنية مجمّعة معًا، ما يؤدي إلى تحسين فعالية عملية استيراد DSPL بشكل كبير.

نموذج وبنية XML

كيف يمكنني تحديد المقياس الذي يجب أن يكون مقياسًا وما هو المكوّن المطلوب؟

البُعد هو كيان يُستخدم لتقسيم بياناتك أو تصفيتها. ومن ناحية أخرى، يصف المقياس القيمة المرصودة أو القيم المرتبطة بكل نقطة بيانات.

وبوجهٍ عام، تكون المكوّنات تصنيفًا فئويًا، في حين أن المقاييس غير فئوية، وتختلف عن القيم الرقمية. في ما يلي بعض الأمثلة على النماذج الأولية لكلّ منها:

  • الأبعاد: البلد، والولاية، والمقاطعة، والمنطقة، والسنة، والشهر، والجنس، والفئة العمرية، وقطاع الصناعة
  • المقاييس: السكان، الناتج المحلي الإجمالي، معدل البطالة، محو الأمية، الأرباح، التكلفة، السعر

ما الفرق بين الموقع الإلكتروني والسمة؟

يتم إرفاق الخصائص بكل مثيل من مفهوم. على سبيل المثال، سيتضمن الموقع الإلكتروني الخاص بقارة قيمًا مختلفة للبلدان المختلفة. وعلى الجانب الآخر، ترتبط السمات بالمفهوم ككل. على سبيل المثال، تنطبق السمة isParent على جميع القارات.

هل لترتيب العلامات أية أهمية؟

نعم. أضف علاماتك بالترتيب الذي تظهر به في دليل المطوِّر. على سبيل المثال، يجب أن يظهر <topic> قبل <type> في تعريف المفهوم.

هل للأحرف الكبيرة أهمية؟

نعم، يجب أن تتم كتابة أسماء XML وعلامات السمات بالطريقة نفسها التي تظهر بها في دليل المطوِّر. على سبيل المثال، يؤدي استخدام العلامة isparent بدلاً من isParent في العلامة property إلى حدوث خطأ في الاستيراد.

هل يمكن أن يكون للمفهوم والدَان؟

لا، يمكن أن يكون لكل مفهوم مرجع isParent واحد فقط.

هل يمكن أن يشير المفهوم إلى نفسه؟

نعم. يمكنك الاطّلاع على مجموعة بيانات مبيعات البيع بالتجزئة في الولايات المتحدة للحصول على مثال على العرض الهرمي لمفهوم الإحالة الذاتية.

تنسيق البيانات

كيف يمكنني تنسيق التواريخ؟

يمكن كتابة التواريخ بأي تنسيق يمكن وصفه باستخدام معيار Joda DateTime. يجب تخزين رمز تنسيق Joda في السمة format ضمن عنصر العمود المقابل في الجدول.

في ما يلي رموز تنسيق Joda لبعض تنسيقات التاريخ الشائعة:

مثال على التاريخ تنسيق Joda
2010 yyyy
أيار (مايو) 2010 MMM yyyy
2010/05/21 MM/dd/yyyy
2010/21/05 dd/MM/yyyy
2010-05-21 yyyy-MM-dd

ملاحظة بشكلٍ خاص، إنّ رمز Joda لأحرف الشهر هو M، وليس m (الذي يمثّل الدقائق).

هل يمكنني استخدام وحدات زمنية أصغر من يوم واحد؟

إنّ تنسيق Joda DateTime، وبالتالي DSPL أيضًا، يتيح قيم الوقت بالترتيب التنازلي بالمللي ثانية. ومع ذلك، يتعذّر على مستكشف البيانات العامة حتى الآن عرض أي تفاصيل دقيقة عن الوقت من أقل من يوم.

استخدام المفاهيم الأساسية

ما "المفاهيم الأساسية" وما هي فائدتها؟

يشير مصطلح "المفاهيم الأساسية" إلى مجموعة من المفاهيم التي أنشأها محرّك البحث Google، والتي يُقصد بها "اللبنات الأساسية" في مجموعات بيانات أخرى. يتم تعريف المفاهيم نفسها عبر ست مجموعات بيانات DSPL التي تجمع المجموعات السابقة في فئات مثل "الوقت" و"الموقع الجغرافي" وما إلى ذلك. للوصول إلى هذه المفاهيم، ما عليك سوى استيراد مجموعة أو مجموعات البيانات الرئيسية المناسبة في بداية ملف XML DSPL.

تُعدّ المفاهيم الأساسية مفيدة لأنها تساعد في توفير الوقت (على سبيل المثال، من خلال عدم الحاجة إلى إدخال قيم خطوط الطول وخطوط العرض يدويًا لكل بلد في العالم) وأيضًا الإشارة إلى كيفية عرض بياناتك بشكل مرئي. على سبيل المثال، يستخدم مستكشف البيانات العامة مفاهيم time:... لتنسيق المحور السيني للرسم البياني الخطي، ويستخدم السمة name في المفهوم entity:entity لإنتاج سلاسل لواجهة المستخدم لمنتقي الأبعاد، ويستخدم السمتَين latitude وlongitude لـ geo:location لعرض البيانات على التمثيل البصري للخريطة، وهكذا.

هل جميع المفاهيم الأساسية مفهومة من خلال Public Data Explorer؟

على الرغم من أنّ معظم المفاهيم الأساسية المقدّمة يفهمها مستكشف البيانات العامة، إلا أنّه لا يمكن عرض بعض المفاهيم الأساسية (حتى الآن) حتى الآن. وفي ما يلي قائمة بهذه الحلول، إلى جانب بعض الحلول البديلة المقترحة:

الفكرة الحل
quantity:index استخدِم quantity:ratio أو quantity:magnitude بدلاً من ذلك.
time:quarter استخدِم time:month على النحو الموضّح في كتاب DSPL Cookbook.
time:week استخدِم time:day على النحو الموضّح في كتاب DSPL Cookbook.

تابعنا للحصول على دعم أفضل لهذه المفاهيم في المستقبل.

كيف أستخدم مفهومًا أساسيًا في مجموعة البيانات؟

يمكنك الاطّلاع على المستندات لمعرفة المفهوم المحدّد الذي ترغب في استخدامه، ويمكنك أيضًا الاطّلاع على دليل DSPL Cookbook، الذي يتضمّن اتجاهات مفصّلة للحصول على الإرشادات الأكثر شيوعًا.

استيراد مجموعات البيانات وتصويرها مرئيًا

لماذا لا يمكنني استيراد مجموعة البيانات بنجاح؟

ستفحص واجهة تحميل Public Data Explorer مجموعة بيانات DSPL وتحظر عملية الاستيراد إذا تم اكتشاف أي أخطاء. المستورد حساس جدًا للتهجئة والكتابة بالأحرف الكبيرة وترتيب العلامات / موضعها في ملف XML، بالإضافة إلى تنسيق البيانات وترتيبها في ملفات CSV، لذلك قد تستغرق هذه الإجراءات بضع خطوات لتصحيحها واستيراد ملف مجموعة البيانات بنجاح.

تتمثل الخطوة الأولى لحل هذه المشاكل في إلقاء نظرة على رسالة رسائل الخطأ المتوفرة في واجهة المستخدم واتخاذ الإجراء التصحيحي المناسب. وبما أنّ هذه الرسائل ليست دائمًا الأسهل في فهمها (شيء نعمل جاهدين على تحسينه)، جمعنا جدولاً يشرح القواعد الأكثر شيوعًا:

خطأ الشرح
مفتاح مكرر: ... يحتوي جدول تعريف مفهومك على قيمة رقم تعريف مكررة (أي القيمة في العمود التي لها نفس المفهوم). وتُستخدَم هذه القيم لتحديد مثيلات فردية من المفهوم بشكل فريد، لذلك لا يُسمح باستخدام التكرارات.
يظهر استثناء في تحليل صفوف البيانات من المصدر الناتجة عن الجمع بين الخصائص [...] في أكثر من مجموعة صفوف مختلفة في البيانات. لم يتم ترتيب ملف CSV بشكل صحيح. يمكنك الاطّلاع على المناقشة أعلاه للحصول على تعليمات حول كيفية إجراء ذلك.
استثناء في تحليل صفوف البيانات من المصدر بسبب تنسيق غير صالح: "..." تمت صياغته بشكل غير صحيح في "..." لا يتوافق تنسيق هذه القيمة (عادةً التاريخ) في ملف CSV مع التنسيق المقدّم في ملف XML. غيّر التنسيق أو القيمة بحيث تتطابق.
استثناء في تحليل صفوف البيانات من المصدر الناتجة عن عدد العناصر في السطر (...) لا يتطابق مع عدد الخصائص المحددة للسطر: [...] أحد الصفوف في ملف CSV يحتوي على قيم كثيرة جدًا أو قليلة جدًا. أصلِح تنسيق هذا الصف.
استثناء في تحليل صفوف البيانات من المصدر الناتجة عن سلسلة الإدخال: "..." تحتوي القيمة في ملف CSV (عادةً على عدد صحيح أو عائم) على أحرف غير رقمية (مثل رمز دولار أو علامة نسبة مئوية أو ما إلى ذلك) تمنع تحليلها بشكل صحيح. أزِل هذه الأحرف الإضافية.
إن الاستثناء في تحليل صفوف البيانات من المصدر الناتج عن قيمة البيانات '...' للخاصية '...' من الشريحة '...' ليس قيمة رئيسية للمفهوم المرجعي '...'. تحتوي إحدى الشرائح على قيمة مكون غير معروفة (أي قيمة ليست ضمن قائمة جميع القيم المحتملة للمفهوم المقابل). ارجع إلى جدول تعريف مفهوم السمة، وأضف القيمة، إذا لزم الأمر.
الرأس '...' في البيانات هو خاصية ثابتة في الجدول لا يتطابق رأس العمود في ملف CSV مع رقم تعريف العمود المحدّد في تعريف جدول XML. غيِّر أحدهما أو الآخر حتى تتطابق.
خطأ في تحليل XML ... تم العثور على محتوى غير صالح يبدأ بالعنصر '...'. من المتوقع أن يكون أحد هذه العناصر '{...}'، '{...}'، ... . عنصر XML المشار إليه ليس في المكان الصحيح. تحقق للتأكد من صحة الترتيب، وتأكد أيضًا من احتواء العنصر على العنصر الرئيسي الصحيح (على سبيل المثال، info لحساب name).
خطأ في تحليل XML ... السمة '...' غير مسموح بها للظهور في العنصر '...'. التهجئة أو الحالة أو الموقع لسمة XML هذه غير صحيحة. راجع الوثائق لمعرفة الاستخدام المناسب.
خطأ في تحليل XML. ... لا يمكن أن يحتوي العنصر "..." على حرف [children]، لأن نوع محتوى النوع هو عنصر فقط. هناك نص ضائع في ملف XML (من المحتمل أن يكون سبب ذلك وجود علامة تنقصها العلامة < أو >). يُرجى إصلاح النص وإعادة المحاولة.

إذا واجهتك مشكلة في فهم إحدى الرسائل غير المدرَجة في القائمة أعلاه، يُرجى نشر رسالة في منتدى DSPL وسنحاول مساعدتك.

يتم استيراد مجموعة البيانات بنجاح، ولكن لا يمكنني عرض أي تمثيلات بصرية في Public Data Explorer. ما سبب انخفاض الأرباح؟

تحدث هذه المشكلة عندما تكون مجموعة البيانات صالحة لـ DSPL، ولكنها غير مضمّنة في مجموعة DSPL الفرعية القابلة للعرض في Public Data Explorer. وهناك أسباب عديدة محتملة لذلك، منها أكثرها شيوعًا:

  • تحديد مفهوم مكوّن بدون جدول: بدون هذه المعلومات، لا يعرف مستكشف البيانات العامة الخيارات المطلوب عرضها في واجهة المستخدم.
  • إنشاء مجموعة بيانات بمقاييس فقط: يتطلّب "مستكشف البيانات العلنية" مكوّنًا تصنيفيًا واحدًا على الأقل (أي غير الوقت) محدّدًا في مكان ما في مجموعة البيانات حتى تتمكّن من تنظيم واجهة مستخدم التمثيل البصري بشكل صحيح.
  • عدم تضمين بُعد زمني في الشرائح: يمكن لمستكشف البيانات العامة عرض السلسلة الزمنية فقط. سيتجاهل المنتج الشرائح غير المتعلقة بوقت.
  • استخدام بُعد زمني غير أبعاد time:... الأساسية: يستخدم مستكشف البيانات العامة مفاهيم time الأساسية لإعداد التمثيلات البصرية المختلفة في المنتج وإضفاء رسوم متحركة عليها؛ ولكنه لا يفهم مفاهيم الوقت الأخرى، مثل المفاهيم التي تم إنشاؤها داخل مجموعة البيانات الخاصة بك.
  • استخدام قيم زمنية كبيرة جدًا أو صغيرة جدًا: لا يعمل مستكشف البيانات العامة على تمثيل بصري لمجموعات البيانات ذات درجات الدقة الزمنية الأصغر من يوم واحد. في الجهة الأخرى من النطاق، هناك مشكلة في قيم السنوات الكبيرة جدًا (مثلاً عشرات الآلاف). ونأمل أن نجعل هذه الدقة أكثر مرونة في المستقبل.

كيف يمكنني دمج مجموعة البيانات المرئية في موقعي الإلكتروني؟

راجِع هذه المقالة في مركز مساعدة Public Data Explorer. كما هو موضّح في الأخير، يمكنك الحصول على "تضمين كامل" (أي أحدهما يتضمن عناصر التحكم في الاستكشاف) من خلال تعديل عنوان URL للتضمين يدويًا.