قبل از اینکه شروع کنی

این سند پیش‌نیازها، بهترین شیوه‌ها و خطاهای رایج هنگام کار با مجموعه داده‌ها را شرح می‌دهد.

پیش‌نیازها

هنگام ایجاد یک مجموعه داده:

  • نام‌های نمایشی باید در پروژه Google Cloud شما منحصر به فرد باشند.
  • نام‌های نمایشی باید کمتر از ۶۴ بایت باشند (از آنجا که این کاراکترها در UTF-8 نمایش داده می‌شوند، در برخی زبان‌ها هر کاراکتر می‌تواند توسط چندین بایت نمایش داده شود).
  • توضیحات باید کمتر از ۱۰۰۰ بایت باشند.

هنگام بارگذاری داده‌ها:

  • انواع فایل‌های پشتیبانی‌شده CSV، GeoJSON و KML هستند.
  • حداکثر حجم فایل پشتیبانی شده ۵۰۰ مگابایت است.
  • نام ستون‌های ویژگی نمی‌تواند با رشته "?_" شروع شود.
  • هندسه‌های سه‌بعدی پشتیبانی نمی‌شوند. این شامل پسوند "Z" در قالب WKT و مختصات ارتفاع در قالب GeoJSON می‌شود.

بهترین شیوه‌های آماده‌سازی داده‌ها

اگر داده‌های منبع شما پیچیده یا بزرگ هستند، مانند نقاط متراکم، رشته‌های خطی طولانی یا چندضلعی‌ها (اغلب فایل‌های منبع با اندازه بزرگتر از ۵۰ مگابایت در این دسته قرار می‌گیرند)، قبل از آپلود، ساده‌سازی داده‌ها را در نظر بگیرید تا به بهترین عملکرد در یک نقشه بصری دست یابید.

در اینجا چند روش برتر برای آماده‌سازی داده‌ها آورده شده است:

  1. ویژگی‌های ویژگی‌ها را به حداقل برسانید . فقط ویژگی‌های ویژگی مورد نیاز برای استایل‌دهی نقشه خود، مانند "id" و "category" را نگه دارید. می‌توانید ویژگی‌های اضافی را با استفاده از استایل‌های داده‌محور روی یک کلید شناسه منحصر به فرد، به یک ویژگی در یک برنامه کلاینت اضافه کنید. برای مثال، به بخش "مشاهده داده‌های خود در زمان واقعی با استایل‌دهی داده‌محور" مراجعه کنید.
  2. در صورت امکان، از انواع داده ساده برای اشیاء ویژگی، مانند اعداد صحیح، استفاده کنید تا اندازه کاشی را به حداقل برسانید و عملکرد نقشه را بهبود بخشید.
  3. هندسه‌های پیچیده را قبل از آپلود فایل، ساده کنید . می‌توانید این کار را در یک ابزار جغرافیایی مورد نظر خود، مانند ابزار متن‌باز Mapshaper.org ، یا در BigQuery با استفاده از ST_Simplify روی هندسه‌های چندضلعی پیچیده انجام دهید.
  4. قبل از آپلود فایل ، نقاط بسیار متراکم را خوشه‌بندی کنید . می‌توانید این کار را در یک ابزار جغرافیایی مورد نظر خود، مانند توابع خوشه‌بندی متن‌باز turf.js ، یا در BigQuery با استفاده از ST_CLUSTERDBSCAN روی هندسه‌های نقاط متراکم انجام دهید.

برای راهنمایی بیشتر در مورد بهترین شیوه‌های مجموعه داده‌ها، به «داده‌های خود را با مجموعه داده‌ها و BigQuery مصورسازی کنید» مراجعه کنید.

الزامات GeoJSON

API مجموعه داده‌های نقشه‌ها از مشخصات فعلی GeoJSON پشتیبانی می‌کند. API مجموعه داده‌های نقشه‌ها همچنین از فایل‌های GeoJSON که شامل هر یک از انواع شیء زیر هستند پشتیبانی می‌کند:

  • اشیاء هندسی . یک شیء هندسی یک شکل فضایی است که به صورت اتحادی از نقاط، خطوط و چندضلعی‌ها با حفره‌های اختیاری توصیف می‌شود.
  • اشیاء ویژگی . یک شیء ویژگی شامل یک هندسه به علاوه جفت‌های نام/مقدار اضافی است که معنای آنها مختص برنامه است.
  • مجموعه ویژگی‌ها . یک مجموعه ویژگی، مجموعه‌ای از اشیاء ویژگی است.

API مجموعه داده‌های نقشه‌ها از فایل‌های GeoJSON که داده‌هایی در سیستم مرجع مختصات (CRS) غیر از WGS84 دارند، پشتیبانی نمی‌کند.

برای اطلاعات بیشتر در مورد GeoJSON، به RFC 7946 مطابق با استاندارد مراجعه کنید.

الزامات KML

API مجموعه داده‌های نقشه‌ها الزامات زیر را دارد:

  • همه URLها باید محلی (یا نسبی) به خود فایل باشند.
  • هندسه‌های نقطه‌ای، خطی و چندضلعی پشتیبانی می‌شوند.
  • تمام ویژگی‌های داده، رشته محسوب می‌شوند.
ویژگی‌های KML زیر پشتیبانی نمی‌شوند:
  • آیکن‌ها یا <styleUrl> که خارج از فایل تعریف شده‌اند.
  • لینک‌های شبکه، مانند <NetworkLink>
  • پوشش‌های زمینی، مانند <GroundOverlay>
  • هندسه‌های سه‌بعدی یا هرگونه تگ مرتبط با ارتفاع مانند <altitudeMode>
  • مشخصات دوربین مانند <LookAt>
  • سبک‌های تعریف‌شده درون فایل KML.

الزامات CSV

برای فایل‌های CSV، نام ستون‌های پشتیبانی‌شده به ترتیب اولویت در زیر فهرست شده‌اند:

  • latitude ، longitude
  • lat ، long
  • x ، y
  • wkt (متن شناخته شده)
  • address ، city ، state ، zip
  • address
  • یک ستون واحد شامل تمام اطلاعات آدرس، مانند 1600 Amphitheatre Parkway Mountain View, CA 94043

برای مثال، فایل شما حاوی ستون‌هایی با نام‌های x ، y و wkt است. از آنجا که x و y اولویت بالاتری دارند، همانطور که توسط ترتیب نام ستون‌های پشتیبانی شده در لیست بالا تعیین شده است، مقادیر موجود در ستون‌های x و y استفاده می‌شوند و ستون wkt نادیده گرفته می‌شود.

علاوه بر این:

  • هر نام ستون باید متعلق به یک ستون واحد باشد. یعنی، شما نمی‌توانید ستونی به نام xy داشته باشید که شامل هر دو داده مختصات x و y باشد. مختصات x و y باید در ستون‌های جداگانه باشند.
  • نام ستون‌ها به حروف کوچک و بزرگ حساس نیست.
  • ترتیب نام ستون‌ها مهم نیست. برای مثال، اگر فایل CSV شما شامل ستون‌های lat و long باشد، می‌توانند به هر ترتیبی قرار بگیرند.

مدیریت خطاهای آپلود داده

هنگام آپلود داده‌ها به یک مجموعه داده، ممکن است با یکی از خطاهای رایج شرح داده شده در این بخش مواجه شوید.

خطاهای GeoJSON

خطاهای رایج GeoJSON عبارتند از:

  • فیلد type وجود ندارد، یا type رشته نیست. فایل داده GeoJSON آپلود شده باید حاوی یک فیلد رشته‌ای به نام type به عنوان بخشی از هر تعریف شیء ویژگی و شیء هندسه باشد.

خطاهای KML

خطاهای رایج KML عبارتند از:

  • فایل داده نباید شامل هیچ یک از ویژگی‌های KML پشتیبانی نشده ذکر شده در بالا باشد، در غیر این صورت ممکن است وارد کردن داده‌ها با شکست مواجه شود.

خطاهای CSV

خطاهای رایج CSV عبارتند از:

  • برخی از ردیف‌ها مقادیر مربوط به یک ستون هندسی را ندارند. تمام ردیف‌های موجود در یک فایل CSV باید حاوی مقادیر غیر خالی برای ستون‌های هندسی باشند. ستون‌های هندسی شامل موارد زیر هستند:
    • latitude ، longitude
    • lat ، long
    • x ، y
    • wkt
    • address ، city ، state ، zip
    • address
    • یک ستون واحد شامل تمام اطلاعات آدرس، مانند 1600 Amphitheatre Parkway Mountain View, CA 94043
  • اگر x و y ستون‌های هندسی شما هستند، مطمئن شوید که واحدها طول و عرض جغرافیایی باشند. برخی از مجموعه داده‌های عمومی از سیستم‌های مختصات متفاوتی در زیر هدرهای x و y استفاده می‌کنند. اگر از واحدهای اشتباه استفاده شود، ممکن است مجموعه داده‌ها با موفقیت وارد شوند، اما داده‌های رندر شده می‌توانند نقاط مجموعه داده‌ها را در مکان‌های غیرمنتظره نشان دهند.