این سند پیشنیازها، بهترین شیوهها و خطاهای رایج هنگام کار با مجموعه دادهها را شرح میدهد.
پیشنیازها
هنگام ایجاد یک مجموعه داده:
- نامهای نمایشی باید در پروژه Google Cloud شما منحصر به فرد باشند.
- نامهای نمایشی باید کمتر از ۶۴ بایت باشند (از آنجا که این کاراکترها در UTF-8 نمایش داده میشوند، در برخی زبانها هر کاراکتر میتواند توسط چندین بایت نمایش داده شود).
- توضیحات باید کمتر از ۱۰۰۰ بایت باشند.
هنگام بارگذاری دادهها:
- انواع فایلهای پشتیبانیشده CSV، GeoJSON و KML هستند.
- حداکثر حجم فایل پشتیبانی شده ۵۰۰ مگابایت است.
- نام ستونهای ویژگی نمیتواند با رشته "?_" شروع شود.
- هندسههای سهبعدی پشتیبانی نمیشوند. این شامل پسوند "Z" در قالب WKT و مختصات ارتفاع در قالب GeoJSON میشود.
بهترین شیوههای آمادهسازی دادهها
اگر دادههای منبع شما پیچیده یا بزرگ هستند، مانند نقاط متراکم، رشتههای خطی طولانی یا چندضلعیها (اغلب فایلهای منبع با اندازه بزرگتر از ۵۰ مگابایت در این دسته قرار میگیرند)، قبل از آپلود، سادهسازی دادهها را در نظر بگیرید تا به بهترین عملکرد در یک نقشه بصری دست یابید.
در اینجا چند روش برتر برای آمادهسازی دادهها آورده شده است:
- ویژگیهای ویژگیها را به حداقل برسانید . فقط ویژگیهای ویژگی مورد نیاز برای استایلدهی نقشه خود، مانند "id" و "category" را نگه دارید. میتوانید ویژگیهای اضافی را با استفاده از استایلهای دادهمحور روی یک کلید شناسه منحصر به فرد، به یک ویژگی در یک برنامه کلاینت اضافه کنید. برای مثال، به بخش "مشاهده دادههای خود در زمان واقعی با استایلدهی دادهمحور" مراجعه کنید.
- در صورت امکان، از انواع داده ساده برای اشیاء ویژگی، مانند اعداد صحیح، استفاده کنید تا اندازه کاشی را به حداقل برسانید و عملکرد نقشه را بهبود بخشید.
- هندسههای پیچیده را قبل از آپلود فایل، ساده کنید . میتوانید این کار را در یک ابزار جغرافیایی مورد نظر خود، مانند ابزار متنباز Mapshaper.org ، یا در BigQuery با استفاده از ST_Simplify روی هندسههای چندضلعی پیچیده انجام دهید.
- قبل از آپلود فایل ، نقاط بسیار متراکم را خوشهبندی کنید . میتوانید این کار را در یک ابزار جغرافیایی مورد نظر خود، مانند توابع خوشهبندی متنباز turf.js ، یا در BigQuery با استفاده از ST_CLUSTERDBSCAN روی هندسههای نقاط متراکم انجام دهید.
برای راهنمایی بیشتر در مورد بهترین شیوههای مجموعه دادهها، به «دادههای خود را با مجموعه دادهها و BigQuery مصورسازی کنید» مراجعه کنید.
الزامات GeoJSON
API مجموعه دادههای نقشهها از مشخصات فعلی GeoJSON پشتیبانی میکند. API مجموعه دادههای نقشهها همچنین از فایلهای GeoJSON که شامل هر یک از انواع شیء زیر هستند پشتیبانی میکند:
- اشیاء هندسی . یک شیء هندسی یک شکل فضایی است که به صورت اتحادی از نقاط، خطوط و چندضلعیها با حفرههای اختیاری توصیف میشود.
- اشیاء ویژگی . یک شیء ویژگی شامل یک هندسه به علاوه جفتهای نام/مقدار اضافی است که معنای آنها مختص برنامه است.
- مجموعه ویژگیها . یک مجموعه ویژگی، مجموعهای از اشیاء ویژگی است.
API مجموعه دادههای نقشهها از فایلهای GeoJSON که دادههایی در سیستم مرجع مختصات (CRS) غیر از WGS84 دارند، پشتیبانی نمیکند.
برای اطلاعات بیشتر در مورد GeoJSON، به RFC 7946 مطابق با استاندارد مراجعه کنید.
الزامات KML
API مجموعه دادههای نقشهها الزامات زیر را دارد:
- همه URLها باید محلی (یا نسبی) به خود فایل باشند.
- هندسههای نقطهای، خطی و چندضلعی پشتیبانی میشوند.
- تمام ویژگیهای داده، رشته محسوب میشوند.
- آیکنها یا
<styleUrl>که خارج از فایل تعریف شدهاند. - لینکهای شبکه، مانند
<NetworkLink> - پوششهای زمینی، مانند
<GroundOverlay> - هندسههای سهبعدی یا هرگونه تگ مرتبط با ارتفاع مانند
<altitudeMode> - مشخصات دوربین مانند
<LookAt> - سبکهای تعریفشده درون فایل KML.
الزامات CSV
برای فایلهای CSV، نام ستونهای پشتیبانیشده به ترتیب اولویت در زیر فهرست شدهاند:
-
latitude،longitude -
lat،long -
x،y -
wkt(متن شناخته شده) -
address،city،state،zip -
address - یک ستون واحد شامل تمام اطلاعات آدرس، مانند
1600 Amphitheatre Parkway Mountain View, CA 94043
برای مثال، فایل شما حاوی ستونهایی با نامهای x ، y و wkt است. از آنجا که x و y اولویت بالاتری دارند، همانطور که توسط ترتیب نام ستونهای پشتیبانی شده در لیست بالا تعیین شده است، مقادیر موجود در ستونهای x و y استفاده میشوند و ستون wkt نادیده گرفته میشود.
علاوه بر این:
- هر نام ستون باید متعلق به یک ستون واحد باشد. یعنی، شما نمیتوانید ستونی به نام
xyداشته باشید که شامل هر دو داده مختصات x و y باشد. مختصات x و y باید در ستونهای جداگانه باشند. - نام ستونها به حروف کوچک و بزرگ حساس نیست.
- ترتیب نام ستونها مهم نیست. برای مثال، اگر فایل CSV شما شامل ستونهای
latوlongباشد، میتوانند به هر ترتیبی قرار بگیرند.
مدیریت خطاهای آپلود داده
هنگام آپلود دادهها به یک مجموعه داده، ممکن است با یکی از خطاهای رایج شرح داده شده در این بخش مواجه شوید.
خطاهای GeoJSON
خطاهای رایج GeoJSON عبارتند از:
- فیلد
typeوجود ندارد، یاtypeرشته نیست. فایل داده GeoJSON آپلود شده باید حاوی یک فیلد رشتهای به نامtypeبه عنوان بخشی از هر تعریف شیء ویژگی و شیء هندسه باشد.
خطاهای KML
خطاهای رایج KML عبارتند از:
- فایل داده نباید شامل هیچ یک از ویژگیهای KML پشتیبانی نشده ذکر شده در بالا باشد، در غیر این صورت ممکن است وارد کردن دادهها با شکست مواجه شود.
خطاهای CSV
خطاهای رایج CSV عبارتند از:
- برخی از ردیفها مقادیر مربوط به یک ستون هندسی را ندارند. تمام ردیفهای موجود در یک فایل CSV باید حاوی مقادیر غیر خالی برای ستونهای هندسی باشند. ستونهای هندسی شامل موارد زیر هستند:
-
latitude،longitude -
lat،long -
x،y -
wkt -
address،city،state،zip -
address - یک ستون واحد شامل تمام اطلاعات آدرس، مانند
1600 Amphitheatre Parkway Mountain View, CA 94043
-
- اگر
xوyستونهای هندسی شما هستند، مطمئن شوید که واحدها طول و عرض جغرافیایی باشند. برخی از مجموعه دادههای عمومی از سیستمهای مختصات متفاوتی در زیر هدرهایxوyاستفاده میکنند. اگر از واحدهای اشتباه استفاده شود، ممکن است مجموعه دادهها با موفقیت وارد شوند، اما دادههای رندر شده میتوانند نقاط مجموعه دادهها را در مکانهای غیرمنتظره نشان دهند.