Tworzenie zbioru danych

Tworzenie zbioru danych przebiega dwuetapowo:

  1. Wyślij żądanie utworzenia zbioru danych.

  2. Wyślij żądanie przesłania danych do zbioru danych.

Po początkowym przesłaniu danych możesz przesłać do zbioru danych nowe dane, aby utworzyć nową wersję tego zbioru.

Wymagania wstępne

Podczas tworzenia zbioru danych:

  • Wyświetlane nazwy muszą być unikalne w obrębie projektu Google Cloud.
  • Wyświetlane nazwy muszą mieć mniej niż 64 bajty (ponieważ znaki te są reprezentowane w formacie UTF-8, dlatego w niektórych językach każdy znak może być reprezentowany przez kilka bajtów).
  • Opisy muszą być mniejsze niż 1000 bajtów.

Podczas przesyłania danych:

  • Obsługiwane typy plików to CSV, GeoJSON i KML.
  • Maksymalny obsługiwany rozmiar pliku to 350 MB.
  • Nazwy kolumn atrybutów nie mogą zaczynać się od ciągu „?_”.
  • Trójwymiarowe geometrie nie są obsługiwane. Obejmuje to sufiks „Z” w formacie WKT i współrzędną wysokości w formacie GeoJSON.

Sprawdzone metody przygotowywania danych

Jeśli dane źródłowe są złożone lub duże, np. gęste punkty, długie ciągi linii lub wielokąty (do tej kategorii należą często pliki źródłowe o rozmiarze większym niż 50 MB), rozważ uproszczenie danych przed przesłaniem, aby uzyskać najlepszą wydajność na mapie wizualnej.

Oto kilka sprawdzonych metod przygotowywania danych:

  1. Minimalizuj właściwości cech. Zachowaj tylko te właściwości obiektów, które są niezbędne do określenia stylu mapy, na przykład „id” i „category”. Możesz złączać dodatkowe właściwości z cechami w aplikacji klienckiej za pomocą stylów opartych na danych z użyciem unikalnego klucza identyfikatora. Przykład znajdziesz w sekcji Wyświetlanie danych w czasie rzeczywistym dzięki stylowi opartemu na danych.
  2. W miarę możliwości używaj prostych typów danych (takich jak liczby całkowite), aby zminimalizować rozmiar kafelka i zwiększyć wydajność mapy.
  3. Przed przesłaniem pliku uprość złożone geometrie. Możesz to zrobić w dowolnym narzędziu geoprzestrzennym, takim jak narzędzie open source Mapshaper.org, lub w BigQuery przy użyciu ST_Simplify w przypadku złożonych geometrii wielokątów.
  4. Przed przesłaniem pliku grupuj bardzo gęste punkty. Możesz to zrobić w dowolnym narzędziu geoprzestrzennym, takim jak funkcje klastra turf.js typu open source, lub w BigQuery przy użyciu ST_CLUSTERDBSCAN w gęstych geometriach punktowych.

Dodatkowe wskazówki dotyczące sprawdzonych metod dotyczących zbiorów danych znajdziesz w artykule Wizualizacja danych za pomocą zbiorów danych i BigQuery.

Wymagania GeoJSON

Interfejs Maps Datasets API obsługuje bieżącą specyfikację GeoJSON. Interfejs Maps Datasets API obsługuje również pliki GeoJSON, które zawierają dowolny z tych typów obiektów:

  • obiekty geometryczne – Obiekt geometryczny to kształt przestrzenny opisany jako połączenie punktów, linii i wielokątów z opcjonalnymi otworami.
  • Obiekty funkcji. Obiekt funkcji zawiera geometrię oraz dodatkowe pary nazwa/wartość, których znaczenie zależy od aplikacji.
  • Kolekcje funkcji. Kolekcja cech to zbiór obiektów cech.

Interfejs Maps Datasets API nie obsługuje plików GeoJSON, które zawierają dane w systemie odniesienia współrzędnych (CRS) innym niż WGS84.

Więcej informacji na temat GeoJSON znajdziesz w artykule Zgodność ze standardem RFC 7946.

Wymagania dotyczące formatu KML

Interfejs Maps Datasets API ma następujące wymagania:

  • Wszystkie adresy URL muszą być lokalne (lub względne) wobec samego pliku.
  • Obsługiwane są geometrie punktów, linii i wielokątów.
  • Wszystkie atrybuty danych są uznawane za ciągi znaków.
Te funkcje KML nie są obsługiwane:
  • Ikony lub <styleUrl> zdefiniowane poza plikiem.
  • Linki sieciowe, takie jak <NetworkLink>
  • warstwy nad powierzchnią, np. <GroundOverlay>
  • geometrie 3D lub wszelkie tagi związane z wysokością, np. <altitudeMode>;
  • Specyfikacje aparatu, np. <LookAt>
  • Style zdefiniowane w pliku KML.

Wymagania dotyczące pliku CSV

W przypadku plików CSV obsługiwane nazwy kolumn są wymienione poniżej w kolejności według priorytetu:

  • latitude, longitude
  • lat, long
  • x, y
  • wkt (dobrze znany tekst)
  • address, city, state, zip
  • address
  • Pojedyncza kolumna zawierająca wszystkie informacje adresowe, np. 1600 Amphitheatre Parkway Mountain View, CA 94043

Na przykład plik zawiera kolumny o nazwach x, y i wkt. Kolumny x i y mają wyższy priorytet określony na podstawie kolejności obsługiwanych nazw kolumn z powyższej listy, dlatego wartości w kolumnach x i y są używane, a kolumna wkt jest ignorowana.

Ponadto:

  • Każda nazwa kolumny musi należeć do jednej kolumny. Oznacza to, że kolumna o nazwie xy nie może zawierać danych o współrzędnych x i y. Współrzędne x i y muszą znajdować się w oddzielnych kolumnach.
  • W nazwach kolumn nie jest rozróżniana wielkość liter.
  • Kolejność nazw kolumn nie ma znaczenia. Jeśli na przykład plik CSV zawiera kolumny lat i long, kolumny te mogą występować w dowolnej kolejności.

Postępowanie w przypadku błędów przesyłania danych

Podczas przesyłania danych do zbioru danych może wystąpić jeden z typowych błędów opisanych w tej sekcji.

Błędy GeoJSON

Typowe błędy GeoJSON:

  • Brak pola type lub type nie jest ciągiem. Przesłany plik danych GeoJSON musi zawierać pole ciągu znaków o nazwie type jako część każdego obiektu Feature i definicji obiektów Geometry.

Błędy KML

Typowe błędy w plikach KML:

  • Plik danych nie może zawierać żadnych nieobsługiwanych funkcji KML wymienionych powyżej, w przeciwnym razie import danych może się nie udać.

Błędy pliku CSV

Typowe błędy w pliku CSV:

  • W niektórych wierszach brakuje wartości kolumny geometrycznej. Wszystkie wiersze w pliku CSV muszą zawierać niepuste wartości kolumn geometrii. Kolumny geometryczne:
    • latitude, longitude
    • lat, long
    • x, y
    • wkt
    • address, city, state, zip
    • address
    • Pojedyncza kolumna zawierająca wszystkie informacje adresowe, np. 1600 Amphitheatre Parkway Mountain View, CA 94043
  • Jeśli x i y to kolumny geometrii, upewnij się, że jednostki to długość i szerokość geograficzna. Niektóre publiczne zbiory danych korzystają z różnych układów współrzędnych w nagłówkach x i y. Jeśli używane będą nieprawidłowe jednostki, zbiór danych może zostać zaimportowany, ale renderowane dane mogą pokazywać punkty zbioru danych w nieoczekiwanych lokalizacjach.

Tworzenie zbioru danych

Utwórz zbiór danych, wysyłając żądanie POST do punktu końcowego datasets:

https://mapsplatformdatasets.googleapis.com/v1/projects/PROJECT_NUMBER_OR_ID/datasets

Przekaż treść JSON do żądania definiującego zbiór danych. Musisz:

  • Podaj displayName zbioru danych. Wartość displayName musi być unikalna dla wszystkich zbiorów danych.

  • Ustaw usage na USAGE_DATA_DRIVEN_STYLING.

Na przykład:

curl -X POST -d '{
    "displayName": "My Test Dataset", 
    "usage": "USAGE_DATA_DRIVEN_STYLING"
  }' \
  -H 'X-Goog-User-Project: PROJECT_NUMBER_OR_ID' \
  -H 'Content-Type: application/json' \
  -H "Authorization: Bearer $TOKEN" \
  https://mapsplatformdatasets.googleapis.com/v1/projects/PROJECT_NUMBER_OR_ID/datasets

Odpowiedź zawiera identyfikator zbioru danych w formacie projects/PROJECT_NUMBER_OR_ID/datasets/DATASET_ID oraz dodatkowe informacje. Używaj identyfikatora zbioru danych przy wysyłaniu żądań aktualizacji lub modyfikacji zbioru danych.

{
  "name": "projects/PROJECT_NUMBER_OR_ID/datasets/f57074a0-a8b6-403e-9df1-e9fc46",
  "displayName": "My Test Dataset",
  "usage": [
    "USAGE_DATA_DRIVEN_STYLING"
  ],
  "createTime": "2022-08-15T17:50:00.189682Z",
  "updateTime": "2022-08-15T17:50:00.189682Z" 
}

Przesyłanie danych do zbioru danych

Po utworzeniu zbioru danych prześlij do niego dane z Google Cloud Storage lub z lokalnego pliku.

Prześlij dane z Cloud Storage

Aby przesłać dane z Cloud Storage do zbioru danych, wysyłaj żądanie POST do punktu końcowego datasets, które zawiera też identyfikator zbioru danych:

https://mapsplatformdatasets.googleapis.com/v1/projects/PROJECT_NUMBER_OR_ID/datasets/DATASET_ID:import

W treści żądania JSON:

  • Użyj inputUri, aby określić ścieżkę pliku do zasobu zawierającego dane w Cloud Storage. Ta ścieżka ma postać gs://GCS_BUCKET/FILE.

    Użytkownik wysyłający żądanie wymaga roli wyświetlający obiekty Cloud Storage lub dowolnej innej roli, która zawiera uprawnienie storage.objects.get. Więcej informacji o zarządzaniu dostępem do Cloud Storage znajdziesz w artykule Omówienie kontroli dostępu.

  • Użyj fileFormat, aby określić format pliku danych: FILE_FORMAT_GEOJSON (plik GeoJson), FILE_FORMAT_KML (plik KML) lub FILE_FORMAT_CSV (plik CSV).

Na przykład:

curl -X POST  -d '{
    "gcs_source":{
      "inputUri": "gs://my_bucket/my_csv_file",
      "fileFormat": "FILE_FORMAT_CSV"
    }
  }' \
  -H 'X-Goog-User-Project: PROJECT_NUMBER_OR_ID' \
  -H "content-type: application/json" \
  -H "Authorization: Bearer $TOKEN" \
  https://mapsplatformdatasets.googleapis.com/v1/projects/PROJECT_NUMBER_OR_ID/datasets/f57074a0-a8b6-403e-9df1-e9fc46:import

Odpowiedź ma taki format:

{
  "name": "projects/PROJECT_NUMBER_OR_ID/datasets/DATASET_ID@VERSION_NUMBER"
}

Prześlij dane z pliku

Aby przesłać dane z pliku, wyślij żądanie HTTP POST do punktu końcowego datasets, które zawiera też identyfikator zbioru danych:

https://mapsplatformdatasets.googleapis.com/upload/v1/projects/PROJECT_NUMBER_OR_ID/datasets/DATASET_ID:import

Prośba zawiera:

  • Nagłówek Goog-Upload-Protocol jest ustawiony na multipart.

  • Właściwość metadata określająca ścieżkę do pliku, który określa typ danych do przesłania: FILE_FORMAT_GEOJSON (plik GeoJSON), FILE_FORMAT_KML (plik KML) lub FILE_FORMAT_CSV (plik CSV).

    Zawartość tego pliku ma następujący format:

    {"local_file_source": {"file_format": "FILE_FORMAT_GEOJSON"}}
  • Właściwość rawdata określająca ścieżkę do pliku GeoJSON, KML lub CSV zawierającego dane do przesłania.

To żądanie używa opcji curl -F do określenia ścieżki do 2 plików:

curl -X POST \
  -H 'X-Goog-User-Project: PROJECT_NUMBER_OR_ID' \
  -H "Authorization: Bearer $TOKEN" \
  -H "X-Goog-Upload-Protocol: multipart" \
  -F "metadata=@csv_metadata_file" \
  -F "rawdata=@csv_data_file" \
  https://mapsplatformdatasets.googleapis.com/upload/v1/projects/PROJECT_NUMBER_OR_ID/datasets/f57074a0-a8b6-403e-9df1-e9fc46:import

Odpowiedź ma taki format:

{
  "name": "projects/PROJECT_NUMBER_OR_ID/datasets/DATASET_ID@VERSION_NUMBER"
}

Prześlij nowe dane do zbioru danych

Gdy utworzysz zbiór danych i prześlesz dane początkowe, stan zbioru danych zostanie zmieniony na STATE_COMPLETED. Oznacza to, że zbiór danych jest gotowy do użycia w Twojej aplikacji. Informacje o tym, jak określić state zbioru danych, znajdziesz w sekcji Pobieranie zbioru danych.

Możesz też przesłać do zbioru danych nowe dane, aby utworzyć nową wersję zbioru danych. Aby przesłać nowe dane, wykonaj te same czynności co w przypadku opcji Prześlij dane z Cloud Storage lub Prześlij dane z pliku i wskaż nowe dane do przesłania.

Jeśli uda się przesłać nowe dane:

  • Stan nowej wersji zbioru danych jest ustawiony na STATE_COMPLETED.

  • Nowa wersja stanie się wersją „aktywną” i będzie używana przez aplikację.

Jeśli podczas przesyłania wystąpi błąd:

  • Stan nowej wersji zbioru danych jest ustawiony na jeden z tych stanów:

    • STATE_IMPORT_FAILED
    • STATE_PROCESSING_FAILED
    • STATE_PUBLISHING_FAILED
    • STATE_DELETION_FAILED
  • Poprzednia poprawiona wersja zbioru danych pozostanie wersją „aktywną” i będzie używana przez Twoją aplikację.