Wzorce projektowe do walidacji dużej ilości adresów w Google Cloud Platform

Cel

W samouczku na temat weryfikacji adresów na dużą skalę przedstawiliśmy różne scenariusze, w których można przeprowadzić weryfikację adresów na dużą skalę. W tym samouczku omawiamy różne wzorce projektowe w Google Cloud Platform do przeprowadzania walidacji adresów na dużą skalę.

Zaczniemy od omówienia wykonywania weryfikacji adresów o dużej liczbie adresów w Google Cloud Platform za pomocą Cloud Run, Compute Engine lub Google Kubernetes Engine w ramach jednorazowych operacji. Następnie zobaczysz, jak można uwzględnić tę funkcję w przepływie danych.

Z tego artykułu dowiesz się więcej o różnych opcjach uruchamiania weryfikacji adresów w dużej ilości w środowisku Google Cloud.

Architektura referencyjna w Google Cloud Platform

W tej sekcji szczegółowo omawiamy różne wzorce projektowania weryfikacji adresów o dużej liczbie adresów za pomocą Google Cloud Platform. Dzięki działaniu na platformie Google Cloud Platform możesz integrować się z dotychczasowymi procesami i potoki danych.

Jednorazowa weryfikacja adresów na dużą skalę w Google Cloud Platform

Poniżej znajduje się architektura referencyjna, która pokazuje, jak tworzyć integrację na Google Cloud Platform. Jest ona bardziej odpowiednia do operacji jednorazowych lub testowania.

obraz

W takim przypadku zalecamy przesłanie pliku CSV do zasobnika Cloud Storage. Skrypt do weryfikacji adresów o dużej liczbie adresów można następnie uruchomić w środowisku Cloud Run. Możesz jednak uruchomić go w dowolnym innym środowisku wykonawczym, takim jak Compute Engine czy Google Kubernetes Engine. Plik CSV z wynikiem możesz też przesłać do zasobnika Cloud Storage.

Uruchamianie jako potok danych Google Cloud Platform

Wzorzec wdrożenia pokazany w poprzedniej sekcji doskonale nadaje się do szybkiego testowania walidacji adresów o dużej liczbie adresów na potrzeby jednorazowego użycia. Jeśli jednak musisz regularnie korzystać z niej w ramach potoku danych, możesz wykorzystać natywne możliwości Google Cloud Platform, aby zwiększyć jego niezawodność. Oto niektóre z nich:

obraz

  • W takim przypadku możesz zapisywać pliki CSV w zasobnikach Cloud Storage.
  • Zadanie Dataflow może pobrać adresy do przetworzenia, a potem zapisać je w pamięci podręcznej w BigQuery.
  • Biblioteka Dataflow Python może zostać rozszerzona o logikę weryfikacji adresów o dużym natężeniu, aby weryfikować adresy z zadania Dataflow.

Uruchamianie skryptu z potoku danych jako długotrwały cykliczny proces

Innym popularnym podejściem jest weryfikowanie zbioru adresów w ramach strumieniowego potoku danych jako powtarzalnego procesu. Adresy mogą też być dostępne w bigquery datastore. W ramach tego podejścia zobaczysz, jak tworzyć powtarzające się przepływy danych (które muszą być uruchamiane codziennie, co tydzień lub co miesiąc).

obraz

  • Prześlij początkowy plik CSV do zasobnika Cloud Storage.
  • Użyj Memorystore jako trwałego magazynu danych do utrzymania stanu pośredniego przez długo działający proces.
  • Zapisywanie końcowych adresów w pamięci podręcznej w magazynie danych BigQuery.
  • Skonfiguruj Cloud Scheduler, aby skrypt był uruchamiany okresowo.

Ta architektura ma następujące zalety:

  • Za pomocą Cloud Scheduler możesz okresowo weryfikować adresy. Możesz ponownie sprawdzać adresy co miesiąc lub sprawdzać nowe adresy co miesiąc lub co kwartał. Ta architektura pomaga rozwiązać ten problem.
  • Jeśli dane o klientach znajdują się w BigQuery, można zapisać w pamięci podręcznej bezpośrednio tam zweryfikowane adresy lub flagi weryfikacji. Uwaga: dane, które można przechowywać w pamięci podręcznej, i jak to opisano szczegółowo w artykule na temat dużej liczby weryfikacji adresów

  • Korzystanie z Memorystore zapewnia większą odporność i możliwość przetwarzania większej liczby adresów. Te kroki powodują, że cały przetwarzający potok jest stanowy, co jest potrzebne do obsługi bardzo dużych zbiorów danych adresów. Można tu też używać innych technologii baz danych, takich jak Cloud SQL [https://cloud.google.com/sql] lub innych typów baz danych, które oferuje Google Cloud Platform. Uważamy jednak, że usługa memorystore idealnie równoważy potrzeby skalowania i upraszczania, dlatego powinna być pierwszym wyborem.

Podsumowanie

Stosując opisane tu wzorce, możesz używać interfejsu Address Validation API w różnych przypadkach użycia i w różnych zastosowaniach w Google Cloud Platform.

Aby ułatwić Ci rozpoczęcie korzystania z opisanych wyżej przypadków użycia, opracowaliśmy bibliotekę Pythona open source. Można go wywołać z wiersza poleceń na komputerze lub z Google Cloud Platform lub innych dostawców usług w chmurze.

Więcej informacji o korzystaniu z biblioteki znajdziesz w tym artykule.

Następne kroki

Pobierz dokument Usprawnij proces płatności, dostawy i operacji dzięki niezawodnym adresom i zapoznaj się z webinem na temat ulepszania procesu płatności, dostawy i działań dzięki weryfikacji adresów .

Sugerowane materiały do dalszego zapoznania się z tematem:

Współtwórcy

Ten artykuł jest aktualizowany przez Google. Poniżsi współtwórcy są autorami tych treści.
Główni autorzy:

Henrik Valve | Inżynier ds. rozwiązań
Thomas Anglaret | Inżynier ds. rozwiązań
Sarthak Ganguly | Inżynier ds. rozwiązań