Wzorce projektowe do walidacji dużej ilości adresów w Google Cloud Platform

Cel

W samouczku na temat weryfikacji adresów na dużą skalę przedstawiliśmy różne scenariusze, w których można przeprowadzić weryfikację adresów na dużą skalę. W tym samouczku poznasz różne wzorce projektowe w Google Cloud Platform służące do przeprowadzania walidacji adresów na dużą skalę.

Zaczniemy od omówienia przeprowadzania walidacji adresów na dużą skalę w Google Cloud Platform za pomocą Cloud Run, Compute Engine lub Google Kubernetes Engine w przypadku jednorazowych wykonań. Następnie sprawdzimy, w jaki sposób można włączyć tę funkcję w potok danych.

Z tego artykułu dowiesz się więcej o różnych opcjach uruchamiania weryfikacji adresów w dużej ilości w środowisku Google Cloud.

Architektura referencyjna w Google Cloud Platform

W tej sekcji znajdziesz bardziej szczegółowe informacje na temat różnych wzorców projektowania walidacji adresów na dużą skalę przy użyciu Google Cloud Platform. Rozwiązanie działające w Google Cloud Platform pozwala na integrację z dotychczasowymi procesami i potokami danych.

Jednorazowa weryfikacja adresów dużego woluminu w Google Cloud Platform

Poniżej znajduje się architektura referencyjna pokazująca, jak utworzyć integrację w Google Cloud Platform, która lepiej sprawdzi się w przypadku jednorazowych operacji lub testów.

obraz

W takim przypadku zalecamy przesłanie pliku CSV do zasobnika Cloud Storage. Skrypt walidacji adresów dla dużej ilości danych można następnie uruchomić w środowisku Cloud Run. Możesz go jednak uruchamiać w dowolnym innym środowisku wykonawczym, takim jak Compute Engine lub Google Kubernetes Engine. Wyjściowy plik CSV można też przesłać do zasobnika Cloud Storage.

Działanie jako potok danych Google Cloud Platform

Wzorzec wdrożenia widoczny w poprzedniej sekcji świetnie nadaje się do szybkiego testowania walidacji adresów przy dużej ilości danych do jednorazowego użycia. Jeśli jednak musisz regularnie korzystać z niej w ramach potoku danych, możesz wykorzystać natywne możliwości Google Cloud Platform, aby zwiększyć niezawodność. Możesz na przykład wprowadzić:

obraz

  • W takim przypadku możesz skopiować pliki CSV do zasobników Cloud Storage.
  • Zadanie Dataflow może pobierać adresy do przetworzenia i buforować dane w BigQuery.
  • Bibliotekę Dataflow w Pythonie można rozszerzyć, aby obsługiwała walidację adresów na dużą skalę w celu weryfikacji adresów z zadania Dataflow.

Uruchamianie skryptu z potoku danych jako długotrwały cykliczny proces

Innym typowym podejściem jest weryfikacja grupy adresów w ramach cyklicznego procesu strumieniowania danych. Możesz też mieć adresy w magazynie danych BigQuery. W ramach tej strategii zobaczymy, jak utworzyć cykliczny potok danych (który trzeba uruchamiać codziennie, co tydzień lub co miesiąc).

obraz

  • Prześlij początkowy plik CSV do zasobnika Cloud Storage.
  • Użyj Memorystore jako trwałego magazynu danych do utrzymania stanu pośredniego przez długo działający proces.
  • Zapisywanie końcowych adresów w pamięci podręcznej w magazynie danych BigQuery.
  • Skonfiguruj usługę Cloud Scheduler w celu okresowego uruchamiania skryptu.

Taka architektura ma następujące zalety:

  • Za pomocą usługi Cloud Scheduler weryfikację adresów można przeprowadzać okresowo. Możesz sprawdzać adresy raz w miesiącu lub sprawdzać wszystkie nowe adresy co miesiąc lub co kwartał. Taka architektura pomaga rozwiązać ten problem.
  • Jeśli dane klientów znajdują się w BigQuery, zweryfikowane adresy lub flagi weryfikacyjne mogą być zapisane bezpośrednio w tym miejscu. Uwaga: dane, które można przechowywać w pamięci podręcznej, i jak to opisano szczegółowo w artykule na temat dużej liczby weryfikacji adresów

  • Korzystanie z Memorystore zapewnia większą odporność i możliwość przetwarzania większej liczby adresów. Te kroki zwiększają stanowość całego potoku przetwarzania, który jest potrzebny do obsługi bardzo dużych zbiorów danych adresów. Możesz też korzystać z innych technologii baz danych, takich jak Cloud SQL[https://cloud.google.com/sql] czy inny rodzaj bazy danych oferowany przez Google Cloud Platform. Wierzymy jednak, że storagestore idealnie łączy w sobie skalowanie i prostotę, dlatego powinien być pierwszym wyborem.

Podsumowanie

Stosując opisane tu wzorce, możesz używać interfejsu Address Validation API w różnych przypadkach użycia i w różnych przypadkach użycia w Google Cloud Platform.

Opracowaliśmy bibliotekę open source w języku Python, aby ułatwić Ci rozpoczęcie pracy w opisanych powyżej przypadkach użycia. Można ją wywołać z wiersza poleceń na komputerze. Można ją też wywołać z Google Cloud Platform lub od innych dostawców usług chmurowych.

Więcej informacji o korzystaniu z biblioteki znajdziesz w tym artykule.

Dalsze kroki

Pobierz dokument Usprawnij proces płatności, dostawy i operacji dzięki niezawodnym adresom i obejrzyj webinar Usprawnianie procesu płatności, dostawy i działań dzięki weryfikacji adresów .

Sugerujemy dodatkowe artykuły:

Współtwórcy

Ten artykuł jest prowadzony przez Google. Poniżsi współtwórcy są autorami tych treści.
Główni autorzy:

Henrik Valve | Inżynier ds. rozwiązań
Thomas Anglaret | Inżynier ds. rozwiązań
Sarthak Ganguly | Inżynier ds. rozwiązań