Modèles de conception pour la validation d'adresses à volume élevé sur Google Cloud Platform

Objectifs

Le tutoriel Validation de grands volumes d'adresses vous a présenté différents scénarios dans lesquels la validation d'un grand nombre d'adresses peut être utilisée. Dans ce tutoriel, nous vous présenterons différents modèles de conception dans Google Cloud Platform permettant d'exécuter la validation d'adresses à grande échelle.

Nous commencerons par vous donner une vue d'ensemble de l'exécution d'une validation d'adresses à grande échelle dans Google Cloud Platform avec Cloud Run, Compute Engine ou Google Kubernetes Engine pour des exécutions ponctuelles. Nous verrons ensuite comment inclure cette fonctionnalité dans un pipeline de données.

À la fin de cet article, vous devriez avoir une bonne compréhension des différentes options permettant d'exécuter Address Validation en grand volume dans votre environnement Google Cloud.

Architecture de référence sur Google Cloud Platform

Cette section explore plus en détail différents modèles de conception pour la validation d'adresses à grande échelle à l'aide de Google Cloud Platform. L'exécution sur Google Cloud Platform vous permet d'intégrer vos processus et pipelines de données existants.

Exécuter une validation unique d'adresses en grand volume sur Google Cloud Platform

Vous trouverez ci-dessous une architecture de référence qui explique comment créer une intégration sur Google Cloud Platform plus adaptée aux opérations ou aux tests ponctuelles.

Image

Dans ce cas, nous vous recommandons d'importer le fichier CSV dans un bucket Cloud Storage. Le script High Volume Address Validation peut ensuite être exécuté à partir d'un environnement Cloud Run. Cependant, vous pouvez l'exécuter dans n'importe quel autre environnement d'exécution, tel que Compute Engine ou Google Kubernetes Engine. Le fichier CSV de sortie peut également être importé dans le bucket Cloud Storage.

Exécuter en tant que pipeline de données Google Cloud Platform

Le modèle de déploiement présenté dans la section précédente est idéal pour tester rapidement la validation d'adresses à grande échelle pour une utilisation unique. Toutefois, si vous devez l'utiliser régulièrement dans le cadre d'un pipeline de données, vous pouvez mieux exploiter les fonctionnalités natives de Google Cloud Platform pour la rendre plus robuste. Voici quelques-unes des modifications que vous pouvez effectuer:

Image

  • Dans ce cas, vous pouvez vider les fichiers CSV dans des buckets Cloud Storage.
  • Un job Dataflow peut récupérer les adresses à traiter et les mettre en cache dans BigQuery.
  • La bibliothèque Dataflow Python peut être étendue pour disposer d'une logique de validation des adresses à haut volume (High Volume Address Validation) afin de valider les adresses à partir du job Dataflow.

Exécuter le script à partir d'un pipeline de données en tant que processus récurrent de longue durée

Une autre approche courante consiste à valider un lot d'adresses dans le cadre d'un pipeline de données en flux continu en tant que processus récurrent. Vous pouvez également avoir les adresses dans un datastore BigQuery. Dans cette approche, nous allons voir comment créer un pipeline de données récurrent (qui doit être déclenché chaque jour, chaque semaine ou chaque mois).

Image

  • Importez le fichier CSV initial dans un bucket Cloud Storage.
  • Utilisez Memorystore comme datastore persistant pour conserver un état intermédiaire pour le processus de longue durée.
  • Mettez en cache les adresses finales dans un datastore BigQuery.
  • Configurez Cloud Scheduler pour exécuter le script régulièrement.

Cette architecture présente les avantages suivants :

  • Cloud Scheduler permet d'effectuer régulièrement la validation des adresses. Vous pouvez revalider les adresses une fois par mois ou valider les nouvelles adresses tous les mois ou tous les trimestres. Cette architecture permet de résoudre ce cas d'utilisation.
  • Si les données client se trouvent dans BigQuery, les adresses ou les indicateurs de validation peuvent y être mis en cache directement. Remarque: Les éléments pouvant être mis en cache et la méthode à employer sont décrits en détail dans l'article Validation d'adresses à volume élevé.

  • L'utilisation de Memorystore augmente la résilience et la capacité de traitement d'un plus grand nombre d'adresses. Cette étape permet d'ajouter un état à l'ensemble du pipeline de traitement, ce qui est nécessaire pour traiter de très grands ensembles de données d'adresses. Vous pouvez également utiliser d'autres technologies de base de données telles que Cloud SQL[https://cloud.google.com/sql] ou toute autre version de base de données proposée par Google Cloud Platform. Cependant, nous pensons que Memorystore offre un équilibre parfait entre les besoins en termes de scaling et de simplicité. C'est pourquoi nous vous recommandons de privilégier ce service.

Conclusion

En appliquant les modèles décrits ici, vous pouvez utiliser l'API Address Validation pour différents cas d'utilisation sur Google Cloud Platform.

Nous avons développé une bibliothèque Python Open Source pour vous aider à vous familiariser avec les cas d'utilisation décrits ci-dessus. Elle peut être appelée à partir d'une ligne de commande sur votre ordinateur, ou depuis Google Cloud Platform ou d'autres fournisseurs de services cloud.

Pour en savoir plus sur l'utilisation de la bibliothèque, consultez cet article.

Étapes suivantes

Téléchargez le livre blanc Améliorer le processus de paiement, la livraison et les opérations grâce à des adresses fiables , et regardez le webinaire Améliorer les processus de paiement, de livraison et des opérations avec Address Validation .

Documentation complémentaire suggérée:

Contributeurs

Google tient à jour cet article. Ce message a été initialement rédigé par les contributeurs suivants.
Auteurs principaux:

Henrik Valve | Ingénieur en solutions
Thomas Anglaret | Ingénieur en solutions
Sarthak Ganguly | Ingénieur en solutions