Modèles de conception pour la validation d'adresses à volume élevé sur Google Cloud Platform

Objectif

Le tutoriel Validation de grands volumes d'adresses vous a présenté différents scénarios dans lesquels la validation d'un grand nombre d'adresses peut être utilisée. Dans ce tutoriel, nous vous présenterons différents modèles de conception dans Google Cloud Platform pour exécuter la validation d'adresses à fort volume.

Nous commencerons par vous présenter l'exécution de la validation d'adresses à fort volume dans Google Cloud Platform avec Cloud Run, Compute Engine ou Google Kubernetes Engine pour des exécutions ponctuelles. Nous verrons ensuite comment cette fonctionnalité peut être incluse dans un pipeline de données.

À la fin de cet article, vous devriez avoir une bonne compréhension des différentes options permettant d'exécuter la validation des adresses à fort volume dans votre environnement Google Cloud.

Architecture de référence sur Google Cloud Platform

Cette section explore plus en détail différents modèles de conception pour la validation d'adresses à grande échelle à l'aide de Google Cloud Platform. En l'exécutant sur Google Cloud Platform, vous pouvez l'intégrer à vos processus et pipelines de données existants.

Exécuter une validation unique d'adresses en grand volume sur Google Cloud Platform

Vous trouverez ci-dessous une architecture de référence pour créer une intégration sur Google Cloud Platform, qui est plus adaptée aux opérations ponctuelles ou aux tests.

image

Dans ce cas, nous vous recommandons d'importer le fichier CSV dans un bucket Cloud Storage. Le script de validation des adresses à fort volume peut ensuite être exécuté à partir d'un environnement Cloud Run. Toutefois, vous pouvez l'exécuter dans n'importe quel autre environnement d'exécution, comme Compute Engine ou Google Kubernetes Engine. Le fichier CSV de sortie peut également être importé dans le bucket Cloud Storage.

Exécuter en tant que pipeline de données Google Cloud Platform

Le modèle de déploiement présenté dans la section précédente est idéal pour tester rapidement la validation d'adresse à fort volume pour une utilisation ponctuelle. Toutefois, si vous devez l'utiliser régulièrement dans le cadre d'un pipeline de données, vous pouvez mieux exploiter les fonctionnalités natives de Google Cloud Platform pour le rendre plus robuste. Voici quelques-unes des modifications que vous pouvez effectuer:

image

  • Dans ce cas, vous pouvez vider les fichiers CSV dans des buckets Cloud Storage.
  • Un job Dataflow peut récupérer les adresses à traiter et les mettre en cache dans BigQuery.
  • La bibliothèque Dataflow Python peut être étendue pour disposer d'une logique de validation des adresses à haut volume (High Volume Address Validation) afin de valider les adresses à partir du job Dataflow.

Exécuter le script à partir d'un pipeline de données en tant que processus récurrent de longue durée

Une autre approche courante consiste à valider un lot d'adresses dans le cadre d'un pipeline de données en streaming en tant que processus récurrent. Vous pouvez également avoir les adresses dans un datastore BigQuery. Dans cette approche, nous allons voir comment créer un pipeline de données récurrent (qui doit être déclenché quotidiennement/hebdomadairement/mensuellement).

image

  • Importez le fichier CSV initial dans un bucket Cloud Storage.
  • Utilisez Memorystore comme datastore persistant pour conserver un état intermédiaire pour le processus de longue durée.
  • Mettre en cache les adresses finales dans un datastore BigQuery.
  • Configurez Cloud Scheduler pour exécuter le script régulièrement.

Cette architecture présente les avantages suivants :

  • Avec Cloud Scheduler, vous pouvez valider les adresses régulièrement. Vous pouvez revalider les adresses une fois par mois ou valider les nouvelles adresses tous les mois ou tous les trimestres. Cette architecture permet de résoudre ce cas d'utilisation.
  • Si les données client se trouvent dans BigQuery, les adresses validées ou les indicateurs de validation peuvent y être mis en cache directement. Remarque: Les éléments pouvant être mis en cache et la méthode à employer sont décrits en détail dans l'article Validation d'adresses à volume élevé.

  • L'utilisation de Memorystore améliore la résilience et la capacité de traitement d'un plus grand nombre d'adresses. Cette étape ajoute un état à l'ensemble du pipeline de traitement, ce qui est nécessaire pour gérer de très grands ensembles de données d'adresses. Vous pouvez également utiliser d'autres technologies de base de données telles que Cloud SQL[https://cloud.google.com/sql] ou toute autre version de base de données proposée par Google Cloud Platform. Cependant, nous pensons que Memorystore offre un équilibre parfait entre les besoins de scaling et de simplicité. C'est pourquoi nous vous recommandons de privilégier ce service.

Conclusion

En appliquant les modèles décrits ici, vous pouvez utiliser l'API Address Validation pour différents cas d'utilisation sur Google Cloud Platform.

Nous avons écrit une bibliothèque Python open source pour vous aider à vous lancer avec les cas d'utilisation décrits ci-dessus. Vous pouvez l'appeler à partir d'une ligne de commande sur votre ordinateur, ou depuis Google Cloud Platform ou d'autres fournisseurs de services cloud.

Pour en savoir plus sur l'utilisation de la bibliothèque, consultez cet article.

Étapes suivantes

Téléchargez le livre blanc Améliorer le processus de paiement, la livraison et les opérations grâce à des adresses fiables , et regardez le webinaire Améliorer les processus de paiement, de livraison et des opérations avec Address Validation .

Lectures complémentaires suggérées:

Contributeurs

Cet article est géré par Google. Ce message a été initialement rédigé par les contributeurs suivants.
Auteurs principaux:

Henrik Valve | Ingénieur solutions
Thomas Anglaret | Ingénieur solutions
Sarthak Ganguly | Ingénieur solutions