Objectif
L'atelier Validation des adresses à fort volume vous a présenté différents scénarios dans lesquels la validation des adresses à fort volume peut être utilisée. Dans ce tutoriel, nous vous présenterons différents modèles de conception dans Google Cloud Platform pour exécuter la validation d'adresses à fort volume.
Nous commencerons par vous présenter l'exécution de la validation d'adresses à fort volume dans Google Cloud Platform avec Cloud Run, Compute Engine ou Google Kubernetes Engine pour des exécutions ponctuelles. Nous verrons ensuite comment cette fonctionnalité peut être incluse dans un pipeline de données.
À la fin de cet article, vous devriez avoir une bonne compréhension des différentes options permettant d'exécuter la validation des adresses à fort volume dans votre environnement Google Cloud.
Architecture de référence sur Google Cloud Platform
Cette section présente plus en détail différents modèles de conception pour la validation d'adresses à fort volume à l'aide de Google Cloud Platform. En l'exécutant sur Google Cloud Platform, vous pouvez l'intégrer à vos processus et pipelines de données existants.
Exécuter une seule fois la validation d'adresses à fort volume sur Google Cloud Platform
Vous trouverez ci-dessous une architecture de référence pour créer une intégration sur Google Cloud Platform, qui est plus adaptée aux opérations ponctuelles ou aux tests.
Dans ce cas, nous vous recommandons d'importer le fichier CSV dans un bucket Cloud Storage. Le script de validation des adresses à fort volume peut ensuite être exécuté à partir d'un environnement Cloud Run. Vous pouvez toutefois l'exécuter dans n'importe quel autre environnement d'exécution, comme Compute Engine ou Google Kubernetes Engine. Le fichier CSV de sortie peut également être importé dans le bucket Cloud Storage.
Exécuter en tant que pipeline de données Google Cloud Platform
Le modèle de déploiement présenté dans la section précédente est idéal pour tester rapidement la validation d'adresse à fort volume pour une utilisation ponctuelle. Toutefois, si vous devez l'utiliser régulièrement dans le cadre d'un pipeline de données, vous pouvez mieux exploiter les fonctionnalités natives de Google Cloud Platform pour le rendre plus robuste. Voici quelques exemples de modifications que vous pouvez apporter:
- Dans ce cas, vous pouvez extraire des fichiers CSV dans des buckets Cloud Storage.
- Une tâche Dataflow peut récupérer les adresses à traiter, puis les mettre en cache dans BigQuery.
- La bibliothèque Python Dataflow peut être étendue pour inclure une logique de validation des adresses à fort volume afin de valider les adresses de la tâche Dataflow.
Exécuter le script à partir d'un pipeline de données en tant que processus récurrent de longue durée
Une autre approche courante consiste à valider un lot d'adresses dans le cadre d'un pipeline de données en streaming en tant que processus récurrent. Vous pouvez également les trouver dans un datastore BigQuery. Dans cette approche, nous allons voir comment créer un pipeline de données récurrent (qui doit être déclenché quotidiennement/hebdomadairement/mensuellement).
- Importez le fichier CSV initial dans un bucket Cloud Storage.
- Utilisez Memorystore comme datastore persistant pour conserver l'état intermédiaire du processus de longue durée.
- Mettre en cache les adresses finales dans un datastore BigQuery.
- Configurez Cloud Scheduler pour exécuter le script régulièrement.
Cette architecture présente les avantages suivants :
- Avec Cloud Scheduler, vous pouvez valider les adresses régulièrement. Vous pouvez revalider les adresses tous les mois ou valider les nouvelles adresses tous les mois ou tous les trimestres. Cette architecture permet de résoudre ce cas d'utilisation.
Si les données client se trouvent dans BigQuery, les adresses validées ou les indicateurs de validation peuvent y être mis en cache directement. Remarque: Vous trouverez une description détaillée de ce qui peut être mis en cache et de la façon dont cela se fait dans l'article sur la validation d'adresses à fort volume.
L'utilisation de Memorystore offre une résilience et une capacité de traitement supérieures pour un plus grand nombre d'adresses. Cette étape ajoute un état à l'ensemble du pipeline de traitement, ce qui est nécessaire pour gérer de très grands ensembles de données d'adresses. Vous pouvez également utiliser d'autres technologies de base de données, comme Cloud SQL[https://cloud.google.com/sql] ou toute autre base de données proposée par Google Cloud Platform. Toutefois, nous pensons que Memorystore offre un équilibre parfait entre les besoins de mise à l'échelle et de simplicité, et doit donc être le premier choix.
Conclusion
En appliquant les modèles décrits ici, vous pouvez utiliser l'API Address Validation pour différents cas d'utilisation et à partir de différents cas d'utilisation sur Google Cloud Platform.
Nous avons écrit une bibliothèque Python open source pour vous aider à vous lancer avec les cas d'utilisation décrits ci-dessus. Vous pouvez l'appeler à partir d'une ligne de commande sur votre ordinateur, ou depuis Google Cloud Platform ou d'autres fournisseurs de services cloud.
Pour en savoir plus sur l'utilisation de la bibliothèque, consultez cet article.
Étapes suivantes
Téléchargez le livre blanc Améliorer les processus de paiement, de livraison et d'exploitation avec des adresses fiables et regardez le webinaire Améliorer les processus de paiement, de livraison et d'exploitation avec la validation des adresses .
Lectures complémentaires suggérées:
- Documentation de l'API Address Validation
- Geocoding et validation des adresses
- Découvrez la démo de l'API Address Validation.
Contributeurs
Cet article est géré par Google. Les contributeurs suivants l'ont initialement rédigé.
Auteurs principaux:
Henrik Valve | Ingénieur solutions
Thomas Anglaret | Ingénieur solutions
Sarthak Ganguly | Ingénieur solutions