Google Cloud Platform에서 대용량 주소 검증을 위한 설계 패턴

목표

대용량 주소 검증 튜토리얼에서는 대용량 주소 검증을 사용할 수 있는 다양한 시나리오를 안내했습니다. 이 가이드에서는 대용량 주소 검증을 실행하기 위한 Google Cloud Platform 내의 다양한 설계 패턴을 소개합니다.

먼저 Cloud Run, Compute Engine 또는 Google Kubernetes Engine을 사용하여 Google Cloud Platform에서 일회성 실행을 위해 대용량 주소 검증을 실행하는 방법을 간략히 살펴보겠습니다. 그런 다음 이 기능을 데이터 파이프라인의 일부로 포함하는 방법을 살펴보겠습니다.

이 도움말을 마치고 나면 Google Cloud 환경에서 대량으로 주소 확인을 실행하기 위한 다양한 옵션에 대해 잘 이해하게 될 것입니다.

<ph type="x-smartling-placeholder">

Google Cloud Platform의 참조 아키텍처

이 섹션에서는 Google Cloud Platform을 사용한 대용량 주소 검증의 다양한 설계 패턴을 자세히 살펴봅니다. Google Cloud Platform에서 실행하여 기존 프로세스 및 데이터 파이프라인과 통합할 수 있습니다.

Google Cloud Platform에서 대용량 주소 검증 1회 실행

다음은 통합을 빌드하는 방법에 대한 참조 아키텍처입니다. 이는 일회성 작업 또는 테스트에 더 적합합니다.

이미지

이 경우 CSV 파일을 Cloud Storage 버킷에 업로드하는 것이 좋습니다. 그러면 Cloud Run 환경에서 대용량 주소 검증 스크립트를 실행할 수 있습니다. 그러나 Compute Engine 또는 Google Kubernetes Engine과 같은 다른 런타임 환경에서도 실행할 수 있습니다. 출력 CSV를 Cloud Storage 버킷에도 업로드할 수 있습니다.

Google Cloud Platform 데이터 파이프라인으로 실행

이전 섹션에 표시된 배포 패턴은 일회성 사용에 대해 대용량 주소 검증을 신속하게 테스트하는 데 적합합니다. 그러나 데이터 파이프라인의 일부로 정기적으로 사용해야 하는 경우 Google Cloud Platform 기반 기능을 더 잘 활용하여 더욱 견고하게 만들 수 있습니다. 다음과 같은 사항을 변경할 수 있습니다.

이미지

  • 이 경우 Cloud Storage 버킷에 CSV 파일을 덤프할 수 있습니다.
  • Dataflow 작업은 처리할 주소를 선택한 다음 BigQuery에 캐시할 수 있습니다.
  • Dataflow Python 라이브러리를 확장하여 Dataflow 작업에서 주소를 검증하는 대용량 주소 검증 로직을 포함할 수 있습니다.

데이터 파이프라인에서 스크립트를 오래 지속되는 반복 프로세스로 실행

또 다른 일반적인 접근 방식은 스트리밍 데이터 파이프라인의 일부로 주소 배치를 반복 프로세스로 검증하는 것입니다. BigQuery 데이터 스토어에 주소가 있을 수도 있습니다. 이 접근 방식에서는 반복 데이터 파이프라인 (매일/매주/매월 트리거해야 함)을 빌드하는 방법을 알아봅니다.

이미지

  • 초기 CSV 파일을 Cloud Storage 버킷에 업로드합니다.
  • Memorystore를 유지보수할 영구 데이터 스토어로 사용 중간 상태로 만들 수 있습니다
  • BigQuery 데이터 스토어에서 최종 주소를 캐시합니다.
  • 스크립트를 주기적으로 실행하도록 Cloud Scheduler를 설정합니다.

이 아키텍처에는 다음과 같은 장점이 있습니다.

  • Cloud Scheduler를 사용하면 주소 유효성 검사를 주기적으로 수행할 수 있습니다. 월 단위로 주소를 재검증하거나 새 주소를 월/분기별로 확인할 수 있습니다. 이 아키텍처는 해당 사용 사례를 해결하는 데 도움이 됩니다.
  • 고객 데이터가 BigQuery에 있으면 검증된 주소 또는 유효성 검사 플래그를 BigQuery에서 직접 캐시할 수 있습니다. 참고: 캐시할 수 있는 항목과 캐시 방법은 대량 주소 확인 도움말에서 자세히 알아볼 수 있습니다.

  • Memorystore를 사용하면 더 많은 주소를 처리할 수 있고 복원력이 향상됩니다. 이 단계에서는 매우 큰 주소 데이터 세트를 처리하는 데 필요한 전체 처리 파이프라인에 스테이트풀(Statefulness)을 추가합니다. Cloud SQL[https://cloud.google.com/sql] 과 같은 기타 데이터베이스 기술 또는 Google Cloud Platform이 제공하는 다른 다양한 데이터베이스 기술도 여기에서 사용할 수 있습니다. 그러나 Memorystore는 확장과 단순성 요구사항 간에 완벽한 균형을 이루므로 가장 먼저 선택해야 한다고 생각합니다.

결론

여기에 설명된 패턴을 적용하면 Address Validation API를 다양한 사용 사례와 Google Cloud Platform의 여러 사용 사례에 사용할 수 있습니다.

위에 설명된 사용 사례를 시작하는 데 도움이 되도록 오픈소스 Python 라이브러리를 작성했습니다. 컴퓨터의 명령줄에서 호출하거나 Google Cloud Platform 또는 기타 클라우드 제공업체에서 호출할 수 있습니다.

도움말에서 라이브러리 사용 방법을 자세히 알아보세요.

다음 단계

신뢰할 수 있는 주소로 결제, 배송, 운영 개선 백서를 다운로드하고 Address Validation으로 결제, 배송, 운영 개선 웹 세미나를 확인하세요.

추가 추천 자료:

참여자

이 도움말은 Google에서 관리합니다. 처음에 작성한 작성자는 다음과 같습니다.
수석 저자:

헨릭 밸브 | 솔루션 엔지니어
토마스 앵글레렛 | 솔루션 엔지니어
사탁 강굴리 | 솔루션 엔지니어