在 Google Cloud Platform 上進行高大量位址驗證的設計模式

目標

大量位址驗證教學課程會逐步說明可進行大量地址驗證的各種情境。在這個教學課程中,我們會向您介紹 Google Cloud Platform 中的各種設計模式,協助您執行高流量地址驗證。

我們會先概略說明如何搭配 Cloud Run、Compute Engine 或 Google Kubernetes Engine,在 Google Cloud Platform 中執行高容量位址驗證 (一次性作業)。然後,我們將說明如何在資料管道中納入這項功能。

閱讀完本文後,您應熟悉如何在 Google Cloud 環境中大量執行地址驗證。

Google Cloud Platform 參考架構

本節深入探討使用 Google Cloud Platform 進行高容量位址驗證的不同設計模式。透過 Google Cloud Platform 執行,您就能與您現有的程序和資料管道整合。

在 Google Cloud Platform 上執行大量位址驗證一次

以下為如何在 Google Cloud Platform 上建構整合的參考架構,這種方式較適合一次性作業或測試。

圖片

在此情況下,建議您將 CSV 檔案上傳至 Cloud Storage 值區。然後即可透過 Cloud Run 環境執行高容量位址驗證指令碼。不過,您可以執行其他任何執行階段環境,例如 Compute EngineGoogle Kubernetes Engine。輸出 CSV 也可以上傳至 Cloud Storage 值區。

以 Google Cloud Platform 資料管道的形式執行

前一節顯示的部署模式非常適合用來快速測試高容量地址驗證 (一次性服務)。不過,如果您需要定期將其做為資料管道的一部分使用,則可以更有效地運用 Google Cloud Platform 原生功能來提高其可靠性。您可以進行的調整包括:

圖片

  • 在這種情況下,您可以在 Cloud Storage 值區中傾印 CSV 檔案。
  • Dataflow 工作可以挑選要處理的位址,然後在 BigQuery 中快取。
  • 您可以將 Dataflow Python 程式庫擴充為擁有高用量位址驗證的邏輯,藉此驗證 Dataflow 工作中的位址。

做為長期週期性程序,從資料管道執行指令碼

另一種常見的方法是,將串流資料管道中的一批位址驗證為週期性程序。您也可以在 BigQuery 資料儲存庫裡找到位址。在這個做法中,我們會說明如何建立週期性資料管道 (每日/每週/每月觸發)

圖片

  • 將初始 CSV 檔案上傳至 Cloud Storage 值區。
  • 使用 Memorystore 做為永久資料儲存庫,讓長時間執行的程序維持中繼狀態。
  • BigQuery 資料儲存庫中快取最終地址。
  • 設定 Cloud Scheduler 以定期執行指令碼。

這個架構有以下優點:

  • 您可以使用 Cloud Scheduler,定期驗證位址。建議您每個月重新驗證地址,或是每季/每季驗證新的地址。這種架構有助於解決該用途。
  • 如果客戶資料位於 BigQuery 中,則可以直接快取已驗證的地址或驗證旗標。 注意:可以快取哪些內容及如何進行,詳情請參閱高容量地址驗證文章

  • 使用 Memorystore 即可提高彈性,並處理更多位址。在處理超大型位址資料集所需的整個處理管道上,這個步驟會將狀態增加。其他資料庫技術 (例如 Cloud SQL[https://cloud.google.com/sql]) 或其他資料庫,可在此使用 Google Cloud Platform 提供的任何服務。不過,我們認為 Memorystore 不完美平衡,既能兼顧擴充性和簡易性的需求,因此應該優先採用。

結論

只要套用本文所述的模式,您就能針對 Google Cloud Platform 上的不同用途和用途使用 Address Validation API。

我們編寫了開放原始碼 Python 程式庫,協助您開始上述用途。您可以透過電腦上的指令列叫用這個呼叫,也可以透過 Google Cloud Platform 或其他雲端服務供應商叫用。

如要進一步瞭解如何使用程式庫,請參閱這篇文章

後續步驟

下載透過可靠地址提升結帳、交付和營運表現 白皮書,並參閱運用地址驗證改善結帳、交付和營運表現 網路研討會。

建議延伸閱讀:

協作者

本文由 Google 負責維護。下列提供者原本可以撰寫您的簽名。
首席作者:

Henrik Valve | 解決方案工程師
Thomas Anglaret | 解決方案工程師
Sarthak Ganguly | 解決方案工程師