Pola Desain untuk Validasi Alamat Volume Tinggi di Google Cloud Platform

Tujuan

Tutorial Validasi Alamat Volume Tinggi memandu Anda melalui berbagai skenario yang dapat menggunakan validasi alamat bervolume tinggi. Dalam tutorial ini, kami akan memperkenalkan berbagai pola desain pada Google Cloud Platform untuk menjalankan Validasi Alamat Volume Tinggi.

Kita akan mulai dengan ringkasan cara menjalankan Validasi Alamat Volume Tinggi di Google Cloud Platform dengan Cloud Run, Compute Engine, atau Google Kubernetes Engine untuk eksekusi satu kali. Kemudian, kita akan melihat bagaimana kemampuan ini dapat disertakan sebagai bagian dari pipeline data.

Di akhir artikel ini, Anda akan memiliki pemahaman yang baik tentang berbagai opsi untuk menjalankan Validasi Alamat dalam volume tinggi di lingkungan Google Cloud.

Arsitektur referensi di Google Cloud Platform

Bagian ini membahas lebih dalam berbagai pola desain untuk Validasi Alamat Volume Tinggi menggunakan Google Cloud Platform. Dengan menjalankannya di Google Cloud Platform, Anda dapat mengintegrasikan dengan proses dan pipeline data yang ada.

Menjalankan Validasi Alamat Volume Tinggi satu kali di Google Cloud Platform

Berikut adalah arsitektur referensi tentang cara mem-build integrasi di Google Cloud Platform yang lebih cocok untuk operasi atau pengujian satu kali.

gambar

Dalam hal ini, sebaiknya upload file CSV ke bucket Cloud Storage. Skrip Validasi Alamat Volume Tinggi kemudian dapat dijalankan dari lingkungan Cloud Run. Namun, Anda dapat mengeksekusinya di lingkungan runtime lain seperti Compute Engine atau Google Kubernetes Engine. CSV output juga dapat diupload ke bucket Cloud Storage.

Berjalan sebagai pipeline data Google Cloud Platform

Pola deployment yang ditunjukkan di bagian sebelumnya sangat bagus untuk menguji dengan cepat Validasi Alamat Volume Tinggi untuk penggunaan satu kali. Namun, jika Anda perlu menggunakannya secara rutin sebagai bagian dari pipeline data, Anda dapat memanfaatkan kemampuan native Google Cloud Platform dengan lebih baik untuk membuatnya lebih tangguh. Beberapa perubahan yang dapat Anda buat meliputi:

gambar

  • Dalam hal ini, Anda dapat membuang file CSV di bucket Cloud Storage.
  • Tugas Dataflow dapat mengambil alamat untuk diproses, lalu menyimpannya dalam cache di BigQuery.
  • Library Dataflow Python dapat diperluas agar memiliki logika Validasi Alamat Volume Tinggi guna memvalidasi alamat dari tugas Dataflow.

Menjalankan skrip dari pipeline data sebagai proses berulang yang berlangsung lama

Pendekatan umum lainnya adalah memvalidasi batch alamat sebagai bagian dari pipeline data streaming sebagai proses berulang. Anda juga mungkin memiliki alamat di datastore bigquery. Dalam pendekatan ini, kita akan melihat cara membuat pipeline data berulang (yang perlu dipicu setiap hari/mingguan/bulanan)

gambar

  • Upload file CSV awal ke bucket Cloud Storage.
  • Gunakan Memorystore sebagai datastore persisten untuk mempertahankan status menengah untuk proses yang berjalan lama.
  • Simpan alamat akhir ke cache datastore BigQuery.
  • Siapkan Cloud Scheduler untuk menjalankan skrip secara berkala.

Arsitektur ini memiliki keunggulan berikut:

  • Dengan menggunakan Cloud Scheduler, validasi alamat dapat dilakukan secara berkala. Anda dapat memvalidasi ulang alamat setiap bulan atau memvalidasi alamat baru setiap bulan/triwulan. Arsitektur ini membantu memecahkan kasus penggunaan tersebut.
  • Jika data pelanggan berada di BigQuery, alamat yang divalidasi atau Tanda validasi dapat langsung di-cache di sana. Catatan: Apa yang dapat di-cache dan bagaimana caranya dijelaskan secara mendetail dalam artikel Validasi Alamat Volume Tinggi

  • Penggunaan Memorystore akan memberikan ketahanan dan kemampuan yang lebih tinggi untuk memproses lebih banyak alamat. Langkah ini menambahkan status stateful ke seluruh pipeline pemrosesan yang diperlukan untuk menangani set data alamat yang sangat besar. Teknologi database lainnya seperti cloud SQL[https://cloud.google.com/sql] atau ragam database lainnya yang juga ditawarkan Google cloud Platform dapat digunakan di sini. Namun, kami yakin memorystore sempurna menyeimbangkan kebutuhan penskalaan dan kemudahan, sehingga menjadi pilihan pertama.

Kesimpulan

Dengan menerapkan pola yang dijelaskan di sini, Anda dapat menggunakan Address Validation API untuk berbagai kasus penggunaan dan dari berbagai kasus penggunaan di Google Cloud Platform.

Kami telah menulis library Python open source untuk membantu Anda memulai kasus penggunaan yang dijelaskan di atas. Callback dapat dipanggil dari command line di komputer atau dapat dipanggil dari Google Cloud Platform atau penyedia cloud lainnya.

Pelajari lebih lanjut cara menggunakan library dari artikel ini.

Langkah Berikutnya

Download Laporan Resmi Meningkatkan checkout, pengiriman, dan operasi dengan alamat yang andal , serta lihat Webinar Meningkatkan checkout, pengiriman, dan operasi dengan Validasi Alamat .

Disarankan bacaan lebih lanjut:

Kontributor

Google mengelola artikel ini. Awalnya, kontributor berikut ini ditulis.
Penulis utama:

Henrik Valve | Solutions Engineer
Thomas Anglaret | Solutions Engineer
Sarthak Ganguly | Solutions Engineer