ออกแบบรูปแบบสำหรับการตรวจสอบที่อยู่ปริมาณมากใน Google Cloud Platform

วัตถุประสงค์

บทแนะนำการตรวจสอบที่อยู่จำนวนมากจะแนะนำสถานการณ์ต่างๆ ที่สามารถใช้การตรวจสอบที่อยู่จำนวนมากได้ ในบทแนะนํานี้ เราจะแนะนํารูปแบบการออกแบบต่างๆ ภายใน Google Cloud Platform สําหรับการเรียกใช้การยืนยันที่อยู่จํานวนมาก

เราจะเริ่มจากภาพรวมเกี่ยวกับการเรียกใช้การตรวจสอบที่อยู่ปริมาณมากใน Google Cloud Platform ด้วย Cloud Run, Compute Engine หรือ Google Kubernetes Engine สำหรับการดำเนินการครั้งเดียว จากนั้นเราจะดูว่าความสามารถนี้สามารถรวมเป็นส่วนหนึ่งของไปป์ไลน์ข้อมูลได้อย่างไร

ท้ายบทความนี้ คุณควรเข้าใจตัวเลือกต่างๆ สำหรับการเรียกใช้การตรวจสอบที่อยู่ปริมาณมากในสภาพแวดล้อม Google Cloud

สถาปัตยกรรมอ้างอิงใน Google Cloud Platform

ส่วนนี้จะเจาะลึกรูปแบบการออกแบบต่างๆ สำหรับการยืนยันที่อยู่จำนวนมากโดยใช้ Google Cloud Platform การใช้งานบน Google Cloud Platform ช่วยให้คุณผสานรวมกับกระบวนการและไปป์ไลน์ข้อมูลที่มีอยู่ได้

เรียกใช้การยืนยันที่อยู่จำนวนมากเพียงครั้งเดียวใน Google Cloud Platform

ด้านล่างนี้คือสถาปัตยกรรมอ้างอิงสำหรับวิธีสร้างการผสานรวมใน Google Cloud Platform ซึ่งเหมาะสำหรับการดำเนินการหรือการทดสอบแบบครั้งเดียวมากกว่า

รูปภาพ

ในกรณีนี้ เราขอแนะนำให้อัปโหลดไฟล์ CSV ไปยังที่เก็บข้อมูล Cloud Storage จากนั้นคุณจะเรียกใช้สคริปต์การยืนยันที่อยู่จำนวนมากได้จากสภาพแวดล้อม Cloud Run แต่คุณสามารถเรียกใช้ได้ในสภาพแวดล้อมรันไทม์อื่นๆ เช่น Compute Engine หรือ Google Kubernetes Engine นอกจากนี้ คุณยังอัปโหลด CSV ผลลัพธ์ไปยังที่เก็บข้อมูล Cloud Storage ได้ด้วย

การทำงานเป็นไปป์ไลน์ข้อมูลของ Google Cloud Platform

รูปแบบการติดตั้งใช้งานที่แสดงในส่วนก่อนหน้าเหมาะอย่างยิ่งสำหรับการทดสอบการยืนยันที่อยู่จำนวนมากแบบใช้งานครั้งเดียวอย่างรวดเร็ว อย่างไรก็ตาม หากคุณจำเป็นต้องใช้ไปป์ไลน์ข้อมูลเป็นประจำ คุณสามารถใช้ประโยชน์จากความสามารถของ Google Cloud Platform แบบดั้งเดิมเพื่อให้มีประสิทธิภาพมากขึ้นได้ การเปลี่ยนแปลงที่คุณทำได้มีดังนี้

รูปภาพ

  • ในกรณีนี้ คุณสามารถถ่ายโอนไฟล์ CSV ในที่เก็บข้อมูล Cloud Storage ได้
  • งาน Dataflow สามารถเลือกที่อยู่เพื่อประมวลผลแล้วแคชใน BigQuery
  • คุณขยายไลบรารี Dataflow Python ได้เพื่อให้มีตรรกะสำหรับการตรวจสอบที่อยู่ปริมาณมากเพื่อตรวจสอบที่อยู่จากงาน Dataflow

การเรียกใช้สคริปต์จากไปป์ไลน์ข้อมูลเป็นกระบวนการที่เกิดซ้ำในระยะยาว

อีกแนวทางหนึ่งที่พบบ่อยคือการยืนยันที่อยู่หลายรายการเป็นส่วนหนึ่งของไปป์ไลน์ข้อมูลสตรีมมิงเป็นกระบวนการที่เกิดซ้ำ คุณอาจมีที่อยู่อยู่ในที่เก็บข้อมูล BigQuery ด้วย ในแนวทางนี้ เราจะดูวิธีสร้างไปป์ไลน์ข้อมูลที่เกิดซ้ำ (ซึ่งต้องทริกเกอร์ทุกวัน/รายสัปดาห์/รายเดือน)

รูปภาพ

  • อัปโหลดไฟล์ CSV เริ่มต้นไปยังที่เก็บข้อมูล Cloud Storage
  • ใช้ Memorystore เป็นที่เก็บข้อมูลแบบถาวรเพื่อรักษาสถานะกลางสำหรับกระบวนการที่ทำงานเป็นเวลานาน
  • แคชที่อยู่สุดท้ายในที่เก็บข้อมูล BigQuery
  • ตั้งค่า Cloud Scheduler เพื่อเรียกใช้สคริปต์เป็นระยะๆ

สถาปัตยกรรมนี้มีข้อดีดังต่อไปนี้

  • คุณสามารถใช้ Cloud Scheduler เพื่อตรวจสอบที่อยู่เป็นระยะๆ คุณอาจต้องตรวจสอบที่อยู่อีกครั้งทุกเดือน หรือตรวจสอบที่อยู่ใหม่ทุกเดือน/ไตรมาส สถาปัตยกรรมนี้ช่วยแก้ปัญหา Use Case ดังกล่าว
  • หากข้อมูลลูกค้าอยู่ใน BigQuery คุณจะแคชที่อยู่ที่ตรวจสอบแล้วหรือแฟล็กการตรวจสอบความถูกต้องได้โดยตรง หมายเหตุ: โปรดดูรายละเอียดเกี่ยวกับสิ่งที่แคชได้และวิธีแคชในบทความการตรวจสอบที่อยู่จำนวนมาก

  • การใช้ Memorystore จะช่วยเพิ่มความยืดหยุ่นและความสามารถในการประมวลผลที่อยู่ได้มากขึ้น ขั้นตอนนี้จะเพิ่มสถานะให้กับไปป์ไลน์การประมวลผลทั้งหมด ซึ่งจําเป็นสําหรับการจัดการชุดข้อมูลที่อยู่ขนาดใหญ่มาก เทคโนโลยีฐานข้อมูลอื่นๆ เช่น Cloud SQL[https://cloud.google.com/sql] หรือฐานข้อมูลรูปแบบอื่นๆ ที่ Google Cloud Platform นำเสนอก็ใช้ได้เช่นกัน อย่างไรก็ตาม เราเชื่อว่า Memorystore เหมาะสําหรับการใช้งานมากที่สุดเนื่องจากมีการปรับขนาดและความต้องการความเรียบง่ายที่ลงตัว จึงควรเป็นตัวเลือกแรก

บทสรุป

การใช้รูปแบบที่อธิบายไว้ที่นี่จะช่วยให้คุณใช้ Address Validation API สำหรับกรณีการใช้งานต่างๆ และจากกรณีการใช้งานต่างๆ ใน Google Cloud Platform ได้

เราได้เขียนไลบรารี Python แบบโอเพนซอร์สเพื่อช่วยให้คุณเริ่มต้นใช้งานกรณีการใช้งานที่อธิบายไว้ข้างต้น โดยสามารถเรียกใช้จากบรรทัดคำสั่งในคอมพิวเตอร์ หรือเรียกใช้จาก Google Cloud Platform หรือผู้ให้บริการระบบคลาวด์รายอื่นๆ

ดูข้อมูลเพิ่มเติมเกี่ยวกับวิธีใช้คลังได้จากบทความนี้

ขั้นตอนถัดไป

ดาวน์โหลดเอกสารประกอบปรับปรุงการชำระเงิน การนำส่ง และการดำเนินการด้วยที่อยู่ที่น่าเชื่อถือ และดูการสัมมนาผ่านเว็บเรื่องการปรับปรุงการชำระเงิน การนำส่ง และการดำเนินการด้วยการตรวจสอบที่อยู่

แหล่งข้อมูลอื่นๆ ที่แนะนํา

ผู้ร่วมให้ข้อมูล

Google เป็นผู้ดูแลบทความนี้ ผู้เขียนเนื้อหาต้นฉบับมีดังนี้
ผู้เขียนหลัก:

Henrik Valve | วิศวกรโซลูชัน
Thomas Anglaret | วิศวกรโซลูชัน
Sarthak Ganguly | วิศวกรโซลูชัน