วัตถุประสงค์
บทแนะนำการตรวจสอบที่อยู่จำนวนมากจะแนะนำสถานการณ์ต่างๆ ที่สามารถใช้การตรวจสอบที่อยู่จำนวนมากได้ ในบทแนะนํานี้ เราจะแนะนํารูปแบบการออกแบบต่างๆ ภายใน Google Cloud Platform สําหรับการเรียกใช้การยืนยันที่อยู่จํานวนมาก
เราจะเริ่มจากภาพรวมเกี่ยวกับการเรียกใช้การตรวจสอบที่อยู่ปริมาณมากใน Google Cloud Platform ด้วย Cloud Run, Compute Engine หรือ Google Kubernetes Engine สำหรับการดำเนินการครั้งเดียว จากนั้นเราจะดูว่าความสามารถนี้สามารถรวมเป็นส่วนหนึ่งของไปป์ไลน์ข้อมูลได้อย่างไร
ท้ายบทความนี้ คุณควรเข้าใจตัวเลือกต่างๆ สำหรับการเรียกใช้การตรวจสอบที่อยู่ปริมาณมากในสภาพแวดล้อม Google Cloud
สถาปัตยกรรมอ้างอิงใน Google Cloud Platform
ส่วนนี้จะเจาะลึกรูปแบบการออกแบบต่างๆ สำหรับการยืนยันที่อยู่จำนวนมากโดยใช้ Google Cloud Platform การใช้งานบน Google Cloud Platform ช่วยให้คุณผสานรวมกับกระบวนการและไปป์ไลน์ข้อมูลที่มีอยู่ได้
เรียกใช้การยืนยันที่อยู่จำนวนมากเพียงครั้งเดียวใน Google Cloud Platform
ด้านล่างนี้คือสถาปัตยกรรมอ้างอิงสำหรับวิธีสร้างการผสานรวมใน Google Cloud Platform ซึ่งเหมาะสำหรับการดำเนินการหรือการทดสอบแบบครั้งเดียวมากกว่า
ในกรณีนี้ เราขอแนะนำให้อัปโหลดไฟล์ CSV ไปยังที่เก็บข้อมูล Cloud Storage จากนั้นคุณจะเรียกใช้สคริปต์การยืนยันที่อยู่จำนวนมากได้จากสภาพแวดล้อม Cloud Run แต่คุณสามารถเรียกใช้ได้ในสภาพแวดล้อมรันไทม์อื่นๆ เช่น Compute Engine หรือ Google Kubernetes Engine นอกจากนี้ คุณยังอัปโหลด CSV ผลลัพธ์ไปยังที่เก็บข้อมูล Cloud Storage ได้ด้วย
การทำงานเป็นไปป์ไลน์ข้อมูลของ Google Cloud Platform
รูปแบบการติดตั้งใช้งานที่แสดงในส่วนก่อนหน้าเหมาะอย่างยิ่งสำหรับการทดสอบการยืนยันที่อยู่จำนวนมากแบบใช้งานครั้งเดียวอย่างรวดเร็ว อย่างไรก็ตาม หากคุณจำเป็นต้องใช้ไปป์ไลน์ข้อมูลเป็นประจำ คุณสามารถใช้ประโยชน์จากความสามารถของ Google Cloud Platform แบบดั้งเดิมเพื่อให้มีประสิทธิภาพมากขึ้นได้ การเปลี่ยนแปลงที่คุณทำได้มีดังนี้
- ในกรณีนี้ คุณสามารถถ่ายโอนไฟล์ CSV ในที่เก็บข้อมูล Cloud Storage ได้
- งาน Dataflow สามารถเลือกที่อยู่เพื่อประมวลผลแล้วแคชใน BigQuery
- คุณขยายไลบรารี Dataflow Python ได้เพื่อให้มีตรรกะสำหรับการตรวจสอบที่อยู่ปริมาณมากเพื่อตรวจสอบที่อยู่จากงาน Dataflow
การเรียกใช้สคริปต์จากไปป์ไลน์ข้อมูลเป็นกระบวนการที่เกิดซ้ำในระยะยาว
อีกแนวทางหนึ่งที่พบบ่อยคือการยืนยันที่อยู่หลายรายการเป็นส่วนหนึ่งของไปป์ไลน์ข้อมูลสตรีมมิงเป็นกระบวนการที่เกิดซ้ำ คุณอาจมีที่อยู่อยู่ในที่เก็บข้อมูล BigQuery ด้วย ในแนวทางนี้ เราจะดูวิธีสร้างไปป์ไลน์ข้อมูลที่เกิดซ้ำ (ซึ่งต้องทริกเกอร์ทุกวัน/รายสัปดาห์/รายเดือน)
- อัปโหลดไฟล์ CSV เริ่มต้นไปยังที่เก็บข้อมูล Cloud Storage
- ใช้ Memorystore เป็นที่เก็บข้อมูลแบบถาวรเพื่อรักษาสถานะกลางสำหรับกระบวนการที่ทำงานเป็นเวลานาน
- แคชที่อยู่สุดท้ายในที่เก็บข้อมูล BigQuery
- ตั้งค่า Cloud Scheduler เพื่อเรียกใช้สคริปต์เป็นระยะๆ
สถาปัตยกรรมนี้มีข้อดีดังต่อไปนี้
- คุณสามารถใช้ Cloud Scheduler เพื่อตรวจสอบที่อยู่เป็นระยะๆ คุณอาจต้องตรวจสอบที่อยู่อีกครั้งทุกเดือน หรือตรวจสอบที่อยู่ใหม่ทุกเดือน/ไตรมาส สถาปัตยกรรมนี้ช่วยแก้ปัญหา Use Case ดังกล่าว
หากข้อมูลลูกค้าอยู่ใน BigQuery คุณจะแคชที่อยู่ที่ตรวจสอบแล้วหรือแฟล็กการตรวจสอบความถูกต้องได้โดยตรง หมายเหตุ: โปรดดูรายละเอียดเกี่ยวกับสิ่งที่แคชได้และวิธีแคชในบทความการตรวจสอบที่อยู่จำนวนมาก
การใช้ Memorystore จะช่วยเพิ่มความยืดหยุ่นและความสามารถในการประมวลผลที่อยู่ได้มากขึ้น ขั้นตอนนี้จะเพิ่มสถานะให้กับไปป์ไลน์การประมวลผลทั้งหมด ซึ่งจําเป็นสําหรับการจัดการชุดข้อมูลที่อยู่ขนาดใหญ่มาก เทคโนโลยีฐานข้อมูลอื่นๆ เช่น Cloud SQL[https://cloud.google.com/sql] หรือฐานข้อมูลรูปแบบอื่นๆ ที่ Google Cloud Platform นำเสนอก็ใช้ได้เช่นกัน อย่างไรก็ตาม เราเชื่อว่า Memorystore เหมาะสําหรับการใช้งานมากที่สุดเนื่องจากมีการปรับขนาดและความต้องการความเรียบง่ายที่ลงตัว จึงควรเป็นตัวเลือกแรก
บทสรุป
การใช้รูปแบบที่อธิบายไว้ที่นี่จะช่วยให้คุณใช้ Address Validation API สำหรับกรณีการใช้งานต่างๆ และจากกรณีการใช้งานต่างๆ ใน Google Cloud Platform ได้
เราได้เขียนไลบรารี Python แบบโอเพนซอร์สเพื่อช่วยให้คุณเริ่มต้นใช้งานกรณีการใช้งานที่อธิบายไว้ข้างต้น โดยสามารถเรียกใช้จากบรรทัดคำสั่งในคอมพิวเตอร์ หรือเรียกใช้จาก Google Cloud Platform หรือผู้ให้บริการระบบคลาวด์รายอื่นๆ
ดูข้อมูลเพิ่มเติมเกี่ยวกับวิธีใช้คลังได้จากบทความนี้
ขั้นตอนถัดไป
ดาวน์โหลดเอกสารประกอบปรับปรุงการชำระเงิน การนำส่ง และการดำเนินการด้วยที่อยู่ที่น่าเชื่อถือ และดูการสัมมนาผ่านเว็บเรื่องการปรับปรุงการชำระเงิน การนำส่ง และการดำเนินการด้วยการตรวจสอบที่อยู่
แหล่งข้อมูลอื่นๆ ที่แนะนํา
- เอกสารประกอบเกี่ยวกับ Address Validation API
- การแปลงพิกัดภูมิศาสตร์และการตรวจสอบที่อยู่
- ดูการสาธิต Address Validation
ผู้ร่วมให้ข้อมูล
Google เป็นผู้ดูแลบทความนี้ ผู้เขียนเนื้อหาต้นฉบับมีดังนี้
ผู้เขียนหลัก:
Henrik Valve | วิศวกรโซลูชัน
Thomas Anglaret | วิศวกรโซลูชัน
Sarthak Ganguly | วิศวกรโซลูชัน