أنماط تصميم للتحقق من صحة العناوين ذات الحجم الكبير على Google Cloud Platform

الهدف

لقد ساعدك الدليل التعليمي التحقّق من صحة العناوين بكميات كبيرة في التعرّف على سيناريوهات مختلفة يمكن فيها استخدام ميزة التحقّق من صحة العناوين بكميات كبيرة. في هذا البرنامج التعليمي، سنقدم لك أنماط تصميم مختلفة في Google Cloud Platform لإجراء "التحقق من العناوين بكميات كبيرة".

سنبدأ بإلقاء نظرة عامة على عملية "التحقّق من صحة العناوين كبيرة الحجم" في Google Cloud Platform باستخدام Cloud Run أو Compute Engine أو Google Kubernetes Engine لتنفيذ عمليات تنفيذ لمرة واحدة. سنرى بعد ذلك كيف يمكن تضمين هذه الميزة كجزء من مسار بيانات.

بنهاية هذه المقالة، من المفترض أن تكون قد تعرّفت جيدًا على الخيارات المختلفة لتشغيل "التحقق من العنوان" بكميات كبيرة في بيئة Google Cloud.

البنية المرجعية في Google Cloud Platform

يتناول هذا القسم بالتفصيل أنماط التصميم المختلفة لميزة "التحقّق من العناوين" ذات الحجم الكبير باستخدام Google Cloud Platform. من خلال استخدام Google Cloud Platform، يمكنك الدمج مع العمليات ومسارات البيانات الحالية.

تنفيذ عملية التحقّق من العناوين ذات الحجم الكبير مرة واحدة على Google Cloud Platform

في ما يلي بنية مرجعية حول كيفية إنشاء عملية دمج على Google Cloud Platform، وهي أكثر ملاءمةً للعمليات أو الاختبارات لمرة واحدة.

الصورة

في هذه الحالة، ننصحك بتحميل ملف CSV إلى حزمة Cloud Storage. يمكن بعد ذلك تشغيل نص التحقّق من العناوين ذات الحجم الكبير من بيئة Cloud Run. ويمكنك تنفيذه في أي بيئة تشغيل أخرى، مثل Compute Engine أو Google Kubernetes Engine. يمكن أيضًا تحميل ملف CSV الناتج إلى حزمة Cloud Storage.

العمل كمسار بيانات في Google Cloud Platform

إنّ نمط النشر الموضّح في القسم السابق مثالي لاختبار ميزة "التحقّق من العناوين ذات الحجم الكبير" بسرعة لاستخدامها لمرة واحدة. ومع ذلك، إذا كنت بحاجة إلى استخدامها بانتظام كجزء من مسار البيانات، يمكنك الاستفادة بشكلٍ أفضل من إمكانات Google Cloud Platform الأصلية لجعلها أكثر فعالية. في ما يلي بعض التغييرات التي يمكنك إجراؤها:

الصورة

  • في هذه الحالة، يمكنك تفريغ ملفات CSV في حِزم Cloud Storage.
  • يمكن أن تلتقط مهمة Dataflow العناوين التي ستتم معالجتها ثم تخزينها مؤقتًا في BigQuery.
  • يمكن توسيع مكتبة Python في Dataflow لتوفير منطق للتحقّق من صحة العناوين ذات الحجم الكبير من وظيفة Dataflow.

تشغيل النص البرمجي من مسار بيانات كعملية متكرّرة طويلة الأمد

ومن الأساليب الشائعة الأخرى التحقّق من صحة مجموعة من العناوين كجزء من مسار بيانات البث كعملية متكررة. قد تكون العناوين لديك أيضًا في مستودع بيانات bigquery. في هذا النهج، سنرى كيفية إنشاء مسار بيانات متكرّر (يجب تشغيله يوميًا أو أسبوعيًا أو شهريًا).

الصورة

  • حمِّل ملف CSV الأوّلي إلى حزمة Cloud Storage.
  • استخدِم Memorystore بصفتها مستودع بيانات دائمًا للحفاظ على الحالة الوسيطة للعملية التي تستغرق وقتًا طويلاً.
  • تخزين العناوين النهائية مؤقتًا في قاعدة بيانات BigQuery
  • يمكنك إعداد Cloud Scheduler لتشغيل النص البرمجي بشكل دوري.

هذه البنية لها المزايا التالية:

  • باستخدام Cloud Scheduler، يمكن التحقّق من صحة العنوان بشكل دوري. قد تحتاج إلى إعادة التحقّق من صحة العناوين شهريًا أو التحقّق من صحة أي عناوين جديدة شهريًا أو ربع سنويًا. تساعد هذه البنية في حل حالة الاستخدام هذه.
  • إذا كانت بيانات العملاء متوفرة في BigQuery، يمكن تخزين العناوين التي تم التحقّق منها أو علامات التحقّق مؤقتًا هناك مباشرةً. ملاحظة: يمكن الاطّلاع على التفاصيل حول العناصر التي يمكن تخزينها مؤقتًا وكيفية تخزينها في مقالة التحقّق من العناوين ذات الحجم الكبير.

  • يوفر استخدام Memorystore قدرة أكبر على التحمل وإمكانية معالجة المزيد من العناوين. تضيف هذه الخطوات حالة إلى مسار المعالجة بالكامل، وهو أمر ضروري للتعامل مع مجموعات بيانات العناوين الكبيرة جدًا. يمكن أيضًا استخدام تكنولوجيات قواعد بيانات أخرى، مثل Cloud SQL‏[https://cloud.google.com/sql] أو أي نوع آخر من قواعد البيانات تقدّمه Google Cloud Platform. مع ذلك، نعتقد أنّ Memorystore يوازن بشكلٍ مثالي بين احتياجات التوسّع والبساطة، وبالتالي يجب أن يكون الخيار الأول.

الخاتمة

من خلال تطبيق الأنماط الموضّحة هنا، يمكنك استخدام واجهة برمجة التطبيقات Address Validation API لحالات استخدام مختلفة ومن حالات استخدام مختلفة على Google Cloud Platform.

لقد كتبنا مكتبة Python مفتوحة المصدر لمساعدتك في بدء استخدام حالات الاستخدام الموضّحة أعلاه. يمكن تشغيله من سطر أوامر على جهاز الكمبيوتر أو من Google Cloud Platform أو من مزوّدي خدمات السحابة الإلكترونية الآخرين.

يمكنك الاطّلاع على مزيد من المعلومات حول كيفية استخدام المكتبة من خلال هذه المقالة.

الخطوات التالية

نزِّل ورقة البيانات تحسين الدفع والتسليم والعمليات باستخدام عناوين موثوقة ، وشاهِد البرنامج التعليمي على الويب تحسين الدفع والتسليم والعمليات باستخدام ميزة "التحقّق من العنوان" .

مراجع إضافية مقترَحة:

المساهمون

تُعدّ هذه المقالة من إعداد Google. كتبه المساهمون التاليون في الأصل.
المؤلفون الرئيسيون:

هنريك فالف | مهندس حلول
توماس أنغلارت | مهندس حلول
سارتاك غانغولي | مهندس حلول