هذا الدليل مخصّص لمشرفي المكوّن الإضافي لمُفهرس Google Cloud Search Norconex HTTP Collector، أي أي شخص مسؤول عن تنزيل المكوّن الإضافي للفهرس ونقله وضبطه وصيانته. يفترض الدليل أنّك على دراية بأنظمة التشغيل Linux وأساسيات الزحف إلى الويب وتنسيق XML وNorconex HTTP Collector.
يتضمّن هذا الدليل تعليمات لتنفيذ المهام الرئيسية المتعلّقة بنشر ملفّات علامة التبويب المكوّنات الإضافية لمحرّك الفهرسة:
- تنزيل برنامج المكوّن الإضافي لفهرسة المحتوى
- ضبط إعدادات Google Cloud Search
- ضبط Norconex HTTP Collector والزحف إلى الويب
- بدء الزحف إلى الويب وتحميل المحتوى
لا تظهر في هذا الدليل معلومات عن المهام التي يجب أن يؤديها مشرف Google Workspace لربط Google Cloud Search بإضافة Norconex HTTP Collector indexer plugin. للحصول على معلومات عن هذه المهام، يُرجى الاطّلاع على مقالة إدارة مصادر البيانات التابعة لجهات خارجية.
نظرة عامة على المكوّن الإضافي لفهرسة Cloud Search Norconex HTTP Collector
يمكن لخدمة Cloud Search تلقائيًا اكتشاف المحتوى من منتجات Google Workspace، مثل "مستندات Google" وGmail، وفهرسته وعرض بياناته. يمكنك توسيع نطاق وصول Google Cloud Search ليشمل عرض محتوى الويب للمستخدمين من خلال نشر المكوّن الإضافي للفهرسة في Norconex HTTP Collector، وهو زاحف ويب مفتوح المصدر للمؤسسات.
ملفات خصائص الضبط
لتفعيل المكوّن الإضافي لفهرسة الويب من أجل تنفيذ عمليات الزحف إلى الويب وتحميل المحتوى إلى واجهة برمجة التطبيقات لفهرسة الويب، عليك، بصفتك مشرف المكوّن الإضافي لفهرسة الويب، تقديم معلومات محدّدة أثناء خطوات الإعداد الموضّحة في هذا المستند ضمن خطوات النشر.
لاستخدام المكوّن الإضافي لفهرسة المحتوى، عليك ضبط الخصائص في ملفي إعدادات:
{gcs-crawl-config.xml}
-- يحتوي على إعدادات لبرنامج Norconex HTTP Collector.sdk-configuration.properties
-- يحتوي على إعدادات Google Cloud Search.
تتيح السمات في كل ملف للمكوّن الإضافي لموسّع فهرس Google Cloud Search و Norconex HTTP Collector التواصل مع بعضهما.
الزحف إلى الويب وتحميل المحتوى
بعد تعبئة ملفات الإعدادات، ستحصل على الإعدادات اللازمة لبدء الزحف إلى الويب. يزحف Norconex HTTP Collector إلى الويب، ويرصد محتوى المستندات المرتبط بإعداداته وي upload الإصدارات الأصلية الثنائية (أو النصية) من محتوى المستندات إلى واجهة برمجة التطبيقات للفهرسة في Cloud Search حيث تتم فهرستها وعرضها في النهاية للمستخدمين.
نظام التشغيل المتوافق
يجب تثبيت المكوّن الإضافي لمفهرس Google Cloud Search Norconex HTTP Collector على نظام التشغيل Linux.
إصدار Norconex HTTP Collector المتوافق
يتوافق المكوّن الإضافي لموسّع Norconex HTTP Collector في Google Cloud Search مع الإصدار 2.8.0.
إتاحة الوصول إلى قوائم التحكّم في الوصول
يتيح المكوّن الإضافي لفهرسة المحتوى التحكّم في الوصول إلى المستندات في ملف شخصي على Google Workspace باستخدام قوائم التحكّم بالوصول (ACL).
في حال تفعيل قوائم التحكّم في الوصول التلقائية في إعدادات المكوّن الإضافي لمحرك بحث Google،
(defaultAcl.mode
تم ضبطه على قيمة غير none
وتم ضبطه باستخدام defaultAcl.*
)،
يحاول المكوّن الإضافي للفهرسة أولاً إنشاء قائمة تحكّم في الوصول تلقائية وتطبيقها.
في حال عدم تفعيل قوائم التحكّم في الوصول التلقائية، يعود المكوّن الإضافي إلى منح إذن القراءة لنطاق Google Workspace بأكمله.
للحصول على أوصاف تفصيلية لمَعلمات ضبط قائمة التحكّم بالوصول، يُرجى الاطّلاع على مَعلمات الموصِّل المقدَّمة من Google.
المتطلبات الأساسية
قبل نشر المكوّن الإضافي لفهرسة المحتوى، تأكَّد من توفّر المكونات التالية المطلوبة:
- تثبيت Java JRE 1.8 على جهاز كمبيوتر يعمل بالإصدار الإضافي لموسّع الفهرس
معلومات Google Workspace المطلوبة لإنشاء علاقات بين Cloud Search وNorconex HTTP Collector:
- مفتاح Google Workspace الخاص (الذي يحتوي على رقم تعريف حساب الخدمة)
- رقم تعريف مصدر بيانات Google Workspace
عادةً ما يقدّم مشرف Google Workspace للنطاق هذه الاعتمادات نيابةً عنك.
خطوات النشر
لنشر المكوّن الإضافي لبرنامج الفهرسة، اتّبِع الخطوات التالية:
- تثبيت برنامج Norconex HTTP Collector وبرنامج المكوّن الإضافي للفهرسة
- ضبط Google Cloud Search
- ضبط Norconex HTTP Collector
- ضبط الزحف إلى الويب
- بدء الزحف إلى الويب وتحميل المحتوى
الخطوة 1: تثبيت برنامج Norconex HTTP Collector وبرنامج المكوّن الإضافي للفهرسة
- نزِّل برنامج Norconex commiter من هذه الصفحة.
- فك ضغط البرنامج الذي تم تنزيله إلى مجلد
~/norconex/
- استنسِخ المكوّن الإضافي "المُعدِّل" من GitHub.
git clone https://github.com/google-cloudsearch/norconex-committer-plugin.git
ثمcd norconex-committer-plugin
- يمكنك الاطّلاع على الإصدار المطلوب من المكوّن الإضافي "أداة الربط" وإنشاء ملف ZIP:
git checkout tags/v1-0.0.3
وmvn package
(لتخطّي الاختبارات عند إنشاء الموصِّل، استخدِمmvn package -DskipTests
). cd target
- انسخ ملف jar المكوّن للإضافة إلى دليل norconex lib.
cp google-cloudsearch-norconex-committer-plugin-v1-0.0.3.jar ~/norconex/norconex-collector-http-{version}/lib
- استخرِج ملف ZIP الذي أنشأته للتو، ثم فك ضغط الملف:
unzip google-cloudsearch-norconex-committer-plugin-v1-0.0.3.zip
- نفِّذ النص البرمجي للتثبيت لنسخ ملف .jar الخاص بالإضافة وجميع المكتبات المطلوبة
إلى دليل "مجمع بيانات HTTP":
- عليك إجراء تغيير على المكوّن الإضافي المُستخرَج الذي تم فك ضغطه أعلاه:
cd google-cloudsearch-norconex-committer-plugin-v1-0.0.3
- نفِّذ
$ sh install.sh
وقدِّم المسار الكامل إلىnorconex/norconex-collector-http-{version}/lib
كدليل الوجهة عند طلب ذلك. - في حال العثور على ملفات jar مكرّرة، اختَر الخيار
1
(نسخ ملف jar المصدر فقط إذا كان الإصدار أكبر أو مطابقًا لملف jar المستهدَف بعد إعادة تسمية ملف jar المستهدَف).
- عليك إجراء تغيير على المكوّن الإضافي المُستخرَج الذي تم فك ضغطه أعلاه:
الخطوة 2: ضبط Google Cloud Search
لكي يتمكّن المكوّن الإضافي للفهرسة من الاتصال بخادم Norconex HTTP Collector وفهرسة
المحتوى ذي الصلة، يجب إنشاء ملف إعدادات Cloud Search في directory
Norconex حيث تم تثبيت Norconex HTTP Collector. تنصح Google
بأن تسمي ملف إعدادات Cloud Search باسم
sdk-configuration.properties
.
يجب أن يحتوي ملف الإعدادات هذا على أزواج مفتاح/قيمة تحدّد مَعلمة. يجب أن يحدِّد ملف الإعداد على الأقل المَعلمات التالية التي هي ضرورية للوصول إلى مصدر بيانات Cloud Search.
الإعدادات | المَعلمة |
معرّف مصدر البيانات | api.sourceId = 1234567890abcdef
مطلوبة. رقم تعريف مصدر Cloud Search الذي أعدّه مشرف Google Workspace |
حساب الخدمة | api.serviceAccountPrivateKeyFile = ./PrivateKey.json
مطلوبة. ملف مفتاح حساب خدمة Cloud Search الذي أنشأه مشرف Google Workspace لإتاحة استخدام المكوّن الإضافي للفهرسة |
يوضّح المثال التالي ملفًا بتنسيق sdk-configuration.properties
.
#
# data source access
api.sourceId=1234567890abcdef
api.serviceAccountPrivateKeyFile=./PrivateKey.json
#
يمكن أن يحتوي ملف الضبط أيضًا على مَعلمات ضبط تقدّمها Google.
يمكن أن تؤثّر هذه المَعلمات في كيفية دفع هذا المكوّن الإضافي للبيانات إلى Google Cloud Search API. على سبيل المثال، تحدد مجموعة المَعلمات batch.*
طريقة دمج المُوصّل للطلبات.
في حال عدم تحديد مَعلمة في ملف الإعدادات، يتم استخدام القيمة التلقائية، إذا كانت متاحة. للحصول على أوصاف تفصيلية لكل مَعلمة، اطّلِع على مَعلمات الموصّل المقدَّمة من Google.
يمكنك ضبط المكوّن الإضافي لبرنامج الفهرسة لملء البيانات الوصفية والبيانات المنظَّمة للمحتوى الذي تتم فهرسته. يمكن استخراج القيم التي سيتمّ ملؤها لحقول البيانات الوصفية والبيانات المنظَّمة من علامات HTML في محتوى HTML الذي تتم فهرسته، أو يمكن تحديد القيم التلقائية في ملف الضبط.
الإعداد | المعلَمة |
العنوان | itemMetadata.title.field=movieTitle
itemMetadata.title.defaultValue=Gone with the Wind
بشكلٍ تلقائي، يستخدم المكوّن الإضافي HTML title كعنوان للمستند الذي تتم فهرسته. في حال عدم توفّر عنوان، يمكنك الرجوع إلىسمة البيانات الوصفية التي تحتوي على القيمة المقابلة لعنوان المستند أو ضبط قيمة تلقائية.
|
الطابع الزمني للإنشاء | itemMetadata.createTime.field=releaseDate
itemMetadata.createTime.defaultValue=1940-01-17
سمة البيانات الوصفية التي تحتوي على قيمة الطابع الزمني لإنشاء المستند. |
وقت آخر تعديل | itemMetadata.updateTime.field=releaseDate
itemMetadata.updateTime.defaultValue=1940-01-17
سمة البيانات الوصفية التي تحتوي على قيمة الطابع الزمني لآخر تعديل على المستند. |
لغة المستند | itemMetadata.contentLanguage.field=languageCode
itemMetadata.contentLanguage.defaultValue=en-US
لغة محتوى المستندات التي تتم فهرستها. |
نوع عنصر المخطّط | itemMetadata.objectType=movie
نوع العنصر المستخدَم في الموقع الإلكتروني، كما هو محدّد في تعريفات عناصر مخطّط مصدر البيانات. لن يُفهرس الموصّل أي بيانات منظَّمة في حال عدم تحديد هذا الموقع.
ملاحظة: تشير خاصية الإعداد هذه إلى قيمة بدلاً من سمة بيانات وصفية، ولا يُسمح باستخدام اللاحقتَين |
تنسيقات التاريخ والوقت
تحدّد تنسيقات التاريخ والوقت التنسيقات المتوقّعة في سمات البيانات الوصفية. إذا لم يحتوي ملف الإعدادات على هذه المَعلمة، يتم استخدام القيم التلقائية. يعرض الجدول التالي هذه المَعلمة.
الإعداد
المعلَمة
أنماط إضافية للتاريخ والوقت
structuredData.dateTimePatterns=MM/dd/uuuu HH:mm:ssXXX
قائمة مفصولة بفواصل منقوطة بأنماط java.time.format.DateTimeFormatter الإضافية تُستخدَم الأنماط عند تحليل قيم السلاسل لأي حقول تاريخ أو تاريخ ووقت في البيانات الوصفية أو المخطّط. القيمة التلقائية هي قائمة فارغة، ولكنّ تنسيقَي RFC 3339 وRFC 1123 متاحان دائمًا.
الخطوة 3: ضبط Norconex HTTP Collector
يتضمّن أرشيف zip norconex-committer-google-cloud-search-{version}.zip
ملف إعداد minimum-config.xml
.
تنصح Google ببدء عملية الإعداد من خلال نسخ نموذج الملف:
- انتقِل إلى دليل Norconex HTTP Collector:
$ cd ~/norconex/norconex-collector-http-{version}/
- انسخ ملف الضبط:
$ cp examples/minimum/minimum-config.xml gcs-crawl-config.xml
- عدِّل الملف الذي تم إنشاؤه حديثًا (
gcs-crawl-config.xml
في هذا المثال) وأضِف أو استبدِل عقد<committer>
و<tagger>
الحالية كما هو موضّح في الجدول التالي.
الإعدادات | المَعلمة |
<committer> node
|
<committer class="com.norconex.committer.googlecloudsearch.
GoogleCloudSearchCommitter">
مطلوبة. لتفعيل المكوّن الإضافي، يجب إضافة عقدة <committer> كعنصر ثانوي لعقدة <httpcollector> الجذر.
|
<UploadFormat>
|
<uploadFormat>raw</uploadFormat>
اختياري. التنسيق الذي يُرسِل به المكوّن الإضافي للفهرسة محتوى المستند إلى واجهة برمجة التطبيقات الخاصة بفهرسة Google Cloud Search. في ما يلي القيم الصالحة:
القيمة التلقائية هي raw .
|
BinaryContent Tagger <tagger> node
|
<tagger class="com.norconex.committer.googlecloudsearch.BinaryContentTagger"/>
مطلوبة إذا كانت قيمة <UploadFormat> هي raw . في هذه الحالة، يحتاج المكوّن الإضافي للفهرسة إلى توفّر حقل المحتوى الثنائي للمستند.
يجب إضافة عقدة BinaryContentTagger <tagger> كعنصر فرعي لعقدة <importer> / <preParseHandlers> .
|
يوضّح المثال التالي تعديل
المطلوب
gcs-crawl-config.xml
.
<committer class="com.norconex.committer.googlecloudsearch.GoogleCloudSearchCommitter">
<configFilePath>/full/path/to/gcs-sdk-config.properties</configFilePath>
<uploadFormat>raw</uploadFormat>
</committer>
<importer>
<preParseHandlers>
<tagger class="com.norconex.committer.googlecloudsearch.BinaryContentTagger"/>
</preParseHandlers>
</importer>
الخطوة 4: ضبط الزحف إلى الويب
قبل بدء عملية الزحف إلى الويب، عليك ضبط عملية الزحف بحيث لا تشمل سوى
المعلومات التي تريد مؤسستك إتاحتها في نتائج
البحث. إنّ أهمّ الإعدادات لميزة الزحف إلى الويب هي جزء من <crawler>
العقد ويمكن أن تتضمّن ما يلي:
- عناوين URL للبدء
- الحد الأقصى لعمق الزحف
- عدد سلاسل المحادثات
يمكنك تغيير قيم الإعدادات هذه وفقًا لاحتياجاتك. للحصول على معلومات أكثر تفصيلاً حول إعداد الزحف إلى الويب، بالإضافة إلى قائمة كاملة بالمَعلمات المتاحة لضبط الإعدادات، يُرجى الاطّلاع على صفحة إعدادات "مجمع بيانات HTTP".
الخطوة 5: بدء الزحف إلى الويب وتحميل المحتوى
بعد تثبيت المكوّن الإضافي لفهرسة المحتوى وإعداده، يمكنك تشغيله بنفسه في الوضع المحلي.
يفترض المثال التالي أنّ المكونات المطلوبة متوفّرة في الدليل المحلي على نظام Linux. نفِّذ الأمر التالي:
$ ./collector-http[.bat|.sh] -a start -c gcs-crawl-config.xml
مراقبة الزاحف باستخدام JEF Monitor
أداة Norconex JEF (إطار عمل تنفيذ المهام) هي أداة رسومية لمراقبة مستوى تقدّم عمليات Norconex Web Crawler (جامع HTTP) ومهام الويب. للحصول على دليل تعليمي كامل حول كيفية إعداد هذه الأداة، يُرجى الانتقال إلى مقالة مراقبة مستوى تقدّم الزاحف باستخدام JEF Monitor.