تمت ترجمة هذه الصفحة بواسطة Cloud Translation API‏.

نشر المكوّن الإضافي لأداة Norconex HTTP Collector

هذا الدليل موجّه إلى مشرفي إضافة الفهرسة في Google Cloud Search Norconex HTTP Collector، أي أي شخص مسؤول عن تنزيل إضافة الفهرسة ونشرها وإعدادها وصيانتها. يفترض هذا الدليل أنّك على دراية بأنظمة التشغيل Linux وأساسيات الزحف إلى الويب وXML وNorconex HTTP Collector.

يتضمّن هذا الدليل تعليمات حول تنفيذ المهام الرئيسية ذات الصلة بنشر إضافة الفهرسة:

تنزيل برنامج المكوّن الإضافي الخاص بالفهرسة
إعداد Google Cloud Search
ضبط Norconex HTTP Collector والزحف على الويب
بدء الزحف إلى الويب وتحميل المحتوى

لا يتضمّن هذا الدليل معلومات حول المهام التي يجب أن ينفّذها مشرف Google Workspace لربط Google Cloud Search ببرنامج Norconex HTTP Collector الإضافي للفهرسة. للحصول على معلومات حول هذه المهام، يُرجى الاطّلاع على مقالة إدارة مصادر البيانات التابعة لجهات خارجية.

نظرة عامة على مكوّن الفهرسة الإضافي Norconex HTTP Collector في Cloud Search

بشكل تلقائي، يمكن لخدمة Cloud Search اكتشاف المحتوى وفهرسته وعرضه من منتجات Google Workspace، مثل "مستندات Google" وGmail. يمكنك توسيع نطاق وصول Google Cloud Search ليشمل عرض محتوى الويب للمستخدمين من خلال نشر المكوّن الإضافي الخاص بالفهرسة في Norconex HTTP Collector، وهو زاحف ويب مفتوح المصدر خاص بالمؤسسات.

ملفات خصائص الإعداد

لتفعيل المكوّن الإضافي الخاص بالفهرسة كي يتمكّن من إجراء عمليات الزحف إلى الويب وتحميل المحتوى إلى Indexing API، عليك، بصفتك مشرف المكوّن الإضافي الخاص بالفهرسة، تقديم معلومات محدّدة أثناء خطوات الإعداد الموضّحة في هذا المستند ضمن خطوات النشر.

لاستخدام مكوّن indexer الإضافي، يجب ضبط الخصائص في ملفَي إعداد:

‫{gcs-crawl-config.xml}-- يحتوي على إعدادات Norconex HTTP Collector.
sdk-configuration.properties-- يحتوي على إعدادات Google Cloud Search.

تتيح الخصائص في كل ملف لبرنامج Google Cloud Search الإضافي الخاص بالفهرسة وNorconex HTTP Collector التواصل مع بعضهما.

الزحف إلى الويب وتحميل المحتوى

بعد ملء ملفات الإعداد، ستتوفّر لديك الإعدادات اللازمة لبدء عملية الزحف على الويب. يزحف Norconex HTTP Collector إلى الويب، ويكتشف محتوى المستندات المرتبط بإعداداته، ويحمّل النسخ الثنائية الأصلية (أو النصية) من محتوى المستندات إلى واجهة برمجة التطبيقات للفهرسة في Cloud Search حيث تتم فهرسته وعرضه في النهاية للمستخدمين.

نظام التشغيل المتوافق

يجب تثبيت المكوّن الإضافي لفهرسة Google Cloud Search Norconex HTTP Collector على نظام التشغيل Linux.

إصدار Norconex HTTP Collector المتوافق

يتوافق مكوّن الفهرسة الإضافي Norconex HTTP Collector في Google Cloud Search مع الإصدار 2.8.0.

التوافق مع قوائم ACL

تتيح إضافة الفهرسة التحكّم في الوصول إلى المستندات في نطاق Google Workspace باستخدام قوائم التحكّم بالوصول (ACL).

في حال تفعيل قوائم التحكّم بالوصول التلقائية في إعدادات المكوّن الإضافي Google Cloud Search (defaultAcl.mode تم ضبطه على قيمة أخرى غير none وتم إعداده باستخدام defaultAcl.*)، يحاول المكوّن الإضافي للفهرسة أولاً إنشاء قائمة تحكّم بالوصول تلقائية وتطبيقها.

في حال عدم تفعيل قوائم التحكّم بالوصول التلقائية، سيعود المكوّن الإضافي إلى منح إذن القراءة لنطاق Google Workspace بأكمله.

للحصول على أوصاف تفصيلية لمَعلمات إعداد قائمة التحكّم بالوصول، يُرجى الاطّلاع على مَعلمات الموصل التي توفّرها Google.

المتطلبات الأساسية

قبل نشر مكوّن indexer الإضافي، تأكَّد من توفّر المكوّنات المطلوبة التالية:

تثبيت Java JRE 1.8 على جهاز كمبيوتر يشغّل المكوّن الإضافي للفهرسة
معلومات Google Workspace المطلوبة لإنشاء علاقات بين Cloud Search وNorconex HTTP Collector:
- مفتاح Google Workspace الخاص (الذي يحتوي على معرّف حساب الخدمة)
- معرّف مصدر بيانات Google Workspace
في العادة، يمكن لمشرف Google Workspace للنطاق تقديم بيانات الاعتماد هذه لك.

خطوات النشر

لتفعيل مكوّن الفهرسة الإضافي، اتّبِع الخطوات التالية:

تثبيت Norconex HTTP Collector وبرنامج المكوّن الإضافي للفهرسة
ضبط Google Cloud Search
ضبط Norconex HTTP Collector
ضبط الزحف على الويب
بدء عملية الزحف إلى الويب وتحميل المحتوى

الخطوة 1: تثبيت Norconex HTTP Collector وبرنامج المكوّن الإضافي للفهرسة

نزِّل برنامج Norconex commiter من هذه الصفحة.
فك ضغط البرنامج الذي تم تنزيله إلى المجلد ~/norconex/
استنسِخ إضافة commiter من GitHub. ‫git clone https://github.com/google-cloudsearch/norconex-committer-plugin.git وcd norconex-committer-plugin
راجِع الإصدار المطلوب من المكوّن الإضافي commiter وأنشئ ملف ZIP: git checkout tags/v1-0.0.3 وmvn package (لتخطّي الاختبارات عند إنشاء الموصّل، استخدِم mvn package -DskipTests).
cd target
انسخ ملف jar الخاص بالإضافة الذي تم إنشاؤه إلى دليل lib الخاص بـ norconex. cp google-cloudsearch-norconex-committer-plugin-v1-0.0.3.jar ~/norconex/norconex-collector-http-{version}/lib
استخرِج ملف ZIP الذي أنشأته للتو ثم فك ضغط الملف: unzip google-cloudsearch-norconex-committer-plugin-v1-0.0.3.zip
نفِّذ نص التثبيت البرمجي لنسخ ملف JAR الخاص بالمكوّن الإضافي وجميع المكتبات المطلوبة إلى دليل أداة جمع بيانات HTTP:
1. غيِّر إلى المكوّن الإضافي المستخرَج الذي تم فك ضغطه أعلاه: cd google-cloudsearch-norconex-committer-plugin-v1-0.0.3
2. نفِّذ الأمر $ sh install.sh وقدِّم المسار الكامل إلى norconex/norconex-collector-http-{version}/lib كدليل مستهدف عند المطالبة بذلك.
3. في حال العثور على ملفات jar مكرّرة، اختَر الخيار 1 (نسخ ملف Jar المصدر فقط إذا كان الإصدار أكبر من أو يساوي إصدار ملف Jar المستهدف بعد إعادة تسمية ملف Jar المستهدف).

الخطوة 2: ضبط Google Cloud Search

لكي يتمكّن المكوّن الإضافي للفهرسة من الاتصال ببرنامج Norconex HTTP Collector وفهرسة المحتوى ذي الصلة، عليك إنشاء ملف إعدادات Cloud Search في دليل Norconex الذي تم تثبيت برنامج Norconex HTTP Collector فيه. تنصح Google بتسمية ملف إعداد Cloud Search sdk-configuration.properties.

يجب أن يحتوي ملف الإعداد هذا على أزواج المفتاح/القيمة التي تحدّد مَعلمة. يجب أن يحدّد ملف الإعداد المَعلمات التالية على الأقل، وهي المَعلمات اللازمة للوصول إلى مصدر بيانات Cloud Search.

الإعداد	المَعلمة
معرّف مصدر البيانات	`api.sourceId = 1234567890abcdef` مطلوب. رقم تعريف مصدر Cloud Search الذي أعدّه مشرف Google Workspace
حساب الخدمة	`api.serviceAccountPrivateKeyFile = ./PrivateKey.json` مطلوب. ملف مفتاح حساب خدمة Cloud Search الذي أنشأه مشرف Google Workspace لتوفير إمكانية الوصول إلى إضافة الفهرسة

يوضّح المثال التالي sdk-configuration.propertiesملفًا.

#
# data source access
api.sourceId=1234567890abcdef
api.serviceAccountPrivateKeyFile=./PrivateKey.json
#

يمكن أن يحتوي ملف الإعداد أيضًا على مَعلمات إعداد تقدّمها Google. يمكن أن تؤثّر هذه المَعلمات في طريقة إرسال هذه الإضافة للبيانات إلى واجهة برمجة تطبيقات Google Cloud Search. على سبيل المثال، تحدّد batch.* مجموعة المَعلمات كيفية دمج الموصّل للطلبات.

إذا لم تحدّد مَعلمة في ملف الإعداد، سيتم استخدام القيمة التلقائية، إذا كانت متاحة. للحصول على أوصاف تفصيلية لكل مَعلمة، اطّلِع على مَعلمات الموصل التي توفّرها Google.

يمكنك ضبط مكوّن الفهرسة الإضافي لملء البيانات الوصفية والبيانات المنظَّمة الخاصة بالمحتوى الذي تتم فهرسته. يمكن استخراج القيم التي سيتم ملؤها في حقول البيانات الوصفية والبيانات المنظَّمة من علامات وصفية في محتوى HTML الذي تتم فهرسته، أو يمكن تحديد القيم التلقائية في ملف الإعداد.

الإعداد	المعلَمة
العنوان	`itemMetadata.title.field=movieTitle` `itemMetadata.title.defaultValue=Gone with the Wind` بشكلٍ تلقائي، تستخدم الإضافة `HTML title` كعنوان للمستند الذي تتم فهرسته. في حال عدم توفّر العنوان، يمكنك الرجوع إلى سمة البيانات الوصفية التي تحتوي على القيمة المقابلة لعنوان المستند أو ضبط قيمة تلقائية.
الطابع الزمني للإنشاء	`itemMetadata.createTime.field=releaseDate` `itemMetadata.createTime.defaultValue=1940-01-17` سمة البيانات الوصفية التي تحتوي على قيمة الطابع الزمني لإنشاء المستند.
وقت آخر تعديل	`itemMetadata.updateTime.field=releaseDate` `itemMetadata.updateTime.defaultValue=1940-01-17` سمة البيانات الوصفية التي تحتوي على قيمة الطابع الزمني لآخر تعديل على المستند.
لغة المستند	`itemMetadata.contentLanguage.field=languageCode` `itemMetadata.contentLanguage.defaultValue=en-US` لغة المحتوى للمستندات التي تتم فهرستها
نوع عنصر المخطط	`itemMetadata.objectType=movie` نوع العنصر الذي يستخدمه الموقع الإلكتروني، كما هو محدّد في تعريفات عناصر مخطط مصدر البيانات لن يفهرس الموصل أي بيانات منظَّمة إذا لم يتم تحديد هذه السمة. ملاحظة: يشير عنصر الإعداد هذا إلى قيمة بدلاً من سمة بيانات وصفية، ولا يُسمح باستخدام اللاحقتَين `.field` و`.defaultValue`.

تنسيقات التاريخ والوقت

تحدّد تنسيقات التاريخ والوقت التنسيقات المتوقّعة في سمات البيانات الوصفية. إذا لم يكن ملف الإعدادات يحتوي على هذه المَعلمة، سيتم استخدام القيم التلقائية. يعرض الجدول التالي هذه المَعلمة.

الإعداد

المعلَمة

أنماط إضافية للتاريخ والوقت

structuredData.dateTimePatterns=MM/dd/uuuu HH:mm:ssXXX

قائمة مفصولة بفواصل منقوطة تتضمّن أنماطًا إضافية من java.time.format.DateTimeFormatter. يتم استخدام الأنماط عند تحليل قيم السلسلة لأي حقول تاريخ أو تاريخ ووقت في البيانات الوصفية أو المخطط. القيمة التلقائية هي قائمة فارغة، ولكن يتم دائمًا توفير تنسيقات RFC 3339 وRFC 1123.

الخطوة 3: ضبط Norconex HTTP Collector

يتضمّن أرشيف zip norconex-committer-google-cloud-search-{version}.zipملف إعداد نموذجيًا، minimum-config.xml.

تنصح Google ببدء عملية الإعداد من خلال نسخ ملف النموذج:

غيِّر إلى دليل Norconex HTTP Collector:
$ cd ~/norconex/norconex-collector-http-{version}/
انسخ ملف الإعداد:
$ cp examples/minimum/minimum-config.xml gcs-crawl-config.xml
عدِّل الملف الذي تم إنشاؤه حديثًا (gcs-crawl-config.xml في هذا المثال) وأضِف أو استبدِل العُقد الحالية <committer> و<tagger> كما هو موضّح في الجدول التالي.

الإعداد	المَعلمة
`<committer> node`	`<committer class="com.norconex.committer.googlecloudsearch. GoogleCloudSearchCommitter">` مطلوب. لتفعيل المكوّن الإضافي، يجب إضافة عقدة `<committer>` كعنصر ثانوي للعقدة الجذر `<httpcollector>`.
`<UploadFormat>`	`<uploadFormat>raw</uploadFormat>` اختيارية. التنسيق الذي يرسل به مكوّن الفهرسة الإضافي محتوى المستند إلى واجهة برمجة التطبيقات الخاصة بمكوّن الفهرسة في Google Cloud Search. القيم الصالحة هي: `raw`: تدفع إضافة الفهرسة محتوى المستند الأصلي غير المحوّل. ‫`text`: يرسل مكوّن الفهرسة الإضافي المحتوى النصي المستخرَج. القيمة التلقائية هي `raw`.
`BinaryContent Tagger <tagger> node`	`<tagger class="com.norconex.committer.googlecloudsearch.BinaryContentTagger"/>` يجب إدراج هذه السمة إذا كانت قيمة `<UploadFormat>` هي `raw`. في هذه الحالة، يجب أن يكون حقل المحتوى الثنائي للمستند متاحًا لبرنامج الفهرسة الإضافي. يجب إضافة العقدة `BinaryContentTagger <tagger>` كعنصر ثانوي للعقدة `<importer> / <preParseHandlers>`.

يوضّح المثال التالي التعديل المطلوب على gcs-crawl-config.xml.

<committer class="com.norconex.committer.googlecloudsearch.GoogleCloudSearchCommitter">
    <configFilePath>/full/path/to/gcs-sdk-config.properties</configFilePath>
    
    <uploadFormat>raw</uploadFormat>
</committer>
<importer>
  <preParseHandlers>
    <tagger class="com.norconex.committer.googlecloudsearch.BinaryContentTagger"/>
  </preParseHandlers>
</importer>

الخطوة 4: ضبط الزحف إلى الويب

قبل بدء عملية الزحف على الويب، عليك ضبط إعدادات عملية الزحف بحيث تتضمّن فقط المعلومات التي تريد مؤسستك إتاحتها في نتائج البحث. تتضمّن أهم إعدادات الزحف على الويب <crawler>العُقد، ويمكن أن تشمل ما يلي:

عناوين URL للبدء
الحد الأقصى لعمق الزحف
عدد سلاسل المحادثات

غيِّر قيم الإعداد هذه وفقًا لاحتياجاتك. للحصول على معلومات أكثر تفصيلاً حول إعداد عملية زحف إلى الويب، بالإضافة إلى قائمة كاملة بمَعلمات الإعداد المتاحة، يُرجى الاطّلاع على صفحة الإعداد الخاصة بأداة جمع بيانات HTTP.

الخطوة 5: بدء الزحف إلى الويب وتحميل المحتوى

بعد تثبيت المكوّن الإضافي الخاص بالفهرسة وإعداده، يمكنك تشغيله بشكل مستقل في الوضع المحلي.

يفترض المثال التالي أنّ المكوّنات المطلوبة تقع في الدليل المحلي على نظام Linux. نفِّذ الأمر التالي:

$ ./collector-http[.bat|.sh] -a start -c gcs-crawl-config.xml

تتبُّع الزاحف باستخدام JEF Monitor

‫Norconex JEF Monitor هي أداة رسومية لمراقبة تقدّم عمليات ومهام Norconex Web Crawler (جامع HTTP). للحصول على برنامج تعليمي كامل حول كيفية إعداد هذه الأداة، انتقِل إلى مراقبة تقدّم الزاحف باستخدام JEF Monitor.

نشر المكوّن الإضافي لأداة Norconex HTTP Collector تنظيم صفحاتك في مجموعات يمكنك حفظ المحتوى وتصنيفه حسب إعداداتك المفضّلة.