هذا الدليل موجّه إلى مشرفي إضافة الفهرسة في Google Cloud Search Norconex HTTP Collector، أي أي شخص مسؤول عن تنزيل إضافة الفهرسة ونشرها وإعدادها وصيانتها. يفترض هذا الدليل أنّك على دراية بأنظمة التشغيل Linux وأساسيات الزحف إلى الويب وXML وNorconex HTTP Collector.
يتضمّن هذا الدليل تعليمات حول تنفيذ المهام الرئيسية المتعلّقة بنشر إضافة الفهرسة:
- تنزيل برنامج المكوّن الإضافي الخاص بالفهرسة
- إعداد Google Cloud Search
- ضبط Norconex HTTP Collector والزحف على الويب
- بدء الزحف إلى الويب وتحميل المحتوى
لا تتضمّن هذه الدليل معلومات حول المهام التي يجب أن ينفّذها مشرف Google Workspace لربط Google Cloud Search ببرنامج Norconex HTTP Collector الإضافي للفهرسة. للحصول على معلومات حول هذه المهام، يُرجى الاطّلاع على مقالة إدارة مصادر البيانات التابعة لجهات خارجية.
نظرة عامة على مكوّن الفهرسة الإضافي Norconex HTTP Collector في Cloud Search
بشكلٍ تلقائي، يمكن لخدمة Cloud Search اكتشاف المحتوى وفهرسته وعرضه من منتجات Google Workspace، مثل "مستندات Google" وGmail. يمكنك توسيع نطاق وصول Google Cloud Search ليشمل عرض محتوى الويب للمستخدمين من خلال نشر المكوّن الإضافي الخاص بالفهرسة في Norconex HTTP Collector، وهو زاحف ويب مفتوح المصدر خاص بالمؤسسات.
ملفات خصائص الإعداد
لتفعيل المكوّن الإضافي الخاص بالفهرسة كي يتمكّن من إجراء عمليات الزحف إلى الويب وتحميل المحتوى إلى Indexing API، عليك بصفتك مشرف المكوّن الإضافي الخاص بالفهرسة تقديم معلومات محدّدة أثناء خطوات الإعداد الموضّحة في هذا المستند ضمن خطوات النشر.
لاستخدام مكوّن indexer الإضافي، يجب ضبط الخصائص في ملفَي إعداد:
{gcs-crawl-config.xml}
-- يحتوي على إعدادات Norconex HTTP Collector.sdk-configuration.properties
-- يحتوي على إعدادات Google Cloud Search.
تتيح الخصائص في كل ملف لبرنامج Google Cloud Search الإضافي الخاص بالفهرسة وNorconex HTTP Collector التواصل مع بعضهما.
الزحف إلى الويب وتحميل المحتوى
بعد ملء ملفات الإعداد، ستتوفّر لديك الإعدادات اللازمة لبدء عملية الزحف إلى الويب. يزحف Norconex HTTP Collector إلى الويب، ويكتشف محتوى المستندات المرتبط بإعداداته، ويحمّل النسخ الثنائية الأصلية (أو النصية) من محتوى المستندات إلى واجهة برمجة التطبيقات للفهرسة في Cloud Search حيث تتم فهرسته وعرضه في النهاية للمستخدمين.
نظام التشغيل المتوافق
يجب تثبيت المكوّن الإضافي لفهرسة Google Cloud Search Norconex HTTP Collector على نظام التشغيل Linux.
إصدار Norconex HTTP Collector المتوافق
يتوافق مكوّن الفهرسة الإضافي Norconex HTTP Collector في Google Cloud Search مع الإصدار 2.8.0.
دعم قوائم ACL
يتيح مكوّن الفهرسة الإضافي التحكّم في إمكانية الوصول إلى المستندات في نطاق Google Workspace باستخدام قوائم التحكّم بالوصول (ACL).
في حال تفعيل قوائم التحكّم بالوصول التلقائية في إعدادات المكوّن الإضافي Google Cloud Search
(defaultAcl.mode
تم ضبطه على قيمة أخرى غير none
وتم إعداده باستخدام defaultAcl.*
)،
يحاول المكوّن الإضافي للفهرسة أولاً إنشاء قائمة تحكّم بالوصول تلقائية وتطبيقها.
في حال عدم تفعيل قوائم التحكّم بالوصول التلقائية، سيعود المكوّن الإضافي إلى منح إذن القراءة لنطاق Google Workspace بأكمله.
للحصول على أوصاف تفصيلية لمعلَمات إعداد قائمة التحكّم بالوصول، يُرجى الاطّلاع على معلَمات الموصل التي توفّرها Google.
المتطلبات الأساسية
قبل نشر مكوّن إضافي للفهرسة، تأكَّد من توفّر المكوّنات المطلوبة التالية:
- تثبيت Java JRE 1.8 على جهاز كمبيوتر يشغّل المكوّن الإضافي للفهرسة
معلومات Google Workspace المطلوبة لإنشاء علاقات بين Cloud Search وNorconex HTTP Collector:
- مفتاح Google Workspace الخاص (الذي يحتوي على معرّف حساب الخدمة)
- معرّف مصدر بيانات Google Workspace
في العادة، يمكن لمشرف Google Workspace للنطاق تقديم بيانات الاعتماد هذه لك.
خطوات النشر
لتفعيل إضافة الفهرسة، اتّبِع الخطوات التالية:
- تثبيت Norconex HTTP Collector وبرنامج المكوّن الإضافي للفهرسة
- ضبط Google Cloud Search
- ضبط Norconex HTTP Collector
- ضبط الزحف على الويب
- بدء عملية الزحف إلى الويب وتحميل المحتوى
الخطوة 1: تثبيت Norconex HTTP Collector وبرنامج المكوّن الإضافي للفهرسة
- نزِّل برنامج Norconex commiter من هذه الصفحة.
- فك ضغط البرنامج الذي تم تنزيله إلى المجلد
~/norconex/
- استنسِخ إضافة commiter من GitHub.
git clone https://github.com/google-cloudsearch/norconex-committer-plugin.git
وcd norconex-committer-plugin
- تحقَّق من الإصدار المطلوب من المكوّن الإضافي commiter وأنشئ ملف ZIP:
git checkout tags/v1-0.0.3
وmvn package
(لتخطّي الاختبارات عند إنشاء الموصل، استخدِمmvn package -DskipTests
). cd target
- انسخ ملف jar الخاص بالإضافة الذي تم إنشاؤه إلى دليل lib الخاص بـ Norconex.
cp google-cloudsearch-norconex-committer-plugin-v1-0.0.3.jar ~/norconex/norconex-collector-http-{version}/lib
- استخرِج ملف ZIP الذي أنشأته للتو ثم فكّ ضغط الملف:
unzip google-cloudsearch-norconex-committer-plugin-v1-0.0.3.zip
- نفِّذ نص التثبيت البرمجي لنسخ ملف JAR الخاص بالمكوّن الإضافي وجميع المكتبات المطلوبة إلى دليل أداة جمع بيانات http:
- غيِّر إلى المكوّن الإضافي المستخرَج الذي تم فك ضغطه أعلاه:
cd google-cloudsearch-norconex-committer-plugin-v1-0.0.3
- نفِّذ الأمر
$ sh install.sh
وقدِّم المسار الكامل إلىnorconex/norconex-collector-http-{version}/lib
كدليل الاستهداف عند المطالبة بذلك. - في حال العثور على ملفات jar مكرّرة، اختَر الخيار
1
(نسخ ملف Jar المصدر فقط إذا كان الإصدار أكبر من إصدار ملف Jar المستهدف أو يساويه بعد إعادة تسمية ملف Jar المستهدف).
- غيِّر إلى المكوّن الإضافي المستخرَج الذي تم فك ضغطه أعلاه:
الخطوة 2: ضبط Google Cloud Search
لكي يتمكّن المكوّن الإضافي للفهرسة من الاتصال ببرنامج Norconex HTTP Collector وفهرسة المحتوى ذي الصلة، عليك إنشاء ملف الإعدادات في Cloud Search في دليل Norconex الذي تم تثبيت برنامج Norconex HTTP Collector فيه. تنصح Google بتسمية ملف إعداد Cloud Search sdk-configuration.properties
.
يجب أن يحتوي ملف الإعداد هذا على أزواج المفاتيح والقيم التي تحدّد مَعلمة. يجب أن يحدّد ملف الإعداد المَعلمات التالية على الأقل، وهي المَعلمات اللازمة للوصول إلى مصدر بيانات Cloud Search.
الإعداد | المَعلمة |
مُعرّف مصدر البيانات | api.sourceId = 1234567890abcdef
مطلوب. معرّف مصدر Cloud Search الذي أعدّه مشرف Google Workspace |
حساب الخدمة | api.serviceAccountPrivateKeyFile = ./PrivateKey.json
مطلوب. ملف مفتاح حساب خدمة Cloud Search الذي أنشأه مشرف Google Workspace لتوفير إمكانية الوصول إلى إضافة الفهرسة |
يعرض المثال التالي sdk-configuration.properties
ملفًا.
#
# data source access
api.sourceId=1234567890abcdef
api.serviceAccountPrivateKeyFile=./PrivateKey.json
#
يمكن أن يحتوي ملف الإعداد أيضًا على مَعلمات إعداد مقدَّمة من Google.
يمكن أن تؤثّر هذه المَعلمات في طريقة إرسال هذه الإضافة للبيانات إلى واجهة برمجة تطبيقات Google Cloud Search. على سبيل المثال، تحدّد batch.*
مجموعة المَعلمات
كيفية دمج الموصل للطلبات.
في حال عدم تحديد مَعلمة في ملف الإعداد، يتم استخدام القيمة التلقائية، إذا كانت متاحة. للحصول على أوصاف تفصيلية لكل مَعلمة، اطّلِع على مَعلمات الموصل التي توفّرها Google.
يمكنك ضبط مكوّن الفهرسة الإضافي لملء البيانات الوصفية والبيانات المنظَّمة الخاصة بالمحتوى الذي تتم فهرسته. يمكن استخراج القيم التي سيتم ملؤها في حقول البيانات الوصفية والبيانات المنظَّمة من العلامات الوصفية في محتوى HTML الذي تتم فهرسته، أو يمكن تحديد القيم التلقائية في ملف الإعداد.
الإعداد | المعلَمة |
العنوان | itemMetadata.title.field=movieTitle
itemMetadata.title.defaultValue=Gone with the Wind
بشكلٍ تلقائي، تستخدم الإضافة HTML title كعنوان للمستند الذي تتم فهرسته. في حال عدم توفّر العنوان، يمكنك الرجوع إلى سمة البيانات الوصفية التي تحتوي على القيمة المقابلة لعنوان المستند أو ضبط قيمة تلقائية.
|
الطابع الزمني للإنشاء | itemMetadata.createTime.field=releaseDate
itemMetadata.createTime.defaultValue=1940-01-17
سمة البيانات الوصفية التي تحتوي على قيمة الطابع الزمني لإنشاء المستند. |
وقت آخر تعديل | itemMetadata.updateTime.field=releaseDate
itemMetadata.updateTime.defaultValue=1940-01-17
سمة البيانات الوصفية التي تحتوي على قيمة الطابع الزمني لآخر تعديل على المستند. |
لغة المستند | itemMetadata.contentLanguage.field=languageCode
itemMetadata.contentLanguage.defaultValue=en-US
تمثّل هذه السمة لغة المحتوى للمستندات التي تتم فهرستها. |
نوع عنصر المخطط | itemMetadata.objectType=movie
نوع العنصر الذي يستخدمه الموقع الإلكتروني، كما هو محدّد في تعريفات عناصر مخطط مصدر البيانات لن يفهرس الموصل أي بيانات منظَّمة إذا لم يتم تحديد هذه السمة.
ملاحظة: يشير عنصر الإعداد هذا إلى قيمة بدلاً من سمة بيانات وصفية، ولا يُسمح باستخدام اللاحقتَين |
تنسيقات التاريخ والوقت
تحدّد تنسيقات التاريخ والوقت التنسيقات المتوقّعة في سمات البيانات الوصفية. إذا لم يكن ملف الإعدادات يحتوي على هذه المَعلمة، سيتم استخدام القيم التلقائية. يعرض الجدول التالي هذه المَعلمة.
الإعداد
المعلَمة
أنماط إضافية للتاريخ والوقت
structuredData.dateTimePatterns=MM/dd/uuuu HH:mm:ssXXX
قائمة مفصولة بفواصل منقوطة تتضمّن أنماطًا إضافية من java.time.format.DateTimeFormatter. يتم استخدام الأنماط عند تحليل قيم السلسلة لأي حقول تاريخ أو تاريخ ووقت في البيانات الوصفية أو المخطط. القيمة التلقائية هي قائمة فارغة، ولكن يتم دائمًا توفير تنسيقات RFC 3339 وRFC 1123.
الخطوة 3: ضبط Norconex HTTP Collector
يتضمّن أرشيف zip norconex-committer-google-cloud-search-{version}.zip
ملف إعداد نموذجيًا، minimum-config.xml
.
تنصح Google ببدء عملية الإعداد من خلال نسخ ملف النموذج:
- غيِّر إلى دليل Norconex HTTP Collector:
$ cd ~/norconex/norconex-collector-http-{version}/
- انسخ ملف الإعداد:
$ cp examples/minimum/minimum-config.xml gcs-crawl-config.xml
- عدِّل الملف الذي تم إنشاؤه حديثًا (
gcs-crawl-config.xml
في هذا المثال) وأضِف أو استبدِل العُقد الحالية<committer>
و<tagger>
كما هو موضّح في الجدول التالي.
الإعداد | المَعلمة |
<committer> node
|
<committer class="com.norconex.committer.googlecloudsearch.
GoogleCloudSearchCommitter">
مطلوب. لتفعيل المكوّن الإضافي، يجب إضافة عقدة <committer> كعنصر ثانوي للعقدة الجذر <httpcollector> .
|
<UploadFormat>
|
<uploadFormat>raw</uploadFormat>
اختياري. التنسيق الذي يرسل به مكوّن الفهرسة الإضافي محتوى المستند إلى واجهة برمجة التطبيقات الخاصة بمكوّن الفهرسة في Google Cloud Search. القيم الصالحة هي:
القيمة التلقائية هي raw .
|
BinaryContent Tagger <tagger> node
|
<tagger class="com.norconex.committer.googlecloudsearch.BinaryContentTagger"/>
يجب إدراج هذه السمة إذا كانت قيمة <UploadFormat> هي raw . في هذه الحالة، يجب أن يكون حقل المحتوى الثنائي للمستند متاحًا لبرنامج الفهرسة الإضافي.
يجب إضافة العقدة BinaryContentTagger <tagger> كعنصر ثانوي للعقدة <importer> / <preParseHandlers> .
|
يوضّح المثال التالي التعديل المطلوب على
gcs-crawl-config.xml
.
<committer class="com.norconex.committer.googlecloudsearch.GoogleCloudSearchCommitter">
<configFilePath>/full/path/to/gcs-sdk-config.properties</configFilePath>
<uploadFormat>raw</uploadFormat>
</committer>
<importer>
<preParseHandlers>
<tagger class="com.norconex.committer.googlecloudsearch.BinaryContentTagger"/>
</preParseHandlers>
</importer>
الخطوة 4: ضبط الزحف إلى الويب
قبل بدء عملية الزحف على الويب، عليك ضبط عملية الزحف بحيث تتضمّن فقط المعلومات التي تريد مؤسستك إتاحتها في نتائج البحث. تتضمّن أهم إعدادات الزحف إلى الويب <crawler>
العُقد، ويمكن أن تشمل ما يلي:
- عناوين URL للبدء
- الحدّ الأقصى لعمق الزحف
- عدد سلاسل المحادثات
غيِّر قيم الإعدادات هذه وفقًا لاحتياجاتك. للحصول على معلومات أكثر تفصيلاً حول إعداد عملية الزحف إلى الويب، بالإضافة إلى قائمة كاملة بمَعلمات الإعداد المتاحة، يُرجى الاطّلاع على صفحة الإعداد الخاصة بأداة HTTP Collector.
الخطوة 5: بدء الزحف إلى الويب وتحميل المحتوى
بعد تثبيت المكوّن الإضافي الخاص بالفهرسة وإعداده، يمكنك تشغيله بشكل مستقل في الوضع المحلي.
يفترض المثال التالي أنّ المكوّنات المطلوبة متوفّرة في الدليل المحلي على نظام Linux. نفِّذ الأمر التالي:
$ ./collector-http[.bat|.sh] -a start -c gcs-crawl-config.xml
تتبُّع الزاحف باستخدام JEF Monitor
Norconex JEF Monitor هي أداة رسومية لتتبُّع تقدّم عمليات ووظائف Norconex Web Crawler (جامع HTTP). للحصول على برنامج تعليمي كامل حول كيفية إعداد هذه الأداة، انتقِل إلى مراقبة تقدّم الزاحف باستخدام JEF Monitor.