پلاگین Norconex HTTP Collector Indexer را نصب کنید

این راهنما برای مدیرانی است که مسئول دانلود، استقرار و نگهداری افزونه نمایه‌ساز Google Cloud Search Norconex HTTP Collector هستند. شما باید با لینوکس، اصول خزش وب، XML و Norconex HTTP Collector آشنا باشید.

این راهنما شامل دستورالعمل‌هایی برای موارد زیر است:

  • نرم‌افزار افزونه‌ی ایندکسِر را دانلود کنید.
  • جستجوی ابری را پیکربندی کنید.
  • پیکربندی Norconex HTTP Collector و خزش وب.
  • خزش وب را شروع کنید و محتوا را بارگذاری کنید.

اطلاعات مربوط به وظایفی که مدیر Google Workspace باید انجام دهد در این راهنما وجود ندارد. برای اطلاعات مربوط به این وظایف، به مدیریت منابع داده شخص ثالث مراجعه کنید.

مروری بر افزونه شاخص‌گذار Norconex HTTP Collector

به طور پیش‌فرض، Cloud Search می‌تواند محتوا را از محصولات Google Workspace مانند Google Docs و Gmail کشف، فهرست‌بندی و ارائه دهد. شما می‌توانید با استفاده از افزونه فهرست‌ساز برای Norconex HTTP Collector ، یک خزنده وب سازمانی متن‌باز، این قابلیت را به محتوای وب نیز گسترش دهید.

فایل‌های ویژگی‌های پیکربندی

برای فعال کردن افزونه برای خزیدن و بارگذاری محتوا، باید اطلاعات خاصی را در دو فایل پیکربندی ارائه دهید:

  • {gcs-crawl-config.xml} : تنظیمات مربوط به Norconex HTTP Collector.
  • sdk-configuration.properties : تنظیمات مربوط به جستجوی ابری.

خزش وب و آپلود محتوا

پس از پر کردن فایل‌های پیکربندی، می‌توانید خزش وب را شروع کنید . Norconex HTTP Collector وب را خزش می‌کند و محتوای اصلی سند باینری یا متنی را در API نمایه‌سازی Cloud Search بارگذاری می‌کند.

الزامات سیستم

  • سیستم عامل : فقط لینوکس
  • نسخه نورکانکس : نسخه ۲.۸.۰.
  • نرم‌افزار : جاوا JRE 1.8

پشتیبانی از ACL

افزونه ایندکس‌کننده از فهرست‌های کنترل دسترسی (ACL) برای کنترل دسترسی به اسناد در دامنه Google Workspace پشتیبانی می‌کند.

اگر ACL های پیش‌فرض را در پیکربندی افزونه فعال کنید ( defaultAcl.mode روی غیر از none تنظیم شود)، افزونه این پیش‌فرض‌ها را اعمال می‌کند. در غیر این صورت، افزونه مجوز خواندن را به کل دامنه اعطا می‌کند. به پارامترهای اتصال ارائه شده توسط گوگل مراجعه کنید.

پیش‌نیازها

قبل از اینکه افزونه‌ی ایندکسِر را مستقر کنید، این اجزا را جمع‌آوری کنید:

مراحل استقرار

  1. Norconex HTTP Collector و نرم‌افزار افزونه را نصب کنید.
  2. پیکربندی جستجوی ابری
  3. پیکربندی Norconex HTTP Collector
  4. پیکربندی خزش وب
  5. شروع خزش وب و آپلود محتوا

مرحله 1: Norconex HTTP Collector و نرم‌افزار افزونه را نصب کنید

  1. نرم‌افزار کامیتر Norconex را از صفحه دانلود Norconex دانلود کنید.
  2. نرم‌افزار را در ~/norconex/ استخراج کنید.
  3. افزونه‌ی کامیتِر را کلون کنید:

    git clone https://github.com/google-cloudsearch/norconex-committer-plugin.git
    cd norconex-committer-plugin
    
  4. نسخه انتخابی خود را بررسی کنید و افزونه را بسازید:

    git checkout tags/v1-0.0.3
    mvn package
    

    برای رد کردن تست‌ها، از mvn package -DskipTests استفاده کنید.

  5. فایل JAR را در دایرکتوری Norconex lib کپی کنید:

    cp target/google-cloudsearch-norconex-committer-plugin-v1-0.0.3.jar ~/norconex/norconex-collector-http-VERSION/lib
    
  6. فایل زیپ ساخته شده را استخراج کنید:

    unzip target/google-cloudsearch-norconex-committer-plugin-v1-0.0.3.zip
    cd google-cloudsearch-norconex-committer-plugin-v1-0.0.3
    
  7. اسکریپت نصب را اجرا کنید و مسیر کامل دایرکتوری Norconex lib را ارائه دهید:

    sh install.sh
    

    اگر از شما در مورد فایل‌های تکراری سوال شد، گزینه 1 را انتخاب کنید.

مرحله ۲: پیکربندی جستجوی ابری

sdk-configuration.properties را در دایرکتوری Norconex ایجاد کنید. این فایل باید پارامترهای زیر را مشخص کند:

تنظیم پارامتر
شناسه منبع داده api.sourceId = 1234567890abcdef
الزامی. شناسه منبع از طرف مدیر Google Workspace شما.
حساب کاربری خدمات api.serviceAccountPrivateKeyFile = ./PrivateKey.json
الزامی. فایل کلید حساب سرویس.

مثال sdk-configuration.properties :

# data source access
api.sourceId=1234567890abcdef
api.serviceAccountPrivateKeyFile=./PrivateKey.json

همچنین می‌توانید پارامترهایی مانند batch.* را برای کنترل نحوه‌ی ارسال داده‌ها توسط افزونه وارد کنید. به پارامترهای اتصال ارائه شده توسط گوگل مراجعه کنید.

برای پر کردن متادیتا، این پارامترهای اختیاری را پیکربندی کنید:

تنظیم پارامتر
عنوان itemMetadata.title.field= movieTitle
نوع شیء طرحواره itemMetadata.objectType= movie

مرحله 3: پیکربندی Norconex HTTP Collector

این افزونه شامل یک فایل نمونه minimum-config.xml است.

  1. به دایرکتوری Norconex بروید و نمونه را کپی کنید:

    cd ~/norconex/norconex-collector-http-VERSION/
    cp examples/minimum/minimum-config.xml gcs-crawl-config.xml
    
  2. برای افزودن یا جایگزینی گره‌های <committer> و <tagger> ، gcs-crawl-config.xml را ویرایش کنید:

تنظیم پارامتر
گره <committer> <committer class="com.norconex.committer.googlecloudsearch.GoogleCloudSearchCommitter">
الزامی است. این را زیر گره <httpcollector> اضافه کنید.
<uploadFormat> <uploadFormat>raw</uploadFormat>
اختیاری. raw یا text . پیش‌فرض raw است.

مثال gcs-crawl-config.xml :

<committer class="com.norconex.committer.googlecloudsearch.GoogleCloudSearchCommitter">
    <configFilePath>/full/path/to/gcs-sdk-config.properties</configFilePath>
    <uploadFormat>raw</uploadFormat>
</committer>
<importer>
  <preParseHandlers>
    <tagger class="com.norconex.committer.googlecloudsearch.BinaryContentTagger"/>
  </preParseHandlers>
</importer>

مرحله ۴: پیکربندی خزش وب

گره‌های <crawler> را برای نیازهای خود پیکربندی کنید، از جمله:

  • آدرس‌های اینترنتی (URL) را شروع کنید
  • حداکثر عمق خزش
  • تعداد نخ‌ها

به صفحه پیکربندی Norconex مراجعه کنید.

مرحله ۵: شروع خزش وب و آپلود محتوا

کلکتور را در حالت محلی اجرا کنید:

./collector-http[.bat|.sh] -a start -c gcs-crawl-config.xml

خزنده را با JEF Monitor رصد کنید

مانیتور Norconex JEF (چارچوب اجرای کار) یک نمای گرافیکی از پیشرفت ارائه می‌دهد. به بخش Monitor your crawler with JEF Monitor مراجعه کنید.