Norconex HTTP Collector Indexer Eklentisi Dağıtma

Bu kılavuz, Google Cloud Search Norconex HTTP Collector dizin oluşturucu eklentisini indirmek, dağıtmak ve bakımını yapmakla sorumlu yöneticiler içindir. Linux, web tarama temelleri, XML ve Norconex HTTP Collector hakkında bilgi sahibi olmanız gerekir.

Bu kılavuzda aşağıdaki işlemlerle ilgili talimatlar yer almaktadır:

  • Dizin oluşturucu eklenti yazılımını indirin.
  • Cloud Search'ü yapılandırın.
  • Norconex HTTP Collector'ı ve web taramayı yapılandırın.
  • Web taramasına başlayın ve içerik yükleyin.

Google Workspace yöneticisinin gerçekleştirmesi gereken görevlerle ilgili bilgiler bu kılavuzda yer almaz. Bu görevler hakkında bilgi edinmek için Üçüncü taraf veri kaynaklarını yönetme başlıklı makaleyi inceleyin.

Norconex HTTP Collector indexer eklentisine genel bakış

Cloud Search, varsayılan olarak Google Dokümanlar ve Gmail gibi Google Workspace ürünlerindeki içerikleri keşfedebilir, dizine ekleyebilir ve sunabilir. Açık kaynaklı bir kurumsal web tarayıcısı olan Norconex HTTP Collector için dizin oluşturucu eklentisini dağıtarak bu kapsamı web içeriğini de içerecek şekilde genişletebilirsiniz.

Yapılandırma özellikleri dosyaları

Eklentinin içeriği tarayıp yüklemesini sağlamak için iki yapılandırma dosyasında belirli bilgileri sağlamanız gerekir:

  • {gcs-crawl-config.xml}: Norconex HTTP Collector'ın ayarları.
  • sdk-configuration.properties: Cloud Search ayarları.

Web'de gezinme ve içerik yükleme

Yapılandırma dosyalarını doldurduktan sonra web'i taramaya başlayabilirsiniz. Norconex HTTP Collector, web'i tarar ve orijinal ikili veya metin belgesi içeriğini Cloud Search Dizine Ekleme API'sine yükler.

Sistem gereksinimleri

  • İşletim sistemi: Yalnızca Linux.
  • Norconex sürümü: 2.8.0 sürümü.
  • Yazılım: Java JRE 1.8.

EKL desteği

Dizin oluşturucu eklentisi, Google Workspace alanındaki belgelere erişimi kontrol etmek için erişim kontrol listelerini (EKL'ler) destekler.

Eklenti yapılandırmasında varsayılan ACL'leri etkinleştirirseniz (defaultAcl.mode, none dışında bir değere ayarlanırsa) eklenti bu varsayılanları uygular. Aksi takdirde, eklenti tüm alan için okuma izni verir. Google tarafından sağlanan bağlayıcı parametreleri başlıklı makaleyi inceleyin.

Ön koşullar

Dizin oluşturucu eklentisini dağıtmadan önce şu bileşenleri toplayın:

Dağıtım adımları

  1. Norconex HTTP Collector ve eklenti yazılımını yükleme
  2. Cloud Search'ü yapılandırma
  3. Norconex HTTP Collector'ı yapılandırma
  4. Web taraması yapılandırma
  5. Web taraması ve içerik yükleme başlatma

1. adım: Norconex HTTP Collector'ı ve eklenti yazılımını yükleyin

  1. Norconex committer yazılımını Norconex indirme sayfasından indirin.
  2. Yazılımı ~/norconex/ konumuna çıkarın.
  3. Commiter eklentisini klonlayın:

    git clone https://github.com/google-cloudsearch/norconex-committer-plugin.git
    cd norconex-committer-plugin
    
  4. Seçtiğiniz sürümü inceleyin ve eklentiyi oluşturun:

    git checkout tags/v1-0.0.3
    mvn package
    

    Testleri atlamak için mvn package -DskipTests kullanın.

  5. JAR dosyasını Norconex lib dizinine kopyalayın:

    cp target/google-cloudsearch-norconex-committer-plugin-v1-0.0.3.jar ~/norconex/norconex-collector-http-VERSION/lib
    
  6. Oluşturulan ZIP dosyasını çıkarın:

    unzip target/google-cloudsearch-norconex-committer-plugin-v1-0.0.3.zip
    cd google-cloudsearch-norconex-committer-plugin-v1-0.0.3
    
  7. Yükleme komut dosyasını çalıştırın ve Norconex lib dizininin tam yolunu girin:

    sh install.sh
    

    Yinelenen dosyalar için istenirse 1 seçeneğini belirleyin.

2. adım: Cloud Search'ü yapılandırın

Norconex dizininde sdk-configuration.properties oluşturun. Dosyada şu parametreler belirtilmelidir:

Ayar Parametre
Veri kaynağı kimliği api.sourceId = 1234567890abcdef
Zorunlu. Google Workspace yöneticinizden aldığınız kaynak kimliği.
Hizmet hesabı api.serviceAccountPrivateKeyFile = ./PrivateKey.json
Zorunlu. Hizmet hesabı anahtar dosyası.

Örnek sdk-configuration.properties:

# data source access
api.sourceId=1234567890abcdef
api.serviceAccountPrivateKeyFile=./PrivateKey.json

Eklentinin verileri nasıl göndereceğini kontrol etmek için batch.* gibi parametreler de ekleyebilirsiniz. Google tarafından sağlanan bağlayıcı parametreleri başlıklı makaleyi inceleyin.

Meta verileri doldurmak için aşağıdaki isteğe bağlı parametreleri yapılandırın:

Ayar Parametre
Başlık itemMetadata.title.field=movieTitle
Şema nesne türü itemMetadata.objectType=movie

3. adım: Norconex HTTP Collector'ı yapılandırın

Eklenti, minimum-config.xml adlı bir örnek dosya içerir.

  1. Norconex dizinine geçin ve örneği kopyalayın:

    cd ~/norconex/norconex-collector-http-VERSION/
    cp examples/minimum/minimum-config.xml gcs-crawl-config.xml
    
  2. <committer> ve <tagger> düğümlerini eklemek veya değiştirmek için gcs-crawl-config.xml öğesini düzenleyin:

Ayar Parametre
<committer> düğümü <committer class="com.norconex.committer.googlecloudsearch.GoogleCloudSearchCommitter">
Zorunlu. Bunu <httpcollector> düğümünün altına ekleyin.
<uploadFormat> <uploadFormat>raw</uploadFormat>
İsteğe bağlıdır. raw veya text. Varsayılan değer: raw.

Örnek gcs-crawl-config.xml:

<committer class="com.norconex.committer.googlecloudsearch.GoogleCloudSearchCommitter">
    <configFilePath>/full/path/to/gcs-sdk-config.properties</configFilePath>
    <uploadFormat>raw</uploadFormat>
</committer>
<importer>
  <preParseHandlers>
    <tagger class="com.norconex.committer.googlecloudsearch.BinaryContentTagger"/>
  </preParseHandlers>
</importer>

4. adım: Web taramayı yapılandırın

Aşağıdakiler de dahil olmak üzere <crawler> düğümlerini ihtiyaçlarınıza göre yapılandırın:

  • Başlangıç URL'leri
  • Maksimum tarama derinliği
  • İleti dizisi sayısı

Norconex yapılandırma sayfasını inceleyin.

5. adım: Web taraması ve içerik yükleme başlatma

Toplayıcıyı yerel modda çalıştırın:

./collector-http[.bat|.sh] -a start -c gcs-crawl-config.xml

JEF Monitor ile tarayıcıyı izleme

Norconex JEF (Job Execution Framework) Monitor, ilerleme durumuyla ilgili grafik görünüm sağlar. JEF Monitor ile tarayıcınızı izleme başlıklı makaleyi inceleyin.