Norconex HTTP Collector Indexer Eklentisi Dağıtma

Bu kılavuz, Google Cloud Search Norconex HTTP Toplayıcı dizinleyicisi için hazırlanmıştır. eklenti yöneticileri, yani indirme işleminden sorumlu herkes, dizinleyici eklentisini dağıtma, yapılandırma ve sürdürme. Kılavuzda Linux işletim sistemleri, web'in temelleri tarama, XML ve Norconex HTTP Toplayıcısı.

Bu kılavuz, dizinleyiciyle ilgili temel görevlerin gerçekleştirilmesi için gereken talimatları içerir. eklenti dağıtımı:

  • Dizine ekleme eklentisi yazılımını indirin
  • Google Cloud Search'ü yapılandırma
  • Norconex HTTP Collector'ı ve web taramasını yapılandırma
  • Web taramasını başlatma ve içerik yükleme

Google Workspace yöneticisinin yapması gereken görevler hakkında bilgi Google Cloud Search'ü Norconex HTTP Collector dizinleyici eklentisiyle eşlemek için gerçekleştirilmesi bu kılavuzda yer almıyor. Bu görevlerle ilgili bilgi için Üçüncü taraf veri kaynaklarını yönetin.

Cloud Search Norconex HTTP Collector dizinleyici eklentisine genel bakış

Varsayılan olarak, Cloud Search aşağıdaki kaynaklardan gelen içerikleri keşfedebilir, dizine ekleyebilir ve sunabilir Google Dokümanlar ve Gmail gibi Google Workspace ürünleri. Süreyi uzatmak Google Cloud Search'ün erişim kapsamını genişletmeyi sağlayan için dizinleyici eklentisini dağıtma Norconex HTTP Toplayıcısı, web tarayıcısıdır.

Yapılandırma özelliği dosyaları

Dizine ekleme eklentisinin web'de tarama yapmasını ve siz, dizine ekleme eklentisi yöneticisi olarak, dizine ekleme için bu dokümanda açıklanan yapılandırma adımlarında yer alan tüm bilgileri Dağıtım adımları.

Dizine dönüştürücü eklentisini kullanmak için özellikleri iki yapılandırma dosyasında ayarlamanız gerekir:

  • {gcs-crawl-config.xml}-- Norconex HTTP Collector ayarlarını içerir.
  • sdk-configuration.properties, Google Cloud Search ayarlarını içerir.

Her dosyadaki özellikler, Google Cloud Search dizinleyici eklentisini etkinleştirir ve Birbirleriyle iletişim kurmak için Norconex HTTP Collector.

Web taraması ve içerik yükleme

Yapılandırma dosyalarını doldurduktan sonra, web taramasını başlatmak için gerekli ayarları yapın. Norconex HTTP Collector taramaları yapılandırmaya ilişkin doküman içeriğini keşfederek Bulut'a belge içeriğinin orijinal ikili (veya metin) sürümlerini yükler Dizine eklenip kullanıcılarınıza sunulduğu Search Indexing API'si.

Desteklenen işletim sistemi

Google Cloud Search Norconex HTTP Toplayıcı dizinleyici eklentisi yüklü olmalıdır. tıklayın.

Desteklenen Norconex HTTP Collector sürümü

Google Cloud Search Norconex HTTP Toplayıcı dizinleyici eklentisi, sürümü destekler. 2.8.0.

EKL desteği

Dizine ekleme eklentisi, dizindeki dokümanlara erişimin kontrol edilmesini destekler. Erişim Kontrol Listeleri'ni (EKL'ler) kullanarak Google Workspace alanınız.

Google Cloud Search eklentisi yapılandırmasında varsayılan EKL'ler etkinleştirildiyse (defaultAcl.mode, none dışında bir değere ayarlandı ve defaultAcl.* ile yapılandırıldı), dizinleyici eklentisi önce varsayılan bir EKL oluşturmayı ve uygulamayı dener.

Varsayılan EKL'ler etkinleştirilmezse eklenti tekrar okuma izni verir. Google Workspace alanının tamamında kullanmaya devam edebilir.

EKL yapılandırma parametrelerinin ayrıntılı açıklamaları için Google'ın sağladığı bağlayıcı parametreleri.

Ön koşullar

Dizine ekleme eklentisini dağıtmadan önce aşağıdakilerin geçerli olduğundan emin olun: gereken bileşenler:

  • Dizine ekleme eklentisini çalıştıran bir bilgisayarda yüklü Java JRE 1.8
  • Google Workspace ve Google Cloud Cloud Search ve Norconex HTTP Collector:

    Genellikle, bu bilgileri alanın Google Workspace yöneticisi sağlayabilir sahip olacaksınız.

Dağıtım adımları

Dizine ekleme eklentisini dağıtmak için şu adımları uygulayın:

  1. Norconex HTTP Collector'ı ve dizinleyici eklenti yazılımını yükleme
  2. Google Cloud Search'ü yapılandırma
  3. Norconex HTTP Collector'ı yapılandırma
  4. Web taramasını yapılandırma
  5. Web taraması ve içerik yükleme

1. Adım: Norconex HTTP Collector'ı ve dizinleyici eklenti yazılımını yükleyin

  1. Norconex Comperer yazılımını şuradan indirin: bu sayfada bulabilirsiniz.
  2. İndirilen yazılımı ~/norconex/ klasörüne çıkartın.
  3. GitHub'dan işleyici eklentisini klonlayın. git clone https://github.com/google-cloudsearch/norconex-committer-plugin.git ve ardından cd norconex-committer-plugin
  4. Komer eklentisinde istediğiniz sürümü kontrol edin ve ZIP dosyasını oluşturun: git checkout tags/v1-0.0.3 ve mvn package (Derleme sırasında testleri atlamak için) bağlayıcısı yerine mvn package -DskipTests kullanın.)
  5. cd target
  6. Derlenen eklenti jar dosyasını norconex lib dizinine kopyalayın. cp google-cloudsearch-norconex-committer-plugin-v1-0.0.3.jar ~/norconex/norconex-collector-http-{version}/lib.
  7. Az önce oluşturduğunuz ZIP dosyasını çıkarın ve sıkıştırılmış dosyayı açın: unzip google-cloudsearch-norconex-committer-plugin-v1-0.0.3.zip
  8. Eklentinin .jar dosyasını ve gereken tüm dosyaları kopyalamak için yükleme komut dosyasını yürütün kitaplıklarını http toplayıcının dizinine ekleyin:
    1. Yukarıdan sıkıştırılmış dosyadan çıkarılan ayıklayıcı eklentisine geçin: cd google-cloudsearch-norconex-committer-plugin-v1-0.0.3
    2. $ sh install.sh komutunu yürütün ve içeriğe tam yolu sağlayın: Hedef olarak norconex/norconex-collector-http-{version}/lib dizini görünür.
    3. Yinelenen jar dosyaları bulunursa 1 (Yalnızca kaynak Jar dosyasını kopyala) seçeneğini belirleyin (hedef Jar yeniden adlandırıldıktan sonra hedef Jar ile aynı sürümden daha büyük veya aynı sürüm).

2. Adım: Google Cloud Search'ü yapılandırın

Dizine ekleme eklentisinin Norconex HTTP Collector'a bağlanması ve Cloud Search yapılandırma dosyasını Norconex HTTP Collector'ın yüklü olduğu Norconex dizini. Google'ın önerisi Cloud Search yapılandırma dosyasını sdk-configuration.properties

Bu yapılandırma dosyası, bir parametreyi tanımlayan anahtar/değer çiftlerini içermelidir. Yapılandırma dosyası, en azından şu parametreleri belirtmelidir: Cloud Search veri kaynağına erişmek için gereklidir.

Yer Parametre
Veri kaynağı kimliği api.sourceId = 1234567890abcdef
Zorunlu. Google Workspace yöneticisi tarafından oluşturulan Cloud Search kaynak kimliği.
Hizmet hesabı api.serviceAccountPrivateKeyFile = ./PrivateKey.json
Zorunlu. Dizine dönüştürücü eklentisi erişilebilirliği için Google Workspace yöneticisi tarafından oluşturulan Cloud Search hizmet hesabı anahtar dosyası.

Aşağıdaki örnekte bir sdk-configuration.properties dosyası gösterilmektedir.

#
# data source access
api.sourceId=1234567890abcdef
api.serviceAccountPrivateKeyFile=./PrivateKey.json
#

Yapılandırma dosyası, Google tarafından sağlanan yapılandırma parametrelerini de içerebilir. Bu parametreler, bu eklentinin Google Cloud Search API'ye veri aktarma şeklini etkileyebilir. Örneğin, batch.* parametre grubu bağlayıcının istekleri nasıl birleştirdiğini tanımlar.

Yapılandırma dosyasında bir parametre tanımlamazsanız varsayılan değer olan varsa kullanılır. Her bir parametrenin ayrıntılı açıklamaları için Google'ın sağladığı bağlayıcı parametreleri.

Dizine ekleme eklentisini yapılandırarak dizine eklenir. Meta veri ve yapılandırılmış veriler için doldurulacak değerler alanlar, dizine eklenmek üzere HTML içeriğindeki meta etiketlerden çıkarılabilir veya yapılandırma dosyasında varsayılan değerler belirtilebilir.

Ayar Parametre
Başlık itemMetadata.title.field=movieTitle
itemMetadata.title.defaultValue=Gone with the Wind
Varsayılan olarak, eklenti dizine eklenen dokümanın başlığı olarak HTML title değerini kullanır. Eksik başlık olması durumunda doküman başlığına karşılık gelen değeri içeren meta veri özelliği veya varsayılan bir değer belirleyin.
Oluşturma zaman damgası itemMetadata.createTime.field=releaseDate
itemMetadata.createTime.defaultValue=1940-01-17
Doküman oluşturma zaman damgası değerini içeren meta veri özelliği.
Son değiştirilme zamanı itemMetadata.updateTime.field=releaseDate
itemMetadata.updateTime.defaultValue=1940-01-17
Dokümanın son değiştirme zaman damgasının değerini içeren meta veri özelliği.
Belge dili itemMetadata.contentLanguage.field=languageCode
itemMetadata.contentLanguage.defaultValue=en-US
Dizine eklenen dokümanların içerik dili.
Şema nesnesi türü itemMetadata.objectType=movie
Aşağıda tanımlandığı şekilde, site tarafından kullanılan nesne türü veri kaynağı şeması nesne tanımlarını inceleyin. Bağlayıcı, hiçbir öğeyi yapılandırılmış verileri içeren Google Analytics 4'te veri sağlar.

Not: Bu yapılandırma özelliği, bir meta veri özelliğinden ve .field ve .defaultValue sonekleri desteklenmiyor.

Tarih ve saat biçimleri

Tarih ve saat biçimleri, meta veri özelliklerinde beklenen biçimleri belirtir. Yapılandırma dosyası bu parametreyi içermiyorsa varsayılan değerler kullanılır. Aşağıdaki tabloda bu parametre gösterilmektedir.

Ayar

Parametre

Ek tarih ve saat kalıpları

structuredData.dateTimePatterns=MM/dd/uuuu HH:mm:ssXXX

Ek java.time.format.DateTimeFormatter öğesinin noktalı virgülle ayrılmış listesi belirler. Kalıplar, herhangi bir tarih veya tarih/saat için dize değerleri ayrıştırılırken kullanılır. alanları için de uygun değildir. Varsayılan değer boş bir listedir. ancak RFC 3339 ve RFC 1123 biçimleri her zaman desteklenir.

3. Adım: Norconex HTTP Toplayıcıyı yapılandırın

norconex-committer-google-cloud-search-{version}.zip zip arşivi bir örnek yapılandırma dosyası, minimum-config.xml.

Google, örnek dosyayı kopyalayarak yapılandırmaya başlamanızı önerir:

  1. Norconex HTTP Collector dizinine geçin:
    $ cd ~/norconex/norconex-collector-http-{version}/
  2. Yapılandırma dosyasını kopyalayın:
    $ cp examples/minimum/minimum-config.xml gcs-crawl-config.xml
  3. Yeni oluşturulan dosyayı düzenleyin (bu örnekte gcs-crawl-config.xml) ve aşağıdaki şekilde açıklandığı gibi mevcut <committer> ve <tagger> düğümlerini ekleyin veya değiştirin aşağıdaki tabloda bulabilirsiniz.
Yer Parametre
<committer> node <committer class="com.norconex.committer.googlecloudsearch. GoogleCloudSearchCommitter">

Zorunludur. Eklentiyi etkinleştirmek için kök <httpcollector> düğümünün alt öğesi olarak bir <committer> düğümü eklemeniz gerekir.
<UploadFormat> <uploadFormat>raw</uploadFormat>
İsteğe bağlı. Dizine ekleme eklentisinin, doküman içeriğini Google Cloud Search dizinleyici API'sine aktarma biçimi. Geçerli değerler aşağıda belirtilmiştir:
  • raw: Dizine ekleme eklentisi orijinal, dönüştürülmemiş doküman içeriğini aktarır.
  • text: Dizine ekleme eklentisi, ayıklanmış metin içeriklerini aktarır.
ziyaret edin.
Varsayılan değer raw.
BinaryContent Tagger <tagger> node <tagger class="com.norconex.committer.googlecloudsearch.BinaryContentTagger"/>
<UploadFormat> değeri raw ise gereklidir. Bu durumda, dizinleyici eklentisi dokümanın ikili içerik alanının kullanılabilir olmasını gerektirir.

BinaryContentTagger <tagger> düğümünü, <importer> / <preParseHandlers> düğümünün alt öğesi olarak eklemeniz gerekir.

Aşağıdaki örnekte, dönüşüm izleme için gcs-crawl-config.xml.

<committer class="com.norconex.committer.googlecloudsearch.GoogleCloudSearchCommitter">
    <configFilePath>/full/path/to/gcs-sdk-config.properties</configFilePath>
    
    <uploadFormat>raw</uploadFormat>
</committer>
<importer>
  <preParseHandlers>
    <tagger class="com.norconex.committer.googlecloudsearch.BinaryContentTagger"/>
  </preParseHandlers>
</importer>

4. Adım: Web taramasını yapılandırın

Web taraması başlatmadan önce, taramayı yalnızca kuruluşunuzun aramada kullanılabilir hale getirmek istediği bilgileri içeriyorsa sonuç. Web taraması için en önemli ayarlar <crawler> kapsamındadır düğümler ve şunları içerebilir:

  • Başlangıç URL'leri
  • Maksimum tarama derinliği
  • İş parçacığı sayısı

Bu yapılandırma değerlerini ihtiyaçlarınıza göre değiştirin. Daha ayrıntılı bilgileri ve kullanılabilir tam listesi için yapılandırma parametreleri için HTTP Toplayıcı Yapılandırma sayfasını ziyaret edin.

5. Adım: Web taraması ve içerik yükleme başlatın

Dizine ekleme eklentisini yükleyip ayarladıktan sonra, eklentiyi yerel modda çalışır.

Aşağıdaki örnekte, gerekli bileşenlerin yerel dizini olur. Aşağıdaki komutu çalıştırın:

$ ./collector-http[.bat|.sh] -a start -c gcs-crawl-config.xml

JEF Monitor ile tarayıcıyı izleme

Norconex JEF (İş Yürütme Çerçevesi) Monitörü, Norconex Web Tarayıcısı (HTTP Toplayıcı) işlemlerinin ilerleme durumunu izleme ve işler. Bu yardımcı programın nasıl kurulacağına ilişkin tam bir eğitim için Tarayıcınızın ilerleme durumunu JEF Monitor ile izleyin.