Norconex HTTP Collector Indexer Eklentisi Dağıtma

Bu kılavuz, Google Cloud Search Norconex HTTP Toplayıcı dizinleyici eklenti eklentisi yöneticileri, yani dizin oluşturucu eklentisini indirmek, dağıtmak, yapılandırmak ve sürdürmekten sorumlu kişiler için hazırlanmıştır. Kılavuzda Linux işletim sistemleri, web taramanın temelleri, XML ve Norconex HTTP Collector hakkında bilgi sahibi olduğunuz varsayılır.

Bu kılavuz, dizinleyici eklentisinin dağıtımıyla ilgili temel görevlerin gerçekleştirilmesine yönelik talimatları içerir:

  • Dizine ekleme eklentisi yazılımını indirin
  • Google Cloud Search'ü yapılandırma
  • Norconex HTTP Collector'ı ve web taramasını yapılandırma
  • Web taramasını başlatma ve içerik yükleme

Google Cloud Search'ü Norconex HTTP Collector dizinleyici eklentisiyle eşlemek için Google Workspace yöneticisinin yapması gereken görevlerle ilgili bilgiler bu kılavuzda bulunmamaktadır. Bu görevlerle ilgili bilgi için Üçüncü taraf veri kaynaklarını yönetme başlıklı makaleyi inceleyin.

Cloud Search Norconex HTTP Collector dizinleyici eklentisine genel bakış

Varsayılan olarak Cloud Search, Google Dokümanlar ve Gmail gibi Google Workspace ürünlerindeki içerikleri keşfedebilir, dizine ekleyebilir ve sunabilir. Açık kaynak kurumsal web tarayıcısı olan Norconex HTTP Collector için dizinleyici eklentisini dağıtarak Google Cloud Search'ün erişimini kullanıcılarınıza web içeriği sunmayı içerecek şekilde genişletebilirsiniz.

Yapılandırma özelliği dosyaları

Dizine ekleme eklentisinin web'de tarama yapmasını ve dizine ekleme API'sine içerik yüklemesini sağlamak için, dizinleyici eklentisi yöneticisi olarak Dağıtım adımları bölümündeki bu dokümanda açıklanan yapılandırma adımları sırasında belirli bilgileri sağlarsınız.

Dizine dönüştürücü eklentisini kullanmak için özellikleri iki yapılandırma dosyasında ayarlamanız gerekir:

  • {gcs-crawl-config.xml}-- Norconex HTTP Collector ayarlarını içerir.
  • sdk-configuration.properties, Google Cloud Search ayarlarını içerir.

Her bir dosyadaki özellikler, Google Cloud Search dizinleyici eklentisinin ve Norconex HTTP Collector'ın birbirleriyle iletişim kurmasını sağlar.

Web taraması ve içerik yükleme

Yapılandırma dosyalarını doldurduktan sonra web taramasını başlatmak için gerekli ayarlara sahip olursunuz. Norconex HTTP Collector, web'i tarayarak yapılandırmasıyla ilgili doküman içeriğini bulur ve belge içeriğinin orijinal ikili (veya metin) sürümlerini Cloud Search dizine ekleme API'sine yükler. Burada doküman dizine eklenir ve kullanıcılarınıza sunulur.

Desteklenen işletim sistemi

Google Cloud Search Norconex HTTP Collector dizinleyici eklentisi Linux'a yüklenmiş olmalıdır.

Desteklenen Norconex HTTP Collector sürümü

Google Cloud Search Norconex HTTP Toplayıcı dizinleyici eklentisi 2.8.0 sürümünü destekler.

EKL desteği

Dizine ekleme eklentisi, Erişim Kontrol Listeleri (EKL'ler) kullanılarak Google Workspace alanındaki dokümanlara erişimin kontrol edilmesini destekler.

Google Cloud Search eklentisi yapılandırmasında varsayılan EKL'ler etkinleştirilmişse (defaultAcl.mode, none dışında bir değere ayarlanmış ve defaultAcl.* ile yapılandırılmışsa) dizine ekleme eklentisi öncelikle varsayılan bir EKL oluşturup uygulamayı dener.

Varsayılan EKL'ler etkinleştirilmezse eklenti, tüm Google Workspace alanına okuma izni vermeye başlar.

EKL yapılandırma parametrelerinin ayrıntılı açıklamaları için Google tarafından sağlanan bağlayıcı parametreleri bölümüne bakın.

Ön koşullar

Dizine ekleme eklentisini dağıtmadan önce aşağıdaki gerekli bileşenlere sahip olduğunuzdan emin olun:

  • Dizine ekleme eklentisini çalıştıran bir bilgisayarda yüklü Java JRE 1.8
  • Cloud Search ile Norconex HTTP Collector arasında ilişki kurmak için gereken Google Workspace bilgileri:

    Genellikle bu kimlik bilgilerini alanın Google Workspace yöneticisi sizin için sağlayabilir.

Dağıtım adımları

Dizine ekleme eklentisini dağıtmak için şu adımları uygulayın:

  1. Norconex HTTP Collector'ı ve dizinleyici eklenti yazılımını yükleme
  2. Google Cloud Search'ü yapılandırma
  3. Norconex HTTP Collector'ı yapılandırma
  4. Web taramasını yapılandırma
  5. Web taraması ve içerik yükleme

1. Adım: Norconex HTTP Collector'ı ve dizinleyici eklenti yazılımını yükleyin

  1. Norconex Commissioner yazılımını bu sayfadan indirin.
  2. İndirilen yazılımı ~/norconex/ klasörüne çıkartın.
  3. GitHub'dan işleyici eklentisini klonlayın. git clone https://github.com/google-cloudsearch/norconex-committer-plugin.git ve ardından cd norconex-committer-plugin
  4. Komeder eklentisinin istediğiniz sürümünü kontrol edin ve ZIP dosyasını oluşturun: git checkout tags/v1-0.0.3 ve mvn package (Bağlayıcıyı oluştururken testleri atlamak için mvn package -DskipTests kullanın.)
  5. cd target
  6. Derlenen eklenti jar dosyasını norconex lib dizinine kopyalayın. cp google-cloudsearch-norconex-committer-plugin-v1-0.0.3.jar ~/norconex/norconex-collector-http-{version}/lib
  7. Az önce oluşturduğunuz ZIP dosyasını çıkarın ve sıkıştırılmış dosyayı açın: unzip google-cloudsearch-norconex-committer-plugin-v1-0.0.3.zip
  8. Eklentinin .jar dosyasını ve gerekli tüm kitaplıkları http toplayıcının dizinine kopyalamak için yükleme komut dosyasını yürütün:
    1. Yukarıdan sıkıştırılmış dosya açılırken çıkarılan kaydetme eklentisine geçin: cd google-cloudsearch-norconex-committer-plugin-v1-0.0.3
    2. $ sh install.sh çalıştırın ve istendiğinde norconex/norconex-collector-http-{version}/lib için tam yolu hedef dizin olarak girin.
    3. Yinelenen jar dosyaları bulunursa 1 seçeneğini belirleyin (Kaynak Jar'ı yalnızca hedef Jar yeniden adlandırıldıktan sonra hedef Jar sürümünden daha büyük veya aynı sürümse kopyala).

2. Adım: Google Cloud Search'ü yapılandırın

Dizine ekleme eklentisinin Norconex HTTP Collector'a bağlanması ve ilgili içeriği dizine eklemesi için Cloud Search yapılandırma dosyasını Norconex HTTP Collector'ın yüklü olduğu Norconex dizininde oluşturmanız gerekir. Google, Cloud Search yapılandırma dosyasını sdk-configuration.properties olarak adlandırmanızı önerir.

Bu yapılandırma dosyası, bir parametreyi tanımlayan anahtar/değer çiftlerini içermelidir. Yapılandırma dosyası, Cloud Search veri kaynağına erişmek için gerekli olan en azından aşağıdaki parametreleri belirtmelidir.

Yer Parametre
Veri kaynağı kimliği api.sourceId = 1234567890abcdef
Zorunlu. Google Workspace yöneticisi tarafından oluşturulan Cloud Search kaynak kimliği.
Hizmet hesabı api.serviceAccountPrivateKeyFile = ./PrivateKey.json
Zorunlu. Dizine dönüştürücü eklentisi erişilebilirliği için Google Workspace yöneticisi tarafından oluşturulan Cloud Search hizmet hesabı anahtar dosyası.

Aşağıdaki örnekte bir sdk-configuration.properties dosyası gösterilmektedir.

#
# data source access
api.sourceId=1234567890abcdef
api.serviceAccountPrivateKeyFile=./PrivateKey.json
#

Yapılandırma dosyası, Google tarafından sağlanan yapılandırma parametrelerini de içerebilir. Bu parametreler, bu eklentinin Google Cloud Search API'ye veri aktarma şeklini etkileyebilir. Örneğin, batch.* parametre grubu, bağlayıcının istekleri nasıl birleştirdiğini tanımlar.

Yapılandırma dosyasında parametre tanımlamazsanız varsayılan değer (varsa) kullanılır. Her bir parametrenin ayrıntılı açıklamaları için Google tarafından sağlanan bağlayıcı parametreleri bölümüne bakın.

Dizine eklenen içerik için meta verileri ve yapılandırılmış verileri dolduracak şekilde dizinleyici eklentisini yapılandırabilirsiniz. Meta veri ve yapılandırılmış veri alanları için doldurulacak değerler, dizine eklenmekte olan HTML içeriğindeki meta etiketlerden çıkarılabilir veya yapılandırma dosyasında varsayılan değerler belirtilebilir.

Ayar Parametre
Başlık itemMetadata.title.field=movieTitle
itemMetadata.title.defaultValue=Gone with the Wind
Varsayılan olarak, eklenti dizine eklenen dokümanın başlığı olarak HTML title değerini kullanır. Başlığın olmaması durumunda doküman başlığına karşılık gelen değeri içeren meta veri özelliğine başvurabilir veya varsayılan bir değer ayarlayabilirsiniz.
Oluşturma zaman damgası itemMetadata.createTime.field=releaseDate
itemMetadata.createTime.defaultValue=1940-01-17
Doküman oluşturma zaman damgası değerini içeren meta veri özelliği.
Son değiştirilme zamanı itemMetadata.updateTime.field=releaseDate
itemMetadata.updateTime.defaultValue=1940-01-17
Dokümanın son değiştirme zaman damgasının değerini içeren meta veri özelliği.
Belge dili itemMetadata.contentLanguage.field=languageCode
itemMetadata.contentLanguage.defaultValue=en-US
Dizine eklenen dokümanların içerik dili.
Şema nesnesi türü itemMetadata.objectType=movie
Site tarafından kullanılan nesne türü ( veri kaynağı şeması nesne tanımlarında tanımlandığı şekilde). Bu özellik belirtilmezse bağlayıcı hiçbir yapılandırılmış veriyi dizine eklemez.

Not: Bu yapılandırma özelliği, bir meta veri özelliği yerine bir değere işaret eder. .field ve .defaultValue sonekleri desteklenmez.

Tarih ve saat biçimleri

Tarih ve saat biçimleri, meta veri özelliklerinde beklenen biçimleri belirtir. Yapılandırma dosyası bu parametreyi içermiyorsa varsayılan değerler kullanılır. Aşağıdaki tabloda bu parametre gösterilmektedir.

Ayar

Parametre

Ek tarih ve saat kalıpları

structuredData.dateTimePatterns=MM/dd/uuuu HH:mm:ssXXX

Ek java.time.format.DateTimeFormatter kalıplarının noktalı virgülle ayrılmış listesi. Kalıplar, meta veri veya şemadaki herhangi bir tarih ya da tarih-saat alanı için dize değerleri ayrıştırılırken kullanılır. Varsayılan değer boş bir listedir ancak RFC 3339 ve RFC 1123 biçimleri her zaman desteklenir.

3. Adım: Norconex HTTP Toplayıcıyı yapılandırın

ZIP arşivinde norconex-committer-google-cloud-search-{version}.zipminimum-config.xml örnek yapılandırma dosyası bulunur.

Google, örnek dosyayı kopyalayarak yapılandırmaya başlamanızı önerir:

  1. Norconex HTTP Collector dizinine geçin:
    $ cd ~/norconex/norconex-collector-http-{version}/
  2. Yapılandırma dosyasını kopyalayın:
    $ cp examples/minimum/minimum-config.xml gcs-crawl-config.xml
  3. Yeni oluşturulan dosyayı düzenleyin (bu örnekte gcs-crawl-config.xml) ve mevcut <committer> ve <tagger> düğümlerini aşağıdaki tabloda açıklandığı gibi ekleyin veya değiştirin.
Yer Parametre
<committer> node <committer class="com.norconex.committer.googlecloudsearch. GoogleCloudSearchCommitter">

Zorunlu. Eklentiyi etkinleştirmek için kök <httpcollector> düğümünün alt öğesi olarak bir <committer> düğümü eklemeniz gerekir.
<UploadFormat> <uploadFormat>raw</uploadFormat>
İsteğe bağlı. Dizine ekleme eklentisinin, doküman içeriğini Google Cloud Search dizinleyici API'sine aktarma biçimi. Geçerli değerler aşağıda belirtilmiştir:
  • raw: Dizine ekleme eklentisi orijinal, dönüştürülmemiş doküman içeriğini aktarır.
  • text: Dizine ekleme eklentisi, ayıklanmış metin içeriklerini aktarır.

Varsayılan değer: raw.
BinaryContent Tagger <tagger> node <tagger class="com.norconex.committer.googlecloudsearch.BinaryContentTagger"/>
<UploadFormat> değeri raw ise gereklidir. Bu durumda, dizinleyici eklentisi dokümanın ikili içerik alanının kullanılabilir olmasını gerektirir.

BinaryContentTagger <tagger> düğümünü, <importer> / <preParseHandlers> düğümünün alt öğesi olarak eklemeniz gerekir.

Aşağıdaki örnekte, gcs-crawl-config.xml üzerinde yapılması gereken değişiklik gösterilmektedir.

<committer class="com.norconex.committer.googlecloudsearch.GoogleCloudSearchCommitter">
    <configFilePath>/full/path/to/gcs-sdk-config.properties</configFilePath>
    
    <uploadFormat>raw</uploadFormat>
</committer>
<importer>
  <preParseHandlers>
    <tagger class="com.norconex.committer.googlecloudsearch.BinaryContentTagger"/>
  </preParseHandlers>
</importer>

4. Adım: Web taramasını yapılandırın

Bir web taraması başlatmadan önce, taramayı yalnızca kuruluşunuzun arama sonuçlarında kullanılabilir hale getirmek istediği bilgileri içerecek şekilde yapılandırmanız gerekir. Web taramasıyla ilgili en önemli ayarlar <crawler> düğümlerinin bir parçasıdır ve şunları içerebilir:

  • Başlangıç URL'leri
  • Maksimum tarama derinliği
  • İş parçacığı sayısı

Bu yapılandırma değerlerini ihtiyaçlarınıza göre değiştirin. Web taraması ayarlama hakkında daha ayrıntılı bilgi ve kullanılabilir yapılandırma parametrelerinin tam listesi için HTTP Toplayıcının Yapılandırma sayfasına bakın.

5. Adım: Web taraması ve içerik yükleme başlatın

Dizine dönüştürücü eklentisini yükleyip ayarladıktan sonra, eklentiyi yerel modda kendi başına çalıştırabilirsiniz.

Aşağıdaki örnekte, gerekli bileşenlerin bir Linux sistemindeki yerel dizinde bulunduğu varsayılmıştır. Aşağıdaki komutu çalıştırın:

$ ./collector-http[.bat|.sh] -a start -c gcs-crawl-config.xml

JEF Monitor ile tarayıcıyı izleme

Norconex JEF (İş Yürütme Çerçevesi) Monitörü, Norconex Web Tarayıcısı (HTTP Toplayıcı) işlemlerinin ve işlerinin ilerlemesini izlemeye yönelik bir grafik aracıdır. Bu yardımcı programın nasıl ayarlanacağıyla ilgili tam bir eğitim için Tarayıcınızın ilerleme durumunu JEF Monitor ile izleme sayfasını ziyaret edin.