Norconex HTTP Collector Indexer Eklentisi Dağıtma

Bu kılavuz, Google Cloud Search Norconex HTTP Toplayıcı dizin aracı eklenti yöneticileri, yani dizinleyici eklentisini indirmek, dağıtmak, yapılandırmak ve bakımından korunmasından sorumlu herkes için hazırlanmıştır. Kılavuzda Linux işletim sistemleri, web'de taramanın temelleri, XML ve Norconex HTTP Toplayıcı hakkında bilgi sahibi olduğunuz varsayılır.

Bu kılavuz, dizinleyici eklentisi dağıtımıyla ilgili temel görevlerin gerçekleştirilmesine yönelik talimatları içerir:

  • Dizin oluşturma eklentisi yazılımını indirin
  • Google Cloud Search'ü yapılandırma
  • Norconex HTTP Toplayıcıyı ve web taramasını yapılandırma
  • Web taramasını başlat ve içerik yükle

Bu kılavuzda, Google Cloud Search'ü Norconex HTTP Collector dizin aracı eklentisiyle eşlemek için Google Workspace yöneticisinin gerçekleştirmesi gereken görevlerle ilgili bilgiler yer almamaktadır. Bu görevlerle ilgili bilgi edinmek için Üçüncü taraf veri kaynaklarını yönetme başlıklı makaleyi inceleyin.

Cloud Search Norconex HTTP Collector dizin aracı eklentisine genel bakış

Varsayılan olarak Cloud Search, Google Dokümanlar ve Gmail gibi Google Workspace ürünlerindeki içerikleri keşfedebilir, dizine ekleyebilir ve sunabilir. Açık kaynaklı bir kurumsal web tarayıcısı olan Norconex HTTP Collector için dizinleyici eklentisini dağıtarak Google Cloud Search'ün erişimini, kullanıcılarınıza web içeriği sunmayı da içerecek şekilde genişletebilirsiniz.

Yapılandırma özellikleri dosyaları

Dizin oluşturucu eklentisinin web taramaları gerçekleştirmesini ve dizine ekleme API'sine içerik yüklemesini sağlamak için, dizinleyici eklentisi yöneticisi olarak bu belgede Dağıtım adımları bölümünde açıklanan yapılandırma adımları sırasında belirli bilgiler sağlarsınız.

Dizin oluşturucu eklentisini kullanmak için özellikleri iki yapılandırma dosyasında ayarlamanız gerekir:

  • {gcs-crawl-config.xml}-- Norconex HTTP Toplayıcı ayarlarını içerir.
  • sdk-configuration.properties -- Google Cloud Search ayarlarını içerir.

Her bir dosyadaki özellikler, Google Cloud Search dizin oluşturucu eklentisinin ve Norconex HTTP Toplayıcı'nın birbiriyle iletişim kurmasını sağlar.

Web taraması ve içerik yükleme

Yapılandırma dosyalarını doldurduktan sonra web taramasını başlatmak için gerekli ayarları yapmış olursunuz. Norconex HTTP Collector, yapılandırmasıyla ilgili belge içeriğini keşfederek web'i tarar ve belge içeriğinin orijinal ikili (veya metin) sürümlerini dizine eklenip nihayetinde kullanıcılarınıza sunulan Cloud Search dizine ekleme API'sine yükler.

Desteklenen işletim sistemi

Google Cloud Search Norconex HTTP Collector dizin aracı eklentisi Linux'ta yüklü olmalıdır.

Desteklenen Norconex HTTP Collector sürümü

Google Cloud Search Norconex HTTP Collector dizin aracı eklentisi 2.8.0 sürümünü destekler.

EKL desteği

Dizin oluşturucu eklentisi, Erişim Kontrol Listeleri'ni (EKL'ler) kullanarak Google Workspace alanındaki dokümanlara erişimin kontrol edilmesini destekler.

Google Cloud Search eklenti yapılandırmasında varsayılan EKL'ler etkinleştirildiyse (defaultAcl.mode değeri none dışında bir değere ayarlandı ve defaultAcl.* ile yapılandırıldıysa) dizinleyici eklentisi önce varsayılan bir EKL oluşturmayı ve uygulamayı dener.

Varsayılan EKL'ler etkin değilse eklenti, tüm Google Workspace alanına okuma izni verir.

EKL yapılandırma parametrelerinin ayrıntılı açıklamaları için Google'ın sağladığı bağlayıcı parametreleri bölümüne bakın.

Ön koşullar

Dizin oluşturucu eklentisini dağıtmadan önce, aşağıdaki gerekli bileşenlere sahip olduğunuzdan emin olun:

  • Dizin oluşturucu eklentisini çalıştıran bir bilgisayarda Java JRE 1.8 yüklü
  • Cloud Search ve Norconex HTTP Collector arasında ilişki kurmak için gereken Google Workspace bilgileri:

    Genellikle bu kimlik bilgilerini alanın Google Workspace yöneticisi sizin için sağlayabilir.

Dağıtım adımları

Dizin oluşturucu eklentisini dağıtmak için şu adımları izleyin:

  1. Norconex HTTP Collector'ı ve dizin aracı eklentisi yazılımını yükleyin
  2. Google Cloud Search'ü yapılandırma
  3. Norconex HTTP Toplayıcı'yı yapılandırma
  4. Web taramasını yapılandırma
  5. Web taraması ve içerik yükleme başlatma

1. Adım: Norconex HTTP Collector'ı ve dizinleyici eklenti yazılımını yükleyin

  1. Norconex kaydetme yazılımını bu sayfadan indirin.
  2. İndirilen yazılımı ~/norconex/ klasörüne çıkarın
  3. GitHub'dan kaydetme eklentisini klonlayın. git clone https://github.com/google-cloudsearch/norconex-committer-plugin.git, ardından cd norconex-committer-plugin
  4. Kaydetme eklentisinin istediğiniz sürümünü kontrol edin ve ZIP dosyasını oluşturun: git checkout tags/v1-0.0.3 ve mvn package (Bağlayıcıyı oluştururken testleri atlamak için mvn package -DskipTests kullanın.)
  5. cd target
  6. Derlenen eklenti jar dosyasını norconex lib dizinine kopyalayın. cp google-cloudsearch-norconex-committer-plugin-v1-0.0.3.jar ~/norconex/norconex-collector-http-{version}/lib
  7. Yeni oluşturduğunuz ZIP dosyasını çıkarın, ardından dosyanın sıkıştırmasını açın: unzip google-cloudsearch-norconex-committer-plugin-v1-0.0.3.zip
  8. Eklentinin .jar dosyasını ve gerekli tüm kitaplıkları http toplayıcının dizinine kopyalamak için yükleme komut dosyasını çalıştırın:
    1. Yukarıda açılan sıkıştırılmış kayıtlı eklentisindeki değişiklik: cd google-cloudsearch-norconex-committer-plugin-v1-0.0.3
    2. $ sh install.sh komutunu çalıştırın ve istendiğinde hedef dizin olarak norconex/norconex-collector-http-{version}/lib dosyasının tam yolunu sağlayın.
    3. Kopya jar dosyaları bulunursa 1 seçeneğini belirleyin (Kaynak Jar'ı kopyala) (yalnızca hedef Jar yeniden adlandırıldıktan sonra hedef Jar sürümünden daha büyük veya aynı sürümse).

2. Adım: Google Cloud Search'ü yapılandırın

Dizin oluşturucu eklentisinin Norconex HTTP Collector'a bağlanıp ilgili içeriği dizine eklemesi için Cloud Search yapılandırma dosyasını Norconex HTTP Collector'ın yüklü olduğu Norconex dizininde oluşturmanız gerekir. Google, Cloud Search yapılandırma dosyasını sdk-configuration.properties olarak adlandırmanızı önerir.

Bu yapılandırma dosyası, bir parametreyi tanımlayan anahtar/değer çiftleri içermelidir. Yapılandırma dosyası, Cloud Search veri kaynağına erişmek için gerekli olan en az aşağıdaki parametreleri belirtmelidir.

Ayar Parametre
Veri kaynağı kimliği api.sourceId = 1234567890abcdef
Zorunlu. Google Workspace yöneticisi tarafından ayarlanan Cloud Search kaynak kimliği.
Hizmet hesabı api.serviceAccountPrivateKeyFile = ./PrivateKey.json
Zorunlu. Dizin oluşturucu eklentisi erişilebilirliği için Google Workspace yöneticisi tarafından oluşturulan Cloud Search hizmet hesabı anahtar dosyası.

Aşağıdaki örnekte bir sdk-configuration.properties dosyası gösterilmektedir.

#
# data source access
api.sourceId=1234567890abcdef
api.serviceAccountPrivateKeyFile=./PrivateKey.json
#

Yapılandırma dosyası, Google'ın sağladığı yapılandırma parametrelerini de içerebilir. Bu parametreler, bu eklentinin Google Cloud Search API'ye veri aktarma şeklini etkileyebilir. Örneğin, batch.* parametre grubu, bağlayıcının istekleri nasıl birleştirdiğini tanımlar.

Yapılandırma dosyasında bir parametre tanımlamazsanız, varsa varsayılan değer kullanılır. Her parametrenin ayrıntılı açıklamaları için Google'ın sağladığı bağlayıcı parametreleri bölümüne bakın.

Dizine eklenen içerik için meta verileri ve yapılandırılmış verileri dolduracak şekilde dizinleyici eklentisini yapılandırabilirsiniz. Meta veri ve yapılandırılmış veri alanları için doldurulacak değerler, dizine eklenen HTML içeriğindeki meta etiketlerden çıkarılabilir veya varsayılan değerler yapılandırma dosyasında belirtilebilir.

Ayar Parametre
Başlık itemMetadata.title.field=movieTitle
itemMetadata.title.defaultValue=Gone with the Wind
Eklenti, dizine eklenen dokümanın başlığı olarak varsayılan olarak HTML title ifadesini kullanır. Eksik başlık olması durumunda, belge başlığına karşılık gelen değeri içeren meta veri özniteliğine başvurabilir veya varsayılan bir değer ayarlayabilirsiniz.
Oluşturulma zaman damgası itemMetadata.createTime.field=releaseDate
itemMetadata.createTime.defaultValue=1940-01-17
Belge oluşturma zaman damgası değerini içeren meta veri özelliği.
Son değiştirilme zamanı itemMetadata.updateTime.field=releaseDate
itemMetadata.updateTime.defaultValue=1940-01-17
Belgenin son değişiklik zaman damgasının değerini içeren meta veri özelliği.
Doküman dili itemMetadata.contentLanguage.field=languageCode
itemMetadata.contentLanguage.defaultValue=en-US
Dizine eklenen dokümanların içerik dili.
Şema nesnesi türü itemMetadata.objectType=movie
Veri kaynağı şeması nesne tanımlarında tanımlandığı şekilde site tarafından kullanılan nesne türü. Bu özellik belirtilmezse bağlayıcı, yapılandırılmış verileri dizine eklemez.

Not: Bu yapılandırma özelliği, bir meta veri özelliği yerine bir değere işaret eder. .field ve .defaultValue sonekleri desteklenmez.

Tarih ve saat biçimleri

Tarih ve saat biçimleri, meta veri özelliklerinde beklenen biçimleri belirtir. Yapılandırma dosyası bu parametreyi içermiyorsa varsayılan değerler kullanılır. Aşağıdaki tabloda bu parametre gösterilmektedir.

Ayar

Parametre

Ek tarih ve saat kalıpları

structuredData.dateTimePatterns=MM/dd/uuuu HH:mm:ssXXX

Ek java.time.format.DateTimeFormatter kalıplarının noktalı virgülle ayrılmış listesi. Kalıplar, meta veri veya şemadaki herhangi bir tarih ya da tarih-saat alanı için dize değerleri ayrıştırılırken kullanılır. Varsayılan değer boş bir listedir ancak RFC 3339 ve RFC 1123 biçimleri her zaman desteklenir.

3. Adım: Norconex HTTP Toplayıcı'yı yapılandırın

Zip arşivi norconex-committer-google-cloud-search-{version}.zip içinde bir örnek yapılandırma dosyası (minimum-config.xml) bulunur.

Google, yapılandırmaya örnek dosyayı kopyalayarak başlamanızı önerir:

  1. Norconex HTTP Collector dizinine geçin:
    $ cd ~/norconex/norconex-collector-http-{version}/
  2. Yapılandırma dosyasını kopyalayın:
    $ cp examples/minimum/minimum-config.xml gcs-crawl-config.xml
  3. Yeni oluşturulan dosyayı düzenleyin (bu örnekte, gcs-crawl-config.xml) ve mevcut <committer> ve <tagger> düğümlerini aşağıdaki tabloda açıklandığı gibi ekleyin veya değiştirin.
Ayar Parametre
<committer> node <committer class="com.norconex.committer.googlecloudsearch. GoogleCloudSearchCommitter">

Zorunlu. Eklentiyi etkinleştirmek için kök <httpcollector> düğümünün alt öğesi olarak bir <committer> düğümü eklemeniz gerekir.
<UploadFormat> <uploadFormat>raw</uploadFormat>
İsteğe bağlı. Dizin oluşturucu eklentisinin, doküman içeriğini Google Cloud Search dizinleyici API'sine aktarma biçimi. Geçerli değerler şunlardır:
  • raw: Dizin oluşturma eklentisi orijinal, dönüştürülmemiş doküman içeriğini aktarır.
  • text: Dizin oluşturma eklentisi, çıkarılan metin içeriğini aktarır.

Varsayılan değer raw değeridir.
BinaryContent Tagger <tagger> node <tagger class="com.norconex.committer.googlecloudsearch.BinaryContentTagger"/>
<UploadFormat> değeri raw ise zorunludur. Bu durumda, dizinleyici eklentisi, belgenin ikili içerik alanının kullanılabilir olmasını gerektirir.

BinaryContentTagger <tagger> düğümünü <importer> / <preParseHandlers> düğümünün alt öğesi olarak eklemeniz gerekir.

Aşağıdaki örnekte, gcs-crawl-config.xml üzerinde yapılması gereken değişiklikler gösterilmektedir.

<committer class="com.norconex.committer.googlecloudsearch.GoogleCloudSearchCommitter">
    <configFilePath>/full/path/to/gcs-sdk-config.properties</configFilePath>
    
    <uploadFormat>raw</uploadFormat>
</committer>
<importer>
  <preParseHandlers>
    <tagger class="com.norconex.committer.googlecloudsearch.BinaryContentTagger"/>
  </preParseHandlers>
</importer>

4. Adım: Web taramasını yapılandırın

Bir web taramasına başlamadan önce, taramayı yalnızca kuruluşunuzun arama sonuçlarında kullanılabilir hale getirmek istediği bilgileri içerecek şekilde yapılandırmanız gerekir. Web taraması için en önemli ayarlar <crawler> düğümlerinin bir parçasıdır ve şunları içerebilir:

  • Başlangıç URL'leri
  • Maksimum tarama derinliği
  • İş parçacığı sayısı

Bu yapılandırma değerlerini ihtiyaçlarınıza göre değiştirin. Web taraması ayarlama hakkında daha ayrıntılı bilgi ve mevcut yapılandırma parametrelerinin tam listesi için HTTP Toplayıcı'nın Yapılandırma sayfasına bakın.

5. Adım: Web taraması ve içerik yükleme işlemi başlatın

Dizin oluşturucu eklentisini yükleyip kurduktan sonra, eklentiyi yerel modda kendi başına çalıştırabilirsiniz.

Aşağıdaki örnekte, gerekli bileşenlerin bir Linux sistemindeki yerel dizinde bulunduğu varsayılmaktadır. Aşağıdaki komutu çalıştırın:

$ ./collector-http[.bat|.sh] -a start -c gcs-crawl-config.xml

JEF Monitor ile tarayıcıyı izleme

Norconex JEF (İş Yürütme Çerçevesi) İzleyici, Norconex Web Tarayıcısı (HTTP Toplayıcı) işlemlerinin ve işlerinin ilerlemesini izlemek için kullanılan grafiksel bir araçtır. Bu yardımcı programın nasıl kurulacağıyla ilgili eksiksiz bir eğitim için JEF Monitor ile tarayıcınızın ilerleme durumunu izleme sayfasını ziyaret edin.