Bu kılavuz, Google Cloud Search Norconex HTTP Toplayıcı dizin aracı eklenti yöneticileri, yani dizinleyici eklentisini indirmek, dağıtmak, yapılandırmak ve bakımından korunmasından sorumlu herkes için hazırlanmıştır. Kılavuzda Linux işletim sistemleri, web'de taramanın temelleri, XML ve Norconex HTTP Toplayıcı hakkında bilgi sahibi olduğunuz varsayılır.
Bu kılavuz, dizinleyici eklentisi dağıtımıyla ilgili temel görevlerin gerçekleştirilmesine yönelik talimatları içerir:
- Dizin oluşturma eklentisi yazılımını indirin
- Google Cloud Search'ü yapılandırma
- Norconex HTTP Toplayıcıyı ve web taramasını yapılandırma
- Web taramasını başlat ve içerik yükle
Bu kılavuzda, Google Cloud Search'ü Norconex HTTP Collector dizin aracı eklentisiyle eşlemek için Google Workspace yöneticisinin gerçekleştirmesi gereken görevlerle ilgili bilgiler yer almamaktadır. Bu görevlerle ilgili bilgi edinmek için Üçüncü taraf veri kaynaklarını yönetme başlıklı makaleyi inceleyin.
Cloud Search Norconex HTTP Collector dizin aracı eklentisine genel bakış
Varsayılan olarak Cloud Search, Google Dokümanlar ve Gmail gibi Google Workspace ürünlerindeki içerikleri keşfedebilir, dizine ekleyebilir ve sunabilir. Açık kaynaklı bir kurumsal web tarayıcısı olan Norconex HTTP Collector için dizinleyici eklentisini dağıtarak Google Cloud Search'ün erişimini, kullanıcılarınıza web içeriği sunmayı da içerecek şekilde genişletebilirsiniz.
Yapılandırma özellikleri dosyaları
Dizin oluşturucu eklentisinin web taramaları gerçekleştirmesini ve dizine ekleme API'sine içerik yüklemesini sağlamak için, dizinleyici eklentisi yöneticisi olarak bu belgede Dağıtım adımları bölümünde açıklanan yapılandırma adımları sırasında belirli bilgiler sağlarsınız.
Dizin oluşturucu eklentisini kullanmak için özellikleri iki yapılandırma dosyasında ayarlamanız gerekir:
{gcs-crawl-config.xml}
-- Norconex HTTP Toplayıcı ayarlarını içerir.sdk-configuration.properties
-- Google Cloud Search ayarlarını içerir.
Her bir dosyadaki özellikler, Google Cloud Search dizin oluşturucu eklentisinin ve Norconex HTTP Toplayıcı'nın birbiriyle iletişim kurmasını sağlar.
Web taraması ve içerik yükleme
Yapılandırma dosyalarını doldurduktan sonra web taramasını başlatmak için gerekli ayarları yapmış olursunuz. Norconex HTTP Collector, yapılandırmasıyla ilgili belge içeriğini keşfederek web'i tarar ve belge içeriğinin orijinal ikili (veya metin) sürümlerini dizine eklenip nihayetinde kullanıcılarınıza sunulan Cloud Search dizine ekleme API'sine yükler.
Desteklenen işletim sistemi
Google Cloud Search Norconex HTTP Collector dizin aracı eklentisi Linux'ta yüklü olmalıdır.
Desteklenen Norconex HTTP Collector sürümü
Google Cloud Search Norconex HTTP Collector dizin aracı eklentisi 2.8.0 sürümünü destekler.
EKL desteği
Dizin oluşturucu eklentisi, Erişim Kontrol Listeleri'ni (EKL'ler) kullanarak Google Workspace alanındaki dokümanlara erişimin kontrol edilmesini destekler.
Google Cloud Search eklenti yapılandırmasında varsayılan EKL'ler etkinleştirildiyse (defaultAcl.mode
değeri none
dışında bir değere ayarlandı ve defaultAcl.*
ile yapılandırıldıysa) dizinleyici eklentisi önce varsayılan bir EKL oluşturmayı ve uygulamayı dener.
Varsayılan EKL'ler etkin değilse eklenti, tüm Google Workspace alanına okuma izni verir.
EKL yapılandırma parametrelerinin ayrıntılı açıklamaları için Google'ın sağladığı bağlayıcı parametreleri bölümüne bakın.
Ön koşullar
Dizin oluşturucu eklentisini dağıtmadan önce, aşağıdaki gerekli bileşenlere sahip olduğunuzdan emin olun:
- Dizin oluşturucu eklentisini çalıştıran bir bilgisayarda Java JRE 1.8 yüklü
Cloud Search ve Norconex HTTP Collector arasında ilişki kurmak için gereken Google Workspace bilgileri:
- Google Workspace özel anahtarı (hizmet hesabı kimliğini içerir)
- Google Workspace veri kaynağı kimliği
Genellikle bu kimlik bilgilerini alanın Google Workspace yöneticisi sizin için sağlayabilir.
Dağıtım adımları
Dizin oluşturucu eklentisini dağıtmak için şu adımları izleyin:
- Norconex HTTP Collector'ı ve dizin aracı eklentisi yazılımını yükleyin
- Google Cloud Search'ü yapılandırma
- Norconex HTTP Toplayıcı'yı yapılandırma
- Web taramasını yapılandırma
- Web taraması ve içerik yükleme başlatma
1. Adım: Norconex HTTP Collector'ı ve dizinleyici eklenti yazılımını yükleyin
- Norconex kaydetme yazılımını bu sayfadan indirin.
- İndirilen yazılımı
~/norconex/
klasörüne çıkarın - GitHub'dan kaydetme eklentisini klonlayın.
git clone https://github.com/google-cloudsearch/norconex-committer-plugin.git
, ardındancd norconex-committer-plugin
- Kaydetme eklentisinin istediğiniz sürümünü kontrol edin ve ZIP dosyasını oluşturun:
git checkout tags/v1-0.0.3
vemvn package
(Bağlayıcıyı oluştururken testleri atlamak içinmvn package -DskipTests
kullanın.) cd target
- Derlenen eklenti jar dosyasını norconex lib dizinine kopyalayın.
cp google-cloudsearch-norconex-committer-plugin-v1-0.0.3.jar ~/norconex/norconex-collector-http-{version}/lib
- Yeni oluşturduğunuz ZIP dosyasını çıkarın, ardından dosyanın sıkıştırmasını açın:
unzip google-cloudsearch-norconex-committer-plugin-v1-0.0.3.zip
- Eklentinin .jar dosyasını ve gerekli tüm kitaplıkları http toplayıcının dizinine kopyalamak için yükleme komut dosyasını çalıştırın:
- Yukarıda açılan sıkıştırılmış kayıtlı eklentisindeki değişiklik:
cd google-cloudsearch-norconex-committer-plugin-v1-0.0.3
$ sh install.sh
komutunu çalıştırın ve istendiğinde hedef dizin olaraknorconex/norconex-collector-http-{version}/lib
dosyasının tam yolunu sağlayın.- Kopya jar dosyaları bulunursa
1
seçeneğini belirleyin (Kaynak Jar'ı kopyala) (yalnızca hedef Jar yeniden adlandırıldıktan sonra hedef Jar sürümünden daha büyük veya aynı sürümse).
- Yukarıda açılan sıkıştırılmış kayıtlı eklentisindeki değişiklik:
2. Adım: Google Cloud Search'ü yapılandırın
Dizin oluşturucu eklentisinin Norconex HTTP Collector'a bağlanıp ilgili içeriği dizine eklemesi için Cloud Search yapılandırma dosyasını Norconex HTTP Collector'ın yüklü olduğu Norconex dizininde oluşturmanız gerekir. Google, Cloud Search yapılandırma dosyasını sdk-configuration.properties
olarak adlandırmanızı önerir.
Bu yapılandırma dosyası, bir parametreyi tanımlayan anahtar/değer çiftleri içermelidir. Yapılandırma dosyası, Cloud Search veri kaynağına erişmek için gerekli olan en az aşağıdaki parametreleri belirtmelidir.
Ayar | Parametre |
Veri kaynağı kimliği | api.sourceId = 1234567890abcdef
Zorunlu. Google Workspace yöneticisi tarafından ayarlanan Cloud Search kaynak kimliği. |
Hizmet hesabı | api.serviceAccountPrivateKeyFile = ./PrivateKey.json
Zorunlu. Dizin oluşturucu eklentisi erişilebilirliği için Google Workspace yöneticisi tarafından oluşturulan Cloud Search hizmet hesabı anahtar dosyası. |
Aşağıdaki örnekte bir sdk-configuration.properties
dosyası gösterilmektedir.
#
# data source access
api.sourceId=1234567890abcdef
api.serviceAccountPrivateKeyFile=./PrivateKey.json
#
Yapılandırma dosyası, Google'ın sağladığı yapılandırma parametrelerini de içerebilir.
Bu parametreler, bu eklentinin Google Cloud Search API'ye veri aktarma şeklini etkileyebilir. Örneğin, batch.*
parametre grubu, bağlayıcının istekleri nasıl birleştirdiğini tanımlar.
Yapılandırma dosyasında bir parametre tanımlamazsanız, varsa varsayılan değer kullanılır. Her parametrenin ayrıntılı açıklamaları için Google'ın sağladığı bağlayıcı parametreleri bölümüne bakın.
Dizine eklenen içerik için meta verileri ve yapılandırılmış verileri dolduracak şekilde dizinleyici eklentisini yapılandırabilirsiniz. Meta veri ve yapılandırılmış veri alanları için doldurulacak değerler, dizine eklenen HTML içeriğindeki meta etiketlerden çıkarılabilir veya varsayılan değerler yapılandırma dosyasında belirtilebilir.
Ayar | Parametre |
Başlık | itemMetadata.title.field=movieTitle
itemMetadata.title.defaultValue=Gone with the Wind
Eklenti, dizine eklenen dokümanın başlığı olarak varsayılan olarak HTML title ifadesini kullanır. Eksik başlık olması durumunda, belge başlığına karşılık gelen değeri içeren meta veri özniteliğine başvurabilir veya varsayılan bir değer ayarlayabilirsiniz.
|
Oluşturulma zaman damgası | itemMetadata.createTime.field=releaseDate
itemMetadata.createTime.defaultValue=1940-01-17
Belge oluşturma zaman damgası değerini içeren meta veri özelliği. |
Son değiştirilme zamanı | itemMetadata.updateTime.field=releaseDate
itemMetadata.updateTime.defaultValue=1940-01-17
Belgenin son değişiklik zaman damgasının değerini içeren meta veri özelliği. |
Doküman dili | itemMetadata.contentLanguage.field=languageCode
itemMetadata.contentLanguage.defaultValue=en-US
Dizine eklenen dokümanların içerik dili. |
Şema nesnesi türü | itemMetadata.objectType=movie
Veri kaynağı şeması nesne tanımlarında tanımlandığı şekilde site tarafından kullanılan nesne türü. Bu özellik belirtilmezse bağlayıcı, yapılandırılmış verileri dizine eklemez.
Not: Bu yapılandırma özelliği, bir meta veri özelliği yerine bir değere işaret eder. |
Tarih ve saat biçimleri
Tarih ve saat biçimleri, meta veri özelliklerinde beklenen biçimleri belirtir. Yapılandırma dosyası bu parametreyi içermiyorsa varsayılan değerler kullanılır. Aşağıdaki tabloda bu parametre gösterilmektedir.
Ayar
Parametre
Ek tarih ve saat kalıpları
structuredData.dateTimePatterns=MM/dd/uuuu HH:mm:ssXXX
Ek java.time.format.DateTimeFormatter kalıplarının noktalı virgülle ayrılmış listesi. Kalıplar, meta veri veya şemadaki herhangi bir tarih ya da tarih-saat alanı için dize değerleri ayrıştırılırken kullanılır. Varsayılan değer boş bir listedir ancak RFC 3339 ve RFC 1123 biçimleri her zaman desteklenir.
3. Adım: Norconex HTTP Toplayıcı'yı yapılandırın
Zip arşivi norconex-committer-google-cloud-search-{version}.zip
içinde bir örnek yapılandırma dosyası (minimum-config.xml
) bulunur.
Google, yapılandırmaya örnek dosyayı kopyalayarak başlamanızı önerir:
- Norconex HTTP Collector dizinine geçin:
$ cd ~/norconex/norconex-collector-http-{version}/
- Yapılandırma dosyasını kopyalayın:
$ cp examples/minimum/minimum-config.xml gcs-crawl-config.xml
- Yeni oluşturulan dosyayı düzenleyin (bu örnekte,
gcs-crawl-config.xml
) ve mevcut<committer>
ve<tagger>
düğümlerini aşağıdaki tabloda açıklandığı gibi ekleyin veya değiştirin.
Ayar | Parametre |
<committer> node
|
<committer class="com.norconex.committer.googlecloudsearch.
GoogleCloudSearchCommitter">
Zorunlu. Eklentiyi etkinleştirmek için kök <httpcollector> düğümünün alt öğesi olarak bir <committer> düğümü eklemeniz gerekir.
|
<UploadFormat>
|
<uploadFormat>raw</uploadFormat>
İsteğe bağlı. Dizin oluşturucu eklentisinin, doküman içeriğini Google Cloud Search dizinleyici API'sine aktarma biçimi. Geçerli değerler şunlardır:
Varsayılan değer raw değeridir.
|
BinaryContent Tagger <tagger> node
|
<tagger class="com.norconex.committer.googlecloudsearch.BinaryContentTagger"/>
<UploadFormat> değeri raw ise zorunludur. Bu durumda, dizinleyici eklentisi, belgenin ikili içerik alanının kullanılabilir olmasını gerektirir.
BinaryContentTagger <tagger> düğümünü <importer> / <preParseHandlers> düğümünün alt öğesi olarak eklemeniz gerekir.
|
Aşağıdaki örnekte, gcs-crawl-config.xml
üzerinde yapılması gereken değişiklikler gösterilmektedir.
<committer class="com.norconex.committer.googlecloudsearch.GoogleCloudSearchCommitter">
<configFilePath>/full/path/to/gcs-sdk-config.properties</configFilePath>
<uploadFormat>raw</uploadFormat>
</committer>
<importer>
<preParseHandlers>
<tagger class="com.norconex.committer.googlecloudsearch.BinaryContentTagger"/>
</preParseHandlers>
</importer>
4. Adım: Web taramasını yapılandırın
Bir web taramasına başlamadan önce, taramayı yalnızca kuruluşunuzun arama sonuçlarında kullanılabilir hale getirmek istediği bilgileri içerecek şekilde yapılandırmanız gerekir. Web taraması için en önemli ayarlar <crawler>
düğümlerinin bir parçasıdır ve şunları içerebilir:
- Başlangıç URL'leri
- Maksimum tarama derinliği
- İş parçacığı sayısı
Bu yapılandırma değerlerini ihtiyaçlarınıza göre değiştirin. Web taraması ayarlama hakkında daha ayrıntılı bilgi ve mevcut yapılandırma parametrelerinin tam listesi için HTTP Toplayıcı'nın Yapılandırma sayfasına bakın.
5. Adım: Web taraması ve içerik yükleme işlemi başlatın
Dizin oluşturucu eklentisini yükleyip kurduktan sonra, eklentiyi yerel modda kendi başına çalıştırabilirsiniz.
Aşağıdaki örnekte, gerekli bileşenlerin bir Linux sistemindeki yerel dizinde bulunduğu varsayılmaktadır. Aşağıdaki komutu çalıştırın:
$ ./collector-http[.bat|.sh] -a start -c gcs-crawl-config.xml
JEF Monitor ile tarayıcıyı izleme
Norconex JEF (İş Yürütme Çerçevesi) İzleyici, Norconex Web Tarayıcısı (HTTP Toplayıcı) işlemlerinin ve işlerinin ilerlemesini izlemek için kullanılan grafiksel bir araçtır. Bu yardımcı programın nasıl kurulacağıyla ilgili eksiksiz bir eğitim için JEF Monitor ile tarayıcınızın ilerleme durumunu izleme sayfasını ziyaret edin.