Bu kılavuz, Google Cloud Search Norconex HTTP Toplayıcı dizinleyicisi için hazırlanmıştır. eklenti yöneticileri, yani indirme işleminden sorumlu herkes, dizinleyici eklentisini dağıtma, yapılandırma ve sürdürme. Kılavuzda Linux işletim sistemleri, web'in temelleri tarama, XML ve Norconex HTTP Toplayıcısı.
Bu kılavuz, dizinleyiciyle ilgili temel görevlerin gerçekleştirilmesi için gereken talimatları içerir. eklenti dağıtımı:
- Dizine ekleme eklentisi yazılımını indirin
- Google Cloud Search'ü yapılandırma
- Norconex HTTP Collector'ı ve web taramasını yapılandırma
- Web taramasını başlatma ve içerik yükleme
Google Workspace yöneticisinin yapması gereken görevler hakkında bilgi Google Cloud Search'ü Norconex HTTP Collector dizinleyici eklentisiyle eşlemek için gerçekleştirilmesi bu kılavuzda yer almıyor. Bu görevlerle ilgili bilgi için Üçüncü taraf veri kaynaklarını yönetin.
Cloud Search Norconex HTTP Collector dizinleyici eklentisine genel bakış
Varsayılan olarak, Cloud Search aşağıdaki kaynaklardan gelen içerikleri keşfedebilir, dizine ekleyebilir ve sunabilir Google Dokümanlar ve Gmail gibi Google Workspace ürünleri. Süreyi uzatmak Google Cloud Search'ün erişim kapsamını genişletmeyi sağlayan için dizinleyici eklentisini dağıtma Norconex HTTP Toplayıcısı, web tarayıcısıdır.
Yapılandırma özelliği dosyaları
Dizine ekleme eklentisinin web'de tarama yapmasını ve siz, dizine ekleme eklentisi yöneticisi olarak, dizine ekleme için bu dokümanda açıklanan yapılandırma adımlarında yer alan tüm bilgileri Dağıtım adımları.
Dizine dönüştürücü eklentisini kullanmak için özellikleri iki yapılandırma dosyasında ayarlamanız gerekir:
{gcs-crawl-config.xml}
-- Norconex HTTP Collector ayarlarını içerir.sdk-configuration.properties
, Google Cloud Search ayarlarını içerir.
Her dosyadaki özellikler, Google Cloud Search dizinleyici eklentisini etkinleştirir ve Birbirleriyle iletişim kurmak için Norconex HTTP Collector.
Web taraması ve içerik yükleme
Yapılandırma dosyalarını doldurduktan sonra, web taramasını başlatmak için gerekli ayarları yapın. Norconex HTTP Collector taramaları yapılandırmaya ilişkin doküman içeriğini keşfederek Bulut'a belge içeriğinin orijinal ikili (veya metin) sürümlerini yükler Dizine eklenip kullanıcılarınıza sunulduğu Search Indexing API'si.
Desteklenen işletim sistemi
Google Cloud Search Norconex HTTP Toplayıcı dizinleyici eklentisi yüklü olmalıdır. tıklayın.
Desteklenen Norconex HTTP Collector sürümü
Google Cloud Search Norconex HTTP Toplayıcı dizinleyici eklentisi, sürümü destekler. 2.8.0.
EKL desteği
Dizine ekleme eklentisi, dizindeki dokümanlara erişimin kontrol edilmesini destekler. Erişim Kontrol Listeleri'ni (EKL'ler) kullanarak Google Workspace alanınız.
Google Cloud Search eklentisi yapılandırmasında varsayılan EKL'ler etkinleştirildiyse
(defaultAcl.mode
, none
dışında bir değere ayarlandı ve defaultAcl.*
ile yapılandırıldı),
dizinleyici eklentisi önce varsayılan bir EKL oluşturmayı ve uygulamayı dener.
Varsayılan EKL'ler etkinleştirilmezse eklenti tekrar okuma izni verir. Google Workspace alanının tamamında kullanmaya devam edebilir.
EKL yapılandırma parametrelerinin ayrıntılı açıklamaları için Google'ın sağladığı bağlayıcı parametreleri.
Ön koşullar
Dizine ekleme eklentisini dağıtmadan önce aşağıdakilerin geçerli olduğundan emin olun: gereken bileşenler:
- Dizine ekleme eklentisini çalıştıran bir bilgisayarda yüklü Java JRE 1.8
Google Workspace ve Google Cloud Cloud Search ve Norconex HTTP Collector:
- Google Workspace özel anahtarı (hizmet hesabı kimliğini içerir)
- Google Workspace veri kaynağı kimliği
Genellikle, bu bilgileri alanın Google Workspace yöneticisi sağlayabilir sahip olacaksınız.
Dağıtım adımları
Dizine ekleme eklentisini dağıtmak için şu adımları uygulayın:
- Norconex HTTP Collector'ı ve dizinleyici eklenti yazılımını yükleme
- Google Cloud Search'ü yapılandırma
- Norconex HTTP Collector'ı yapılandırma
- Web taramasını yapılandırma
- Web taraması ve içerik yükleme
1. Adım: Norconex HTTP Collector'ı ve dizinleyici eklenti yazılımını yükleyin
- Norconex Comperer yazılımını şuradan indirin: bu sayfada bulabilirsiniz.
- İndirilen yazılımı
~/norconex/
klasörüne çıkartın. - GitHub'dan işleyici eklentisini klonlayın.
git clone https://github.com/google-cloudsearch/norconex-committer-plugin.git
ve ardındancd norconex-committer-plugin
- Komer eklentisinde istediğiniz sürümü kontrol edin ve ZIP dosyasını oluşturun:
git checkout tags/v1-0.0.3
vemvn package
(Derleme sırasında testleri atlamak için) bağlayıcısı yerinemvn package -DskipTests
kullanın.) cd target
- Derlenen eklenti jar dosyasını norconex lib dizinine kopyalayın.
cp google-cloudsearch-norconex-committer-plugin-v1-0.0.3.jar ~/norconex/norconex-collector-http-{version}/lib
. - Az önce oluşturduğunuz ZIP dosyasını çıkarın ve sıkıştırılmış dosyayı açın:
unzip google-cloudsearch-norconex-committer-plugin-v1-0.0.3.zip
- Eklentinin .jar dosyasını ve gereken tüm dosyaları kopyalamak için yükleme komut dosyasını yürütün
kitaplıklarını http toplayıcının dizinine ekleyin:
- Yukarıdan sıkıştırılmış dosyadan çıkarılan ayıklayıcı eklentisine geçin:
cd google-cloudsearch-norconex-committer-plugin-v1-0.0.3
$ sh install.sh
komutunu yürütün ve içeriğe tam yolu sağlayın: Hedef olaraknorconex/norconex-collector-http-{version}/lib
dizini görünür.- Yinelenen jar dosyaları bulunursa
1
(Yalnızca kaynak Jar dosyasını kopyala) seçeneğini belirleyin (hedef Jar yeniden adlandırıldıktan sonra hedef Jar ile aynı sürümden daha büyük veya aynı sürüm).
- Yukarıdan sıkıştırılmış dosyadan çıkarılan ayıklayıcı eklentisine geçin:
2. Adım: Google Cloud Search'ü yapılandırın
Dizine ekleme eklentisinin Norconex HTTP Collector'a bağlanması ve
Cloud Search yapılandırma dosyasını
Norconex HTTP Collector'ın yüklü olduğu Norconex dizini. Google'ın önerisi
Cloud Search yapılandırma dosyasını
sdk-configuration.properties
Bu yapılandırma dosyası, bir parametreyi tanımlayan anahtar/değer çiftlerini içermelidir. Yapılandırma dosyası, en azından şu parametreleri belirtmelidir: Cloud Search veri kaynağına erişmek için gereklidir.
Yer | Parametre |
Veri kaynağı kimliği | api.sourceId = 1234567890abcdef
Zorunlu. Google Workspace yöneticisi tarafından oluşturulan Cloud Search kaynak kimliği. |
Hizmet hesabı | api.serviceAccountPrivateKeyFile = ./PrivateKey.json
Zorunlu. Dizine dönüştürücü eklentisi erişilebilirliği için Google Workspace yöneticisi tarafından oluşturulan Cloud Search hizmet hesabı anahtar dosyası. |
Aşağıdaki örnekte bir sdk-configuration.properties
dosyası gösterilmektedir.
#
# data source access
api.sourceId=1234567890abcdef
api.serviceAccountPrivateKeyFile=./PrivateKey.json
#
Yapılandırma dosyası, Google tarafından sağlanan yapılandırma parametrelerini de içerebilir.
Bu parametreler, bu eklentinin Google Cloud Search API'ye veri aktarma şeklini etkileyebilir. Örneğin, batch.*
parametre grubu
bağlayıcının istekleri nasıl birleştirdiğini tanımlar.
Yapılandırma dosyasında bir parametre tanımlamazsanız varsayılan değer olan varsa kullanılır. Her bir parametrenin ayrıntılı açıklamaları için Google'ın sağladığı bağlayıcı parametreleri.
Dizine ekleme eklentisini yapılandırarak dizine eklenir. Meta veri ve yapılandırılmış veriler için doldurulacak değerler alanlar, dizine eklenmek üzere HTML içeriğindeki meta etiketlerden çıkarılabilir veya yapılandırma dosyasında varsayılan değerler belirtilebilir.
Ayar | Parametre |
Başlık | itemMetadata.title.field=movieTitle
itemMetadata.title.defaultValue=Gone with the Wind
Varsayılan olarak, eklenti dizine eklenen dokümanın başlığı olarak HTML title değerini kullanır. Eksik başlık olması durumunda
doküman başlığına karşılık gelen değeri içeren meta veri özelliği veya varsayılan bir değer belirleyin.
|
Oluşturma zaman damgası | itemMetadata.createTime.field=releaseDate
itemMetadata.createTime.defaultValue=1940-01-17
Doküman oluşturma zaman damgası değerini içeren meta veri özelliği. |
Son değiştirilme zamanı | itemMetadata.updateTime.field=releaseDate
itemMetadata.updateTime.defaultValue=1940-01-17
Dokümanın son değiştirme zaman damgasının değerini içeren meta veri özelliği. |
Belge dili | itemMetadata.contentLanguage.field=languageCode
itemMetadata.contentLanguage.defaultValue=en-US
Dizine eklenen dokümanların içerik dili. |
Şema nesnesi türü | itemMetadata.objectType=movie
Aşağıda tanımlandığı şekilde, site tarafından kullanılan nesne türü veri kaynağı şeması nesne tanımlarını inceleyin. Bağlayıcı, hiçbir öğeyi yapılandırılmış verileri içeren Google Analytics 4'te veri sağlar.
Not: Bu yapılandırma özelliği,
bir meta veri özelliğinden ve |
Tarih ve saat biçimleri
Tarih ve saat biçimleri, meta veri özelliklerinde beklenen biçimleri belirtir. Yapılandırma dosyası bu parametreyi içermiyorsa varsayılan değerler kullanılır. Aşağıdaki tabloda bu parametre gösterilmektedir.
Ayar
Parametre
Ek tarih ve saat kalıpları
structuredData.dateTimePatterns=MM/dd/uuuu HH:mm:ssXXX
Ek java.time.format.DateTimeFormatter öğesinin noktalı virgülle ayrılmış listesi belirler. Kalıplar, herhangi bir tarih veya tarih/saat için dize değerleri ayrıştırılırken kullanılır. alanları için de uygun değildir. Varsayılan değer boş bir listedir. ancak RFC 3339 ve RFC 1123 biçimleri her zaman desteklenir.
3. Adım: Norconex HTTP Toplayıcıyı yapılandırın
norconex-committer-google-cloud-search-{version}.zip
zip arşivi bir
örnek yapılandırma dosyası, minimum-config.xml
.
Google, örnek dosyayı kopyalayarak yapılandırmaya başlamanızı önerir:
- Norconex HTTP Collector dizinine geçin:
$ cd ~/norconex/norconex-collector-http-{version}/
- Yapılandırma dosyasını kopyalayın:
$ cp examples/minimum/minimum-config.xml gcs-crawl-config.xml
- Yeni oluşturulan dosyayı düzenleyin (bu örnekte
gcs-crawl-config.xml
) ve aşağıdaki şekilde açıklandığı gibi mevcut<committer>
ve<tagger>
düğümlerini ekleyin veya değiştirin aşağıdaki tabloda bulabilirsiniz.
Yer | Parametre |
<committer> node
|
<committer class="com.norconex.committer.googlecloudsearch.
GoogleCloudSearchCommitter">
Zorunludur. Eklentiyi etkinleştirmek için kök <httpcollector> düğümünün alt öğesi olarak bir <committer> düğümü eklemeniz gerekir.
|
<UploadFormat>
|
<uploadFormat>raw</uploadFormat>
İsteğe bağlı. Dizine ekleme eklentisinin, doküman içeriğini Google Cloud Search dizinleyici API'sine aktarma biçimi. Geçerli değerler aşağıda belirtilmiştir:
Varsayılan değer raw .
|
BinaryContent Tagger <tagger> node
|
<tagger class="com.norconex.committer.googlecloudsearch.BinaryContentTagger"/>
<UploadFormat> değeri raw ise gereklidir. Bu durumda, dizinleyici eklentisi dokümanın ikili içerik alanının kullanılabilir olmasını gerektirir.
BinaryContentTagger <tagger> düğümünü, <importer> / <preParseHandlers> düğümünün alt öğesi olarak eklemeniz gerekir.
|
Aşağıdaki örnekte, dönüşüm izleme için
gcs-crawl-config.xml
.
<committer class="com.norconex.committer.googlecloudsearch.GoogleCloudSearchCommitter">
<configFilePath>/full/path/to/gcs-sdk-config.properties</configFilePath>
<uploadFormat>raw</uploadFormat>
</committer>
<importer>
<preParseHandlers>
<tagger class="com.norconex.committer.googlecloudsearch.BinaryContentTagger"/>
</preParseHandlers>
</importer>
4. Adım: Web taramasını yapılandırın
Web taraması başlatmadan önce, taramayı yalnızca
kuruluşunuzun aramada kullanılabilir hale getirmek istediği bilgileri içeriyorsa
sonuç. Web taraması için en önemli ayarlar <crawler>
kapsamındadır
düğümler ve şunları içerebilir:
- Başlangıç URL'leri
- Maksimum tarama derinliği
- İş parçacığı sayısı
Bu yapılandırma değerlerini ihtiyaçlarınıza göre değiştirin. Daha ayrıntılı bilgileri ve kullanılabilir tam listesi için yapılandırma parametreleri için HTTP Toplayıcı Yapılandırma sayfasını ziyaret edin.
5. Adım: Web taraması ve içerik yükleme başlatın
Dizine ekleme eklentisini yükleyip ayarladıktan sonra, eklentiyi yerel modda çalışır.
Aşağıdaki örnekte, gerekli bileşenlerin yerel dizini olur. Aşağıdaki komutu çalıştırın:
$ ./collector-http[.bat|.sh] -a start -c gcs-crawl-config.xml
JEF Monitor ile tarayıcıyı izleme
Norconex JEF (İş Yürütme Çerçevesi) Monitörü, Norconex Web Tarayıcısı (HTTP Toplayıcı) işlemlerinin ilerleme durumunu izleme ve işler. Bu yardımcı programın nasıl kurulacağına ilişkin tam bir eğitim için Tarayıcınızın ilerleme durumunu JEF Monitor ile izleyin.