Bu kılavuz, Google Cloud Search Norconex HTTP Collector dizin oluşturucu eklentisini indirmek, dağıtmak ve bakımını yapmakla sorumlu yöneticiler içindir. Linux, web tarama temelleri, XML ve Norconex HTTP Collector hakkında bilgi sahibi olmanız gerekir.
Bu kılavuzda aşağıdaki işlemlerle ilgili talimatlar yer almaktadır:
- Dizin oluşturucu eklenti yazılımını indirin.
- Cloud Search'ü yapılandırın.
- Norconex HTTP Collector'ı ve web taramayı yapılandırın.
- Web taramasına başlayın ve içerik yükleyin.
Google Workspace yöneticisinin gerçekleştirmesi gereken görevlerle ilgili bilgiler bu kılavuzda yer almaz. Bu görevler hakkında bilgi edinmek için Üçüncü taraf veri kaynaklarını yönetme başlıklı makaleyi inceleyin.
Norconex HTTP Collector indexer eklentisine genel bakış
Cloud Search, varsayılan olarak Google Dokümanlar ve Gmail gibi Google Workspace ürünlerindeki içerikleri keşfedebilir, dizine ekleyebilir ve sunabilir. Açık kaynaklı bir kurumsal web tarayıcısı olan Norconex HTTP Collector için dizin oluşturucu eklentisini dağıtarak bu kapsamı web içeriğini de içerecek şekilde genişletebilirsiniz.
Yapılandırma özellikleri dosyaları
Eklentinin içeriği tarayıp yüklemesini sağlamak için iki yapılandırma dosyasında belirli bilgileri sağlamanız gerekir:
{gcs-crawl-config.xml}: Norconex HTTP Collector'ın ayarları.sdk-configuration.properties: Cloud Search ayarları.
Web'de gezinme ve içerik yükleme
Yapılandırma dosyalarını doldurduktan sonra web'i taramaya başlayabilirsiniz. Norconex HTTP Collector, web'i tarar ve orijinal ikili veya metin belgesi içeriğini Cloud Search Dizine Ekleme API'sine yükler.
Sistem gereksinimleri
- İşletim sistemi: Yalnızca Linux.
- Norconex sürümü: 2.8.0 sürümü.
- Yazılım: Java JRE 1.8.
EKL desteği
Dizin oluşturucu eklentisi, Google Workspace alanındaki belgelere erişimi kontrol etmek için erişim kontrol listelerini (EKL'ler) destekler.
Eklenti yapılandırmasında varsayılan ACL'leri etkinleştirirseniz (defaultAcl.mode, none dışında bir değere ayarlanırsa) eklenti bu varsayılanları uygular. Aksi takdirde, eklenti tüm alan için okuma izni verir. Google tarafından sağlanan bağlayıcı parametreleri başlıklı makaleyi inceleyin.
Ön koşullar
Dizin oluşturucu eklentisini dağıtmadan önce şu bileşenleri toplayın:
- Google Workspace özel anahtarı (hizmet hesabı kimliğini içerir). Cloud Search API'ye erişimi yapılandırma başlıklı makaleyi inceleyin.
- Google Workspace veri kaynağı kimliği. Üçüncü taraf veri kaynaklarını yönetme başlıklı makaleyi inceleyin.
Dağıtım adımları
- Norconex HTTP Collector ve eklenti yazılımını yükleme
- Cloud Search'ü yapılandırma
- Norconex HTTP Collector'ı yapılandırma
- Web taraması yapılandırma
- Web taraması ve içerik yükleme başlatma
1. adım: Norconex HTTP Collector'ı ve eklenti yazılımını yükleyin
- Norconex committer yazılımını Norconex indirme sayfasından indirin.
- Yazılımı
~/norconex/konumuna çıkarın. Commiter eklentisini klonlayın:
git clone https://github.com/google-cloudsearch/norconex-committer-plugin.git cd norconex-committer-pluginSeçtiğiniz sürümü inceleyin ve eklentiyi oluşturun:
git checkout tags/v1-0.0.3 mvn packageTestleri atlamak için
mvn package -DskipTestskullanın.JAR dosyasını Norconex
libdizinine kopyalayın:cp target/google-cloudsearch-norconex-committer-plugin-v1-0.0.3.jar ~/norconex/norconex-collector-http-VERSION/libOluşturulan ZIP dosyasını çıkarın:
unzip target/google-cloudsearch-norconex-committer-plugin-v1-0.0.3.zip cd google-cloudsearch-norconex-committer-plugin-v1-0.0.3Yükleme komut dosyasını çalıştırın ve Norconex
libdizininin tam yolunu girin:sh install.shYinelenen dosyalar için istenirse
1seçeneğini belirleyin.
2. adım: Cloud Search'ü yapılandırın
Norconex dizininde sdk-configuration.properties oluşturun. Dosyada şu parametreler belirtilmelidir:
| Ayar | Parametre |
| Veri kaynağı kimliği | api.sourceId = 1234567890abcdef
Zorunlu. Google Workspace yöneticinizden aldığınız kaynak kimliği. |
| Hizmet hesabı | api.serviceAccountPrivateKeyFile = ./PrivateKey.json
Zorunlu. Hizmet hesabı anahtar dosyası. |
Örnek sdk-configuration.properties:
# data source access
api.sourceId=1234567890abcdef
api.serviceAccountPrivateKeyFile=./PrivateKey.json
Eklentinin verileri nasıl göndereceğini kontrol etmek için batch.* gibi parametreler de ekleyebilirsiniz. Google tarafından sağlanan bağlayıcı parametreleri başlıklı makaleyi inceleyin.
Meta verileri doldurmak için aşağıdaki isteğe bağlı parametreleri yapılandırın:
| Ayar | Parametre |
| Başlık | itemMetadata.title.field=movieTitle |
| Şema nesne türü | itemMetadata.objectType=movie |
3. adım: Norconex HTTP Collector'ı yapılandırın
Eklenti, minimum-config.xml adlı bir örnek dosya içerir.
Norconex dizinine geçin ve örneği kopyalayın:
cd ~/norconex/norconex-collector-http-VERSION/ cp examples/minimum/minimum-config.xml gcs-crawl-config.xml<committer>ve<tagger>düğümlerini eklemek veya değiştirmek içingcs-crawl-config.xmlöğesini düzenleyin:
| Ayar | Parametre |
<committer> düğümü |
<committer class="com.norconex.committer.googlecloudsearch.GoogleCloudSearchCommitter">
Zorunlu. Bunu <httpcollector> düğümünün altına ekleyin. |
<uploadFormat> |
<uploadFormat>raw</uploadFormat>
İsteğe bağlıdır. raw veya text. Varsayılan değer: raw. |
Örnek gcs-crawl-config.xml:
<committer class="com.norconex.committer.googlecloudsearch.GoogleCloudSearchCommitter">
<configFilePath>/full/path/to/gcs-sdk-config.properties</configFilePath>
<uploadFormat>raw</uploadFormat>
</committer>
<importer>
<preParseHandlers>
<tagger class="com.norconex.committer.googlecloudsearch.BinaryContentTagger"/>
</preParseHandlers>
</importer>
4. adım: Web taramayı yapılandırın
Aşağıdakiler de dahil olmak üzere <crawler> düğümlerini ihtiyaçlarınıza göre yapılandırın:
- Başlangıç URL'leri
- Maksimum tarama derinliği
- İleti dizisi sayısı
Norconex yapılandırma sayfasını inceleyin.
5. adım: Web taraması ve içerik yükleme başlatma
Toplayıcıyı yerel modda çalıştırın:
./collector-http[.bat|.sh] -a start -c gcs-crawl-config.xml
JEF Monitor ile tarayıcıyı izleme
Norconex JEF (Job Execution Framework) Monitor, ilerleme durumuyla ilgili grafik görünüm sağlar. JEF Monitor ile tarayıcınızı izleme başlıklı makaleyi inceleyin.