Implantar o plug-in indexador do Norconex HTTP Collector

Este guia é destinado a administradores responsáveis por fazer o download, implantar e manter o plug-in indexador do Norconex HTTP Collector para Google Cloud Search. Você precisa estar familiarizado com o Linux, os princípios básicos do rastreamento da Web, XML e o Norconex HTTP Collector.

Este guia inclui instruções para:

Fazer o download do software do plug-in indexador.
Configurar o Cloud Search.
Configurar o Norconex HTTP Collector e o rastreamento da Web.
Iniciar o rastreamento da Web e fazer upload do conteúdo.

As informações sobre as tarefas que o administrador do Google Workspace precisa executar não aparecem neste guia. Para mais informações sobre essas tarefas, consulte Gerenciar fontes de dados de terceiros.

Visão geral do plug-in indexador do Norconex HTTP Collector

Por padrão, o Cloud Search pode detectar, indexar e exibir conteúdo de produtos do Google Workspace, como o Google Docs e o Gmail. É possível estender isso para incluir conteúdo da Web implantando o plug-in indexador do Norconex HTTP Collector, um rastreador da Web de código aberto para empresas.

Arquivos de propriedades de configuração

Para permitir que o plug-in rastreie e faça upload de conteúdo, é necessário fornecer informações específicas em dois arquivos de configuração:

{gcs-crawl-config.xml}: configurações do Norconex HTTP Collector.
sdk-configuration.properties: configurações do Cloud Search.

Rastreamento da Web e upload de conteúdo

Depois de preencher os arquivos de configuração, você pode iniciar o rastreamento da Web. O Norconex HTTP Collector rastreia a Web e faz o upload do conteúdo original de documentos binários ou de texto para a API Indexing do Cloud Search.

Requisitos do sistema

Sistema operacional: somente Linux.
Versão do Norconex: versão 2.8.0.
Software: Java JRE 1.8.

Compatibilidade com ACLs

O plug-in indexador é compatível com listas de controle de acesso (ACLs, na sigla em inglês) para controlar o acesso a documentos no domínio do Google Workspace.

Se você ativar as ACLs padrão na configuração do plug-in (defaultAcl.mode definido como diferente de none), o plug-in vai aplicar esses padrões. Caso contrário, o plug-in vai conceder permissão de leitura a todo o domínio. Consulte Parâmetros do conector fornecidos pelo Google.

Pré-requisitos

Antes de implantar o plug-in indexador, reúna estes componentes:

Chave privada do Google Workspace (que contém o ID da conta de serviço). Consulte Configurar o acesso à API do Cloud Search.
ID da origem de dados do Google Workspace. Consulte Gerenciar fontes de dados de terceiros.

Etapas da implantação

Instalar o Norconex HTTP Collector e o software do plug-in
Configurar o Cloud Search
Configurar o Norconex HTTP Collector
Configurar o rastreamento da Web
Iniciar um rastreamento da Web e fazer upload do conteúdo

Etapa 1: instalar o Norconex HTTP Collector e o software do plug-in

Faça o download do software confirmador da Norconex na página de download da Norconex.
Extraia o software para ~/norconex/.

Clonar o plug-in do autor do commit:

git clone https://github.com/google-cloudsearch/norconex-committer-plugin.git
cd norconex-committer-plugin

Faça o check-out da versão selecionada e crie o plug-in:
```
git checkout tags/v1-0.0.3
mvn package
```
Para pular os testes, use mvn package -DskipTests.

Copie o arquivo JAR para o diretório lib do Norconex:

cp target/google-cloudsearch-norconex-committer-plugin-v1-0.0.3.jar ~/norconex/norconex-collector-http-VERSION/lib

Extraia o arquivo ZIP criado:

unzip target/google-cloudsearch-norconex-committer-plugin-v1-0.0.3.zip
cd google-cloudsearch-norconex-committer-plugin-v1-0.0.3

Execute o script de instalação e forneça o caminho completo para o diretório lib do Norconex:
```
sh install.sh
```
Se você receber uma solicitação de arquivos duplicados, selecione a opção 1.

Etapa 2: configurar o Cloud Search

Crie sdk-configuration.properties no diretório do Norconex. O arquivo precisa especificar estes parâmetros:

Configuração	Parâmetro
Código da origem de dados	`api.sourceId = 1234567890abcdef` Obrigatório. O ID da origem do administrador do Google Workspace.
Conta de serviço	`api.serviceAccountPrivateKeyFile = ./PrivateKey.json` Obrigatório. O arquivo de chave da conta de serviço.

Exemplo de sdk-configuration.properties:

# data source access
api.sourceId=1234567890abcdef
api.serviceAccountPrivateKeyFile=./PrivateKey.json

Também é possível incluir parâmetros como batch.* para controlar como o plug-in envia dados. Consulte Parâmetros do conector fornecidos pelo Google.

Para preencher os metadados, configure estes parâmetros opcionais:

Configuração	Parâmetro
Título	`itemMetadata.title.field=movieTitle`
Tipo de objeto de esquema	`itemMetadata.objectType=movie`

Etapa 3: configurar o Norconex HTTP Collector

O plug-in inclui um arquivo de amostra, minimum-config.xml.

Mude para o diretório do Norconex e copie a amostra:

cd ~/norconex/norconex-collector-http-VERSION/
cp examples/minimum/minimum-config.xml gcs-crawl-config.xml

Edite gcs-crawl-config.xml para adicionar ou substituir <committer> e <tagger> nós:

Configuração	Parâmetro
Nó `<committer>`	`<committer class="com.norconex.committer.googlecloudsearch.GoogleCloudSearchCommitter">` Obrigatório. Adicione isso ao nó `<httpcollector>`.
`<uploadFormat>`	`<uploadFormat>raw</uploadFormat>` Opcional. `raw` ou `text`. O padrão é `raw`.

Exemplo de gcs-crawl-config.xml:

<committer class="com.norconex.committer.googlecloudsearch.GoogleCloudSearchCommitter">
    <configFilePath>/full/path/to/gcs-sdk-config.properties</configFilePath>
    <uploadFormat>raw</uploadFormat>
</committer>
<importer>
  <preParseHandlers>
    <tagger class="com.norconex.committer.googlecloudsearch.BinaryContentTagger"/>
  </preParseHandlers>
</importer>

Etapa 4: configurar o rastreamento da Web

Configure os nós <crawler> de acordo com suas necessidades, incluindo:

URLs de início
Profundidade máxima do rastreamento
Número de threads

Consulte a página de configuração do Norconex (em inglês).

Etapa 5: iniciar um rastreamento da Web e fazer upload do conteúdo

Execute o coletor no modo local:

./collector-http[.bat|.sh] -a start -c gcs-crawl-config.xml

Monitorar o rastreador com o JEF Monitor

O Norconex JEF (Job Execution Framework) Monitor oferece uma visualização gráfica do progresso. Consulte Monitorar o rastreador com o JEF Monitor (em inglês).

Implantar o plug-in indexador do Norconex HTTP Collector Mantenha tudo organizado com as coleções Salve e categorize o conteúdo com base nas suas preferências.