Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

创建内容连接器

内容连接器是一种软件程序，用于遍历企业代码库中的数据并填充数据源。针对内容连接器的开发，Google 提供了以下选项：

内容连接器 SDK。对于 Java 程序员来说，这是一个不错的选择。该 SDK 是 REST API 的封装容器，可让您快速创建连接器。如需使用 SDK 创建内容连接器，请参阅使用内容连接器 SDK 创建内容连接器。
低层级 REST API 或 API 库。如果您不使用 Java，或者您的代码库更适合 REST API 或库，请使用这些选项。如需使用 REST API 创建内容连接器，请参阅使用 REST API 创建内容连接器。

一个典型的内容连接器会执行以下任务：

读取和处理配置参数。
从第三方代码库中提取离散的可索引数据块，即“项”。
将 ACL、元数据和内容数据合并到可索引项中。
将项编入 Cloud Search 数据源的索引中。
（可选）侦听来自代码库的更改通知。更改通知将转换为索引请求，以使 Cloud Search 数据源保持同步。连接器仅在代码库支持更改检测的情况下执行此任务。

使用内容连接器 SDK 创建内容连接器

以下部分介绍如何使用内容连接器 SDK 创建内容连接器。

设置依赖项

在 build 文件中添加这些依赖项。

Maven

xml <dependency> <groupId>com.google.enterprise.cloudsearch</groupId> <artifactId>google-cloudsearch-indexing-connector-sdk</artifactId> <version>v1-0.0.3</version> </dependency>

Gradle

groovy compile group: 'com.google.enterprise.cloudsearch', name: 'google-cloudsearch-indexing-connector-sdk', version: 'v1-0.0.3'

创建连接器配置

每个连接器都使用一个配置文件来存储参数，例如您的代码库 ID。将参数定义为键值对，例如 api.sourceId=1234567890abcdef。

Google Cloud Search SDK 包含 Google 提供的适用于所有连接器的参数。您必须在配置文件中声明以下内容：

内容连接器：声明 api.sourceId 和 api.serviceAccountPrivateKeyFile。这些参数用于标识您的代码库以及访问代码库所需的私钥。

身份连接器：声明 api.identitySourceId 以标识您的外部身份源。对于用户同步，还需声明 api.customerId（您的 Google Workspace 账号的唯一 ID）。

仅在需要替换其他由 Google 提供的参数的默认值时，才声明这些参数。如需详细了解如何生成 ID 和密钥，请参阅 Google 提供的参数。

您还可以在配置文件中定义代码库专属参数。

将配置文件传递给连接器

设置 config 系统属性以传递配置文件。启动连接器时使用 -D 实参。例如：

java -classpath myconnector.jar -Dconfig=MyConfig.properties MyConnector

如果您省略此实参，SDK 会尝试使用本地目录中名为 connector-config.properties 的文件。

确定您的遍历策略

内容连接器的主要功能是遍历代码库并为其数据编制索引。您必须根据代码库的大小和布局实现相应策略。您可以自行设计策略，也可以从 SDK 中选择策略：

完全遍历策略: 扫描整个代码库，并将每一项都编入索引。此策略最适合小型代码库，因为您能够负担得起每次编制索引时进行完全遍历的开销。此策略适用于大部分数据都处于静态且不分层的小型代码库，或者难以进行更改检测的情况。
列表遍历策略: 扫描整个代码库以确定每一项的状态，然后仅对新项或更新后的项编制索引。当不支持更改检测时，使用此策略对大型非分层索引进行增量更新。
图遍历: 扫描父节点以确定其项的状态，然后对该节点中的新项或更新项编制索引。然后，它会以递归方式处理子节点。对于列出所有 ID 不切实际的分层代码库（例如目录结构或网站），请使用此方法。

SDK 在模板连接器类中实现了这些策略。这些模板可以加快您的开发速度。如需使用模板，请参阅相应部分：

使用模板类创建完全遍历连接器
使用模板类创建列表遍历连接器
使用模板类创建图形遍历连接器

使用模板类创建完全遍历连接器

本部分引用了 FullTraversalSample 中的代码。

实现连接器入口点

入口点是 main() 方法。它会创建一个 Application 实例并调用 start() 来运行连接器。

在调用 application.start() 之前，请使用 IndexingApplication.Builder 类实例化 FullTraversalConnector 模板。此模板接受 Repository 对象。

FullTraversalSample.java

创建内容连接器 使用集合让一切井井有条 根据您的偏好保存内容并对其进行分类。

使用内容连接器 SDK 创建内容连接器

设置依赖项

Maven

Gradle

创建连接器配置

将配置文件传递给连接器

确定您的遍历策略

使用模板类创建完全遍历连接器

实现连接器入口点

实现 Repository 接口

获取自定义配置参数

执行完全遍历

设置项的权限

设置项的元数据

创建可索引项

在迭代器中打包每个可索引项

后续步骤

使用模板类创建列表遍历连接器

实现连接器入口点

实现 Repository 接口

执行列表遍历

推送项 ID 和哈希值

检索并处理每一项

处理已删除的项

处理未更改的项

设置项的权限

设置项的元数据

创建可索引项

后续步骤

使用模板类创建图形遍历连接器

实现连接器的入口点

实现 Repository 接口

执行图形遍历

推送项 ID 和哈希值

检索并处理每一项

处理已删除的项

设置元数据并创建商品

将子 ID 放入到 Indexing Queue 中

使用 REST API 创建内容连接器

确定您的遍历策略

实现遍历策略和索引项

处理存储库更改

创建内容连接器