Créer un connecteur de contenu

Un connecteur de contenu est un logiciel qui parcourt les données d'un dépôt d'entreprise et alimente une source de données. Google propose les options suivantes pour développer des connecteurs de contenu :

Le SDK Content Connector. Cette option est idéale pour les programmeurs Java. Le SDK est un wrapper pour l'API REST qui accélère la création des connecteurs. Pour créer un connecteur de contenu à l'aide du SDK, consultez Créer un connecteur de contenu à l'aide du SDK Content Connector.
Une API REST de bas niveau ou des bibliothèques d'API. Préférez ces options si vous n'utilisez pas Java, ou si votre base de code est mieux adaptée à une API REST ou à une bibliothèque. Pour créer un connecteur de contenu à l'aide de l'API REST, consultez Créer un connecteur de contenu à l'aide de l'API REST.

Un connecteur de contenu standard exécute les tâches suivantes :

Lecture et traitement des paramètres de configuration
Extraction de fragments distincts de données indexables, appelées éléments, à partir du dépôt tiers
Combinaison des listes de contrôle d'accès (LCA), des métadonnées et des contenus dans les éléments indexables
Indexe les éléments dans la source de données Cloud Search.
(Facultatif) Écoute les notifications de modification en provenance du dépôt. Les notifications de modification sont converties en requêtes d'indexation pour que la source de données Cloud Search reste synchronisée. Le connecteur exécute cette tâche à condition que le dépôt autorise la détection des modifications.

Créer un connecteur de contenu à l'aide du SDK Content Connector

Les sections suivantes expliquent comment créer un connecteur de contenu à l'aide du SDK Content Connector.

Configurer des dépendances

Incluez ces dépendances dans votre fichier de compilation.

Maven

xml <dependency> <groupId>com.google.enterprise.cloudsearch</groupId> <artifactId>google-cloudsearch-indexing-connector-sdk</artifactId> <version>v1-0.0.3</version> </dependency>

Gradle

groovy compile group: 'com.google.enterprise.cloudsearch', name: 'google-cloudsearch-indexing-connector-sdk', version: 'v1-0.0.3'

Créer la configuration de votre connecteur

Chaque connecteur utilise un fichier de configuration pour les paramètres tels que l'ID de votre dépôt. Définissez les paramètres sous forme de paires clé-valeur, comme api.sourceId=1234567890abcdef.

Le SDK Google Cloud Search inclut des paramètres fournis par Google pour tous les connecteurs. Vous devez déclarer les éléments suivants dans votre fichier de configuration :

Connecteur de contenu : déclarez api.sourceId et api.serviceAccountPrivateKeyFile. Ils identifient votre dépôt et la clé privée nécessaire pour y accéder.

Connecteur d'identité : déclarez api.identitySourceId pour identifier votre source d'identité externe. Pour la synchronisation des utilisateurs, déclarez également api.customerId (l'ID unique de votre compte Google Workspace).

Déclarez les autres paramètres fournis par Google uniquement pour remplacer leurs valeurs par défaut. Pour savoir comment générer des ID et des clés, consultez Paramètres fournis par Google.

Vous pouvez également définir des paramètres propres au dépôt dans votre fichier de configuration.

Transmettre le fichier de configuration au connecteur

Définissez la propriété système config pour transmettre le fichier de configuration. Utilisez l'argument -D lorsque vous démarrez le connecteur. Exemple :

java -classpath myconnector.jar -Dconfig=MyConfig.properties MyConnector

Si vous omettez cet argument, le SDK tente d'utiliser un fichier nommé connector-config.properties dans le répertoire local.

Déterminer votre stratégie de balayage

La fonction principale d'un connecteur de contenu consiste à parcourir un dépôt et à en indexer les données. Vous devez mettre en place une stratégie basée sur la taille et la disposition de votre dépôt. Vous pouvez concevoir votre propre stratégie ou en choisir une dans le SDK :

Stratégie de balayage complet: Analyse l'intégralité du dépôt et indexe chaque élément. Cette stratégie est optimale pour les petits dépôts où vous pouvez vous permettre la surcharge d'un parcours complet lors de chaque indexation. Utilisez-la pour les petits dépôts contenant principalement des données statiques non hiérarchisées, ou lorsque la détection des modifications est difficile.
Stratégie de balayage de liste: : analyse l'intégralité du dépôt pour déterminer l'état de chaque élément, puis indexe uniquement les éléments nouveaux ou modifiés. Utilisez cette méthode pour les mises à jour incrémentielles d'un grand index non hiérarchique lorsque la détection des modifications n'est pas prise en charge.
Parcours de graphe: Analyse un nœud parent pour déterminer l'état de ses éléments, puis indexe les éléments nouveaux ou modifiés de ce nœud. Il traite ensuite les nœuds enfants de manière récursive. Utilisez cette stratégie pour les dépôts hiérarchiques pour lesquels il est difficile d'établir une liste exhaustive des ID, comme les structures de répertoires ou les sites Web.

Le SDK implémente ces stratégies dans des classes de connecteur de modèle. Ces modèles peuvent accélérer votre développement. Pour utiliser un modèle, consultez la section correspondante :

Créer un connecteur de balayage complet à partir d'un modèle de classe
Créer un connecteur de balayage de liste à partir d'un modèle de classe
Créer un connecteur de balayage de graphe à partir d'un modèle de classe

Créer un connecteur de balayage complet à partir d'un modèle de classe

Cette section fait référence au code de l'exemple FullTraversalSample.

Ajouter le point d'entrée du connecteur

Le point d'entrée est la méthode main(). Il crée une instance Application et appelle start() pour exécuter le connecteur.

Avant d'appeler application.start(), utilisez la classe IndexingApplication.Builder pour instancier le modèle FullTraversalConnector. Ce modèle accepte un objet Repository.

FullTraversalSample.java

Créer un connecteur de contenu Restez organisé à l'aide des collections Enregistrez et classez les contenus selon vos préférences.

Créer un connecteur de contenu à l'aide du SDK Content Connector

Configurer des dépendances

Maven

Gradle

Créer la configuration de votre connecteur

Transmettre le fichier de configuration au connecteur

Déterminer votre stratégie de balayage

Créer un connecteur de balayage complet à partir d'un modèle de classe

Ajouter le point d'entrée du connecteur

Implémenter l'interface Repository

Récupérer les paramètres de configuration personnalisés

Effectuer un balayage complet

Définir les autorisations pour un élément

Définir les métadonnées d'un élément

Créer l'élément indexable

Empaqueter chaque élément indexable dans un itérateur

Étapes suivantes

Créer un connecteur de balayage de liste à partir d'un modèle de classe

Ajouter le point d'entrée du connecteur

Implémenter l'interface Repository

Effectuer un balayage de liste

Transmettre les ID et valeurs de hachage des éléments

Récupérer et traiter chaque élément

Traiter les éléments supprimés

Traiter les éléments non modifiés

Définir les autorisations pour un élément

Définir les métadonnées d'un élément

Créer un élément indexable

Étapes suivantes

Créer un connecteur de balayage de graphe à partir d'un modèle de classe

Implémenter le point d'entrée du connecteur

Implémenter l'interface Repository

Effectuer un balayage de graphe

Transmettre les ID et valeurs de hachage des éléments

Récupérer et traiter chaque élément

Traiter les éléments supprimés

Définir les métadonnées et créer l'élément

Placer les ID des éléments enfants dans la file d'attente d'indexation

Créer un connecteur de contenu à l'aide de l'API REST

Déterminer votre stratégie de balayage

Déployer votre stratégie de balayage et vos éléments d'index

Gérer les modifications du dépôt

Créer un connecteur de contenu