콘텐츠 커넥터 만들기

콘텐츠 커넥터는 엔터프라이즈 저장소의 데이터를 순회하고 데이터 소스를 채우는 소프트웨어 프로그램입니다. Google은 콘텐츠 커넥터 개발을 위해 다음과 같은 옵션을 제공합니다.

콘텐츠 커넥터 SDK Java 프로그래머에게 적합한 옵션입니다. SDK는 커넥터를 빠르게 만들 수 있는 REST API를 둘러싸는 래퍼입니다. SDK를 사용하여 콘텐츠 커넥터를 만들려면 콘텐츠 커넥터 SDK를 사용하여 콘텐츠 커넥터 만들기를 참고하세요.
하위 수준 REST API 또는 API 라이브러리: Java를 사용하지 않거나 코드베이스가 REST API나 라이브러리에 더 적합한 경우 이 옵션을 사용하세요. REST API를 사용하여 콘텐츠 커넥터를 만들려면 REST API를 사용하여 콘텐츠 커넥터 만들기를 참고하세요.

콘텐츠 커넥터는 일반적으로 다음의 작업을 수행합니다.

구성 매개변수를 읽고 처리합니다.
서드 파티 저장소에서 '항목'이라는 색인 생성이 가능한 데이터의 개별 청크를 가져옵니다.
ACL, 메타데이터, 콘텐츠 데이터를 색인 생성이 가능한 항목으로 결합합니다.
항목의 색인을 Cloud Search 데이터 소스로 생성합니다.
(선택사항) 저장소의 변경 알림을 수신합니다. 변경 알림은 색인 생성 요청으로 변환되어 Cloud Search 데이터 소스를 동기화된 상태로 유지합니다. 커넥터는 저장소가 변경 감지를 지원하는 경우에만 이 작업을 실행합니다.

콘텐츠 커넥터 SDK를 사용하여 콘텐츠 커넥터 만들기

다음 섹션에서는 콘텐츠 커넥터 SDK를 사용하여 콘텐츠 커넥터를 만드는 방법을 설명합니다.

종속 항목 설정

빌드 파일에 이러한 종속 항목을 포함합니다.

Maven

xml <dependency> <groupId>com.google.enterprise.cloudsearch</groupId> <artifactId>google-cloudsearch-indexing-connector-sdk</artifactId> <version>v1-0.0.3</version> </dependency>

Gradle

groovy compile group: 'com.google.enterprise.cloudsearch', name: 'google-cloudsearch-indexing-connector-sdk', version: 'v1-0.0.3'

커넥터 구성 만들기

모든 커넥터는 저장소 ID와 같은 매개변수에 구성 파일을 사용합니다. api.sourceId=1234567890abcdef와 같은 키-값 쌍으로 매개변수를 정의합니다.

Google Cloud Search SDK에는 모든 커넥터의 Google 제공 매개변수가 포함되어 있습니다. 구성 파일에서 다음을 선언해야 합니다.

콘텐츠 커넥터: api.sourceId 및 api.serviceAccountPrivateKeyFile을 선언합니다. 이러한 매개변수는 저장소와 액세스에 필요한 비공개 키를 식별합니다.

ID 커넥터: api.identitySourceId를 선언하여 외부 ID 소스를 식별합니다. 사용자 동기화의 경우 api.customerId (Google Workspace 계정의 고유 ID)도 선언합니다.

다른 Google 제공 매개변수는 기본값을 재정의하는 경우에만 선언합니다. ID 및 키 생성에 관한 자세한 내용은 Google 제공 매개변수를 참고하세요.

구성 파일에서 저장소별 매개변수를 정의할 수도 있습니다.

커넥터에 구성 파일 전달

config 시스템 속성을 설정하여 구성 파일을 전달합니다. 커넥터를 시작할 때 -D 인수를 사용합니다. 예를 들면 다음과 같습니다.

java -classpath myconnector.jar -Dconfig=MyConfig.properties MyConnector

이 인수를 생략하면 SDK는 로컬 디렉터리에서 connector-config.properties라는 파일을 사용하려고 시도합니다.

순회 전략 결정

콘텐츠 커넥터의 기본 기능은 저장소를 순회하고 데이터의 색인을 생성하는 것입니다. 저장소의 크기와 레이아웃을 기반으로 전략을 구현해야 합니다. 직접 설계하거나 SDK에서 전략을 선택할 수 있습니다.

전체 순회 전략: 전체 저장소를 검사하고 모든 항목의 색인을 생성합니다. 이 전략은 각 색인 생성 중에 전체 순회의 오버헤드를 감당할 수 있는 소규모 저장소에 가장 적합합니다. 주로 정적이고 비계층적인 데이터가 있는 소규모 저장소나 변경 감지가 어려운 경우에 사용합니다.
목록 순회 전략: 전체 저장소를 검사하여 각 항목의 상태를 확인한 다음 새로 추가되거나 업데이트된 항목만 색인합니다. 변경 감지가 지원되지 않는 경우 대규모 비계층 색인의 증분 업데이트에 사용합니다.
그래프 순회: 상위 노드를 검사하여 항목의 상태를 확인한 다음 해당 노드에서 신규 또는 업데이트된 항목을 색인화합니다. 그런 다음 하위 노드를 재귀적으로 처리합니다. 디렉터리 구조나 웹사이트와 같이 모든 ID를 나열하는 것이 실용적이지 않은 계층 구조 저장소에 사용합니다.

SDK는 템플릿 커넥터 클래스에서 이러한 전략을 구현합니다. 이러한 템플릿을 사용하면 개발 속도를 높일 수 있습니다. 템플릿을 사용하려면 해당 섹션을 참고하세요.

템플릿 클래스를 사용하여 전체 순회 커넥터 만들기
템플릿 클래스를 사용하여 목록 순회 커넥터 만들기
템플릿 클래스를 사용하여 그래프 순회 커넥터 만들기

템플릿 클래스를 사용하여 전체 순회 커넥터 만들기

이 섹션에서는 FullTraversalSample의 코드를 참조합니다.

커넥터 진입점 구현

진입점은 main() 메서드입니다. Application 인스턴스를 만들고 start()을 호출하여 커넥터를 실행합니다.

application.start()를 호출하기 전에 IndexingApplication.Builder 클래스를 사용하여 FullTraversalConnector 템플릿을 인스턴스화합니다. 이 템플릿은 Repository 객체를 허용합니다.

FullTraversalSample.java

콘텐츠 커넥터 만들기 컬렉션을 사용해 정리하기 내 환경설정을 기준으로 콘텐츠를 저장하고 분류하세요.

콘텐츠 커넥터 SDK를 사용하여 콘텐츠 커넥터 만들기

종속 항목 설정

Maven

Gradle

커넥터 구성 만들기

커넥터에 구성 파일 전달

순회 전략 결정

템플릿 클래스를 사용하여 전체 순회 커넥터 만들기

커넥터 진입점 구현

저장소 인터페이스 구현

커스텀 구성 매개변수 가져오기

전체 순회 수행

항목에 대한 권한 설정

항목의 메타데이터 설정

색인 생성이 가능한 항목 만들기

색인 생성 가능한 각 항목을 반복자에 패키징

다음 단계

템플릿 클래스를 사용하여 목록 순회 커넥터 만들기

커넥터 진입점 구현

저장소 인터페이스 구현

목록 순회 수행

항목 ID 및 해시 값 푸시

각 항목 검색 및 처리

삭제된 항목 처리

변경되지 않은 항목 처리

항목에 대한 권한 설정

항목의 메타데이터 설정

색인 생성이 가능한 항목 만들기

다음 단계

템플릿 클래스를 사용하여 그래프 순회 커넥터 만들기

커넥터의 진입점 구현

저장소 인터페이스 구현

그래프 순회 수행

항목 ID 및 해시 값 푸시

각 항목 검색 및 처리

삭제된 항목 처리

메타데이터를 설정하고 항목 만들기

색인 생성 큐에 하위 ID 배치

REST API를 사용하여 콘텐츠 커넥터 만들기

순회 전략 결정

순회 전략 구현 및 항목의 색인 생성

저장소 변경사항 처리

콘텐츠 커넥터 만들기