콘텐츠 커넥터 만들기

콘텐츠 커넥터는 엔터프라이즈 저장소의 데이터를 순회하고 데이터 소스를 채우는 데 사용되는 소프트웨어 프로그램입니다. Google은 콘텐츠 커넥터 개발을 위해 다음과 같은 옵션을 제공합니다.

콘텐츠 커넥터 SDK 자바에서 프로그래밍하는 경우에 적합한 옵션으로 REST API를 둘러싸는 래퍼로서 커넥터를 빠르게 생성할 수 있게 해줍니다. SDK를 사용하여 콘텐츠 커넥터를 만들려면 콘텐츠 커넥터 SDK를 사용하여 콘텐츠 커넥터 만들기를 참조하세요.
하위 수준 REST API 또는 API 라이브러리: 자바에서 프로그래밍하지 않는 경우 또는 코드베이스가 REST API나 라이브러리에 더 적합한 경우 이 옵션을 사용하세요. REST API를 사용하여 콘텐츠 커넥터를 만들려면 REST API를 사용하여 콘텐츠 커넥터 만들기를 참조하세요.

콘텐츠 커넥터는 일반적으로 다음의 작업을 수행합니다.

구성 매개변수를 읽고 처리합니다.
타사 콘텐츠 저장소에서 '항목'이라는 색인 생성이 가능한 데이터의 개별 청크를 가져옵니다.
ACL, 메타데이터, 콘텐츠 데이터를 색인 생성이 가능한 항목으로 결합합니다.
항목의 색인을 Cloud Search 데이터 소스로 생성합니다.
(선택사항) 타사 콘텐츠 저장소로부터의 변경 알림 신호를 수신합니다. 변경 알림은 색인 생성 요청으로 변환되어 Cloud Search 데이터 소스를 타사 저장소와 동기화된 상태로 유지합니다. 커넥터는 저장소가 변경 감지를 지원하는 경우에만 이 태스크를 수행합니다.

콘텐츠 커넥터 SDK를 사용하여 콘텐츠 커넥터 만들기

다음 섹션에서는 콘텐츠 커넥터 SDK를 사용하여 콘텐츠 커넥터를 만드는 방법을 설명합니다.

종속 항목 설정

SDK를 사용하려면 빌드 파일에 특정 종속 항목이 포함되어 있어야 합니다. 아래 탭을 클릭하면 자신의 빌드 환경에 필요한 종속 항목을 확인할 수 있습니다.

Maven

<dependency>
<groupId>com.google.enterprise.cloudsearch</groupId>
<artifactId>google-cloudsearch-indexing-connector-sdk</artifactId>
<version>v1-0.0.3</version>
</dependency>

Gradle

compile group: 'com.google.enterprise.cloudsearch',
        name: 'google-cloudsearch-indexing-connector-sdk',
        version: 'v1-0.0.3'

커넥터 구성 만들기

각 커넥터에는 커넥터에서 사용되는 매개변수(예: 저장소 ID)가 포함된 구성 파일이 있습니다. 매개변수는 키-값 쌍(예: api.sourceId=1234567890abcdef)으로 정의됩니다.

Google Cloud Search SDK에는 모든 커넥터에서 사용되는 Google 제공 구성 매개변수가 여러 개 포함되어 있습니다. 구성 파일에서 다음과 같은 Google 제공 매개변수를 선언해야 합니다.

콘텐츠 커넥터의 경우 api.sourceId와 api.serviceAccountPrivateKeyFile을 선언해야 합니다. 이러한 매개변수가 저장소와 저장소에 액세스하는 데 필요한 비공개 키의 위치를 식별하기 때문입니다.

ID 커넥터의 경우 api.identitySourceId를 선언해야 합니다. 이 매개변수가 외부 ID 소스의 위치를 식별하기 때문입니다. 사용자를 동기화하면 api.customerId도 기업 Google Workspace 계정의 고유한 ID로 선언해야 합니다.

Google에서 제공하는 다른 매개변수의 기본 값을 재정의하려는 경우가 아니라면 구성 파일에서 매개변수를 선언하지 않아도 됩니다. Google에서 제공하는 구성 매개변수에 대한 자세한 내용(예: 특정 ID와 키 생성 방법)은 Google에서 제공하는 구성 매개변수를 참고하세요.

구성 파일에 사용할 고유한 저장소별 매개변수도 정의할 수 있습니다.

커넥터에 구성 파일 전달

시스템 속성 config를 설정하여 커넥터에 구성 파일을 전달할 수 있습니다. 커넥터를 시작할 때 -D 인수를 사용하여 속성을 설정할 수 있습니다. 예를 들어 다음 명령어는 MyConfig.properties 구성 파일을 사용하여 커넥터를 시작합니다.

java -classpath myconnector.jar;... -Dconfig=MyConfig.properties MyConnector

이 인수가 없으면 SDK는 connector-config.properties라는 기본 구성 파일에 액세스하려고 합니다.

순회 전략 결정

콘텐츠 커넥터의 기본 기능은 저장소를 순회하고 데이터의 색인을 생성하는 것입니다. 저장소의 데이터 크기와 레이아웃을 기준으로 순회 전략을 구현해야 합니다. 직접 전략을 설계하거나 SDK에 구현된 다음 전략 중에서 선택할 수 있습니다.

전체 순회 전략

전체 순회 전략은 전체 저장소를 검사하여 무조건 모든 항목의 색인을 생성합니다. 이 전략은 일반적으로 저장소가 작고, 색인을 생성할 때마다 전체 순회를 수행하는 오버헤드를 감당할 수 있는 경우에 사용됩니다.

이 순회 전략은 주로 정적, 비계층적 데이터가 있는 소규모 저장소에 적합합니다. 변경 감지가 어렵거나 저장소에서 지원되지 않는 경우에도 이 순회 전략을 사용할 수 있습니다.

목록 순회 전략

목록 순회 전략은 모든 하위 노드를 포함한 전체 저장소를 검사하여 각 항목의 상태를 확인합니다. 그런 다음 커넥터가 두 번째 순회를 수행하여 새로운 항목 또는 마지막 색인 생성 후에 업데이트된 항목만 색인을 생성합니다. 이 전략은 색인을 업데이트할 때마다 전체 순회를 수행하는 대신 기존 색인에 증분 업데이트를 수행하기 위해 일반적으로 사용됩니다.

이 순회 전략은 변경 감지가 어렵거나 저장소에서 지원되지 않는 경우, 비계층적 데이터가 있는 경우, 아주 큰 데이터 세트를 사용하는 경우에 적합합니다.

그래프 순회

그래프 순회 전략은 전체 상위 노드를 검사하여 각 항목의 상태를 확인합니다. 그런 다음 커넥터가 두 번째 순회를 수행하여 새로운 루트 노드의 항목 또는 마지막 색인 생성 후에 업데이트된 항목에 대해서만 색인을 생성합니다. 마지막으로 커넥터는 모든 하위 ID를 전달한 다음 새로운 또는 업데이트된 하위 노드의 항목에 대하여 색인을 생성합니다. 커넥터는 모든 항목이 처리될 때까지 모든 하위 노드를 반복적으로 계속 순회합니다. 이러한 순회는 일반적으로 모든 ID를 나열하는 방법이 실용적이지 않은 계층 구조의 저장소에 사용됩니다.

이 전략은 일련의 디렉토리 또는 웹 페이지와 같이 계층적 데이터를 크롤링해야 하는 경우에 적합합니다.

이러한 각 순회 전략은 SDK의 템플릿 커넥터 클래스에 의해 구현됩니다. 직접 순회 전략을 구현할 수도 있지만 템플릿을 사용하면 커넥터 개발 속도가 크게 향상됩니다. 템플릿을 사용하여 커넥터를 만들려면 순회 전략에 해당하는 섹션으로 진행하세요.

템플릿 클래스를 사용하여 전체 순회 커넥터 만들기
템플릿 클래스를 사용하여 목록 순회 커넥터 만들기
템플릿 클래스를 사용하여 그래프 순회 커넥터 만들기

템플릿 클래스를 사용하여 전체 순회 커넥터 만들기

이 섹션에서는 FullTraversalSample 예시의 코드 스니펫을 참조합니다.

커넥터의 진입점 구현

커넥터의 진입점은 main() 메서드입니다. 이 메서드의 기본 작업은 Application 클래스의 인스턴스를 만들고 start() 메서드를 호출하여 커넥터를 실행하는 것입니다.

application.start()를 호출하기 전에 IndexingApplication.Builder 클래스를 사용하여 FullTraversalConnector 템플릿을 인스턴스화합니다. FullTraversalConnector는 메서드를 구현하는 Repository 객체를 받습니다. 다음 코드 스니펫은 main() 메서드를 구현하는 방법을 보여줍니다.

FullTraversalSample.java

콘텐츠 커넥터 만들기 컬렉션을 사용해 정리하기 내 환경설정을 기준으로 콘텐츠를 저장하고 분류하세요.

콘텐츠 커넥터 SDK를 사용하여 콘텐츠 커넥터 만들기

종속 항목 설정

Maven

Gradle

커넥터 구성 만들기

커넥터에 구성 파일 전달

순회 전략 결정

템플릿 클래스를 사용하여 전체 순회 커넥터 만들기

커넥터의 진입점 구현

Repository 인터페이스 구현

커스텀 구성 매개변수 가져오기

전체 순회 수행

항목에 대한 권한 설정

항목의 메타데이터 설정

색인 생성이 가능한 항목 만들기

색인 생성 가능한 각 항목을 반복자에 패키징

다음 단계

템플릿 클래스를 사용하여 목록 순회 커넥터 만들기

커넥터의 진입점 구현

Repository 인터페이스 구현

커스텀 구성 매개변수 가져오기

목록 순회 수행

항목 ID 및 해시 값 푸시

각 항목 검색 및 처리

삭제된 항목 처리

변경되지 않은 항목 처리

항목에 대한 권한 설정

항목의 메타데이터 설정

색인 생성이 가능한 항목 만들기

다음 단계

템플릿 클래스를 사용하여 그래프 순회 커넥터 만들기

커넥터의 진입점 구현

Repository 인터페이스 구현

커스텀 구성 매개변수 가져오기

그래프 순회 수행

항목 ID 및 해시 값 푸시

각 항목 검색 및 처리

삭제된 항목 처리

항목에 대한 권한 설정

항목의 메타데이터 설정

색인 생성이 가능한 항목 만들기

하위 ID를 Cloud Search 색인 생성 큐에 배치

다음 단계

REST API를 사용하여 콘텐츠 커넥터 만들기

순회 전략 결정

순회 전략 구현 및 항목의 색인 생성

저장소 변경사항 처리

콘텐츠 커넥터 만들기

`Repository` 인터페이스 구현

`Repository` 인터페이스 구현

`Repository` 인터페이스 구현