Cloud Search는 파일 형식(MIME 또는 콘텐츠 유형)에 관계없이 전송된 모든 항목의 색인을 생성합니다. 색인 생성은 파일의 메타데이터 데이터와 지원되는 경우 콘텐츠에 대해 실행됩니다. 다음은 콘텐츠 색인이 생성되는 파일 형식 목록입니다.
- Microsoft Word (DOC)
- Microsoft Word(DOCX)
- Microsoft Excel (XLS)
- Microsoft Excel(XLSX)
- Microsoft PowerPoint (PPT)
- Microsoft PowerPoint(PPTX)
- Adobe의 Portable Document Format (PDF)
- Rich Text Format (RTF)
- 텍스트 형식 (TXT)
- 하이퍼텍스트 마크업 언어 (HTML)
- 확장 가능한 마크업 언어 (XML)
이러한 파일 형식 외에도 Cloud Search는 일반 텍스트 파일 내 콘텐츠의 색인 생성을 지원합니다.
광학 문자 인식 (OCR) 파일 형식 및 특성
Google Cloud Search에서는 OCR을 사용하여 다음 파일 형식에서 텍스트를 추출합니다.
파일 형식 | 최대 크기 |
---|---|
Joint Photographic Experts Group (JPG) | 10MB |
그래픽 교환 형식 (GIF) | 10MB |
Tagged Image File Format (TIFF) | 10MB |
Scalable Vector Graphics (SVG) | 10MB |
PostScript 이미지 형식 (PS) | 10MB |
휴대용 문서 형식 (PDF) | 30MB |
OCR은 다음과 같은 특성을 가진 파일에서도 작동합니다.
- 필기 문서 라틴 문자, 일본어, 한국어로 작성된 문서가 가장 좋은 결과를 얻습니다.
- 일본어로 작성된 문서와 같이 세로로 작성된 문서
- 히브리어와 같이 오른쪽에서 왼쪽으로 작성된 문서