Cloud Search는 파일 형식(MIME 또는 콘텐츠 유형)에 관계없이 전송된 모든 항목의 색인을 생성합니다. 색인 생성은 파일의 메타데이터 데이터 및 지원되는 경우 그 콘텐츠에 대해 수행됩니다. 다음은 콘텐츠 색인이 지원되는 파일 형식 목록입니다.
- Microsoft Word (DOC)
- Microsoft Word(DOCX)
- Microsoft Excel (XLS)
- Microsoft Excel(XLSX)
- Microsoft PowerPoint (PPT)
- Microsoft PowerPoint(PPTX)
- Adobe의 휴대용 문서 형식 (PDF)
- 서식 있는 텍스트 형식 (RTF)
- 텍스트 형식 (TXT)
- 하이퍼텍스트 마크업 언어 (HTML)
- 확장성 마크업 언어 (XML)
Cloud Search는 이러한 파일 형식 외에도 일반 텍스트 파일 내 콘텐츠의 색인 생성을 지원합니다.
광학 문자 인식 (OCR) 파일 형식 및 특성
또한 Google Cloud Search는 OCR을 사용하여 다음 파일 형식에서 텍스트를 추출합니다.
파일 형식 | 최대 크기 |
---|---|
JPG (Joint Photographic Experts Group) | 10MB |
그래픽 교환 형식 (GIF) | 10MB |
Tagged Image File Format (TIFF) | 10MB |
Scalable Vector Graphics (SVG) | 10MB |
PS (PostScript Image Format) | 10MB |
휴대용 문서 형식 (PDF) | 30MB |
OCR은 다음과 같은 특성을 가진 파일에서도 작동합니다.
- 수기 문서 라틴 자모, 일본어, 한국어 문서가 최상의 결과를 제공합니다.
- 일본어와 같이 세로로 작성된 문서
- 오른쪽에서 왼쪽으로 쓰는 문서(예: 히브리어)