无论文件类型(MIME 还是内容类型)如何,Cloud Search 都会将发送的所有项编入索引。索引会对文件的元数据数据及其内容(如果支持)执行。下面列出了支持内容索引的文件类型。
- Microsoft Word(文档)
- Microsoft Word (DOCX)
- Microsoft Excel (XLS)
- Microsoft Excel (XLSX)
- Microsoft PowerPoint (PPT)
- Microsoft PowerPoint (PPTX)
- Adobe 便携式文档格式 (PDF)
- 富文本格式 (RTF)
- 文本格式 (TXT)
- 超文本标记语言 (HTML)
- 可扩展标记语言 (XML)
除了这些文件类型之外,Cloud Search 还支持将任何纯文本文件中的内容编入索引。
光学字符识别 (OCR) 文件类型和特征
Google Cloud Search 还会使用 OCR 从以下类型的文件中提取文本:
文件类型 | 大小上限 |
---|---|
联合图像专家组 (JPG) | 10 MB |
图形交换格式 (GIF) | 10 MB |
标记图像文件格式 (TIFF) | 10 MB |
可缩放矢量图形 (SVG) | 10 MB |
PostScript 图片格式 (PS) | 10 MB |
便携式文档格式 (PDF) | 30 MB |
OCR 也适用于具有以下特征的文件:
- 手写文档。使用拉丁字母、日语和韩语的文档效果最佳。
- 纵向撰写的文档,如日语文档。
- 从右到左书写的文档,如希伯来语。