Cloud Search индексирует все отправляемые элементы, независимо от типа файла (MIME или content-type). Индексирование выполняется на основе метаданных файла и, если это поддерживается, его содержимого. Ниже приведен список типов файлов, для которых поддерживается индексирование содержимого.
- Microsoft Word (DOC)
- Microsoft Word (DOCX)
- Microsoft Excel (XLS)
- Microsoft Excel (XLSX)
- Microsoft PowerPoint (PPT)
- Microsoft PowerPoint (PPTX)
- Портативный формат документов (PDF) от Adobe
- Формат форматированного текста (RTF)
- Текстовый формат (TXT)
- Язык разметки гипертекста (HTML)
- Расширяемый язык разметки (XML)
Помимо этих типов файлов, Cloud Search поддерживает индексирование содержимого любых текстовых файлов.
Типы и характеристики файлов оптического распознавания символов (OCR).
Google Cloud Search также использует OCR для извлечения текста из следующих типов файлов:
| Тип файла | Максимальный размер |
|---|---|
| Объединенная группа экспертов в области фотографии (JPG) | 10 МБ |
| Графический формат обмена файлами (GIF) | 10 МБ |
| Формат файла изображения с тегами (TIFF) | 10 МБ |
| Масштабируемая векторная графика (SVG) | 10 МБ |
| Формат изображений PostScript (PS) | 10 МБ |
| Формат портативных документов (PDF) | 30 МБ |
OCR также работает с файлами, обладающими следующими характеристиками:
- Рукописные документы. Наилучшие результаты дают документы, написанные латинским алфавитом, на японском и корейском языках.
- Документы, написанные вертикально, например, на японском языке.
- Документы, написанные справа налево, например, на иврите.