O Cloud Search indexa todos os itens enviados, independentemente do tipo de arquivo (MIME ou content-type). A indexação é realizada nos dados de metadados de um arquivo e, se compatível, no conteúdo dele. A seguir, confira uma lista de tipos de arquivo em que a indexação de conteúdo é compatível.
- Microsoft Word (DOC)
- Microsoft Word (DOCX)
- Microsoft Excel (XLS)
- Microsoft Excel (XLSX)
- Microsoft PowerPoint (PPT)
- Microsoft PowerPoint (PPTX)
- Formato de documento portátil (PDF) da Adobe
- Formato Rich Text (RTF)
- Formato de texto (TXT)
- Linguagem de marcação de hipertexto (HTML)
- Linguagem de marcação extensível (XML)
Além desses tipos de arquivo, o Cloud Search oferece suporte à indexação de conteúdo em qualquer arquivo de texto simples.
Tipos e características de arquivos de reconhecimento óptico de caracteres (OCR)
O Google Cloud Search também usa o OCR para extrair texto dos seguintes tipos de arquivo:
Tipo de arquivo | Tamanho máximo |
---|---|
Joint Photographic Experts Group (JPG) | 10 MB |
Formato de troca de gráficos (GIF) | 10 MB |
Formato de arquivo de imagem com tag (TIFF) | 10 MB |
Gráficos vetoriais escaláveis (SVG) | 10 MB |
Formato de imagem PostScript (PS) | 10 MB |
Formato de documento portátil (PDF) | 30 MB |
O OCR também funciona em arquivos com estas características:
- Documentos escritos à mão. Documentos em alfabeto latino, japonês e coreano geram os melhores resultados.
- Documentos escritos verticalmente, como os em japonês.
- Documentos escritos da direita para a esquerda, como o hebraico.