O Cloud Search indexa todos os itens enviados, independentemente do tipo de arquivo (MIME ou tipo de conteúdo). A indexação é realizada nos dados de metadados de um arquivo e, se houver suporte, no conteúdo dele. Confira a seguir uma lista de tipos de arquivos com suporte para indexação de conteúdo.
- Microsoft Word (DOC)
- Microsoft Word (DOCX)
- Microsoft Excel (XLS)
- Microsoft Excel (XLSX)
- Microsoft PowerPoint (PPT)
- Microsoft PowerPoint (PPTX)
- Formato de documento portátil da Adobe (PDF)
- Formato Rich Text (RTF)
- Formato de texto (TXT)
- Linguagem de marcação de hipertexto (HTML)
- Linguagem de marcação extensível (XML)
Além desses tipos de arquivo, o Cloud Search oferece suporte à indexação de conteúdo em qualquer arquivo de texto simples.
Tipos e características de arquivos de reconhecimento óptico de caracteres (OCR)
O Google Cloud Search também usa OCR para extrair texto dos seguintes tipos de arquivo:
Tipo de arquivo | Tamanho máximo |
---|---|
Joint Photographic Experts Group (JPG, na sigla em inglês) | 10 MB |
Formato de intercâmbio gráfico (GIF) | 10 MB |
Formato de arquivo de imagem com tag (TIFF) | 10 MB |
Gráficos vetoriais escaláveis (SVG) | 10 MB |
Formato de imagem PostScript (PS) | 10 MB |
Formato de documento portátil (PDF) | 30 MB |
O OCR também funciona em arquivos com estas características:
- Documentos escritos à mão. Os documentos em alfabeto latino, japonês e coreano rendem os melhores resultados.
- Documentos escritos verticalmente, como aqueles em japonês.
- Documentos escritos da direita para a esquerda, como o hebraico.