O Cloud Search indexa todos os itens enviados, independentemente do tipo de arquivo (MIME ou conteúdo). A indexação é realizada nos dados de metadados de um arquivo e, se compatível, no conteúdo dele. Veja a seguir uma lista de tipos de arquivo para os quais a indexação de conteúdo é compatível.
- Microsoft Word (DOC)
- Microsoft Word (DOCX)
- Microsoft Excel (XLS)
- Microsoft Excel (XLSX)
- Microsoft PowerPoint (PPT)
- Microsoft PowerPoint (PPTX)
- Formato de documento portátil da Adobe (PDF)
- Rich Text Format (RTF)
- Formato de texto (TXT)
- Linguagem de marcação de hipertexto (HTML)
- Linguagem de marcação extensível (XML)
Além desses tipos de arquivo, o Cloud Search é compatível com a indexação de conteúdo em qualquer arquivo de texto simples.
Tipos e características de arquivos de reconhecimento óptico de caracteres (OCR)
O Google Cloud Search também usa o OCR para extrair texto dos seguintes tipos de arquivo:
Tipo de arquivo | Tamanho máximo |
---|---|
Grupo conjunto de especialistas em fotografia (JPG) | 10 MB |
Formato gráfico de intercâmbio (GIF) | 10 MB |
Formato de arquivo de imagem com tag (TIFF) | 10 MB |
Elementos gráficos vetoriais escaláveis (SVG) | 10 MB |
Formato de imagem PostScript (PS) | 10 MB |
Formato de documento portátil (PDF) | 30 MB |
O OCR também funciona em arquivos com estas características:
- Documentos escritos à mão. Documentos em script latino, japonês e coreano rendem os melhores resultados.
- Documentos escritos verticalmente, como aqueles em japonês.
- Documentos escritos da direita para a esquerda, como hebraico.