O Cloud Search indexa todos os itens enviados, independentemente do tipo de arquivo (MIME ou tipo de conteúdo). A indexação é realizada nos dados de metadados de um arquivo e o conteúdo dele, se compatível. Veja a seguir uma lista de tipos de arquivo para os quais a indexação é compatível.
- Microsoft Word (DOC)
- Microsoft Word (DOCX)
- Microsoft Excel (XLS)
- Microsoft Excel (XLSX)
- Microsoft PowerPoint (PPT)
- Microsoft PowerPoint (PPTX)
- Formato de documento portátil da Adobe (PDF)
- Rich Text Format (RTF)
- Formato de texto (.TXT)
- Linguagem de marcação de hipertexto (HTML)
- Linguagem de marcação extensível (XML)
Além desses tipos de arquivo, o Cloud Search é compatível com a indexação de conteúdo em qualquer arquivo de texto simples.
Tipos de arquivos e características do reconhecimento óptico de caracteres (OCR)
O Google Cloud Search também usa OCR para extrair textos dos seguintes tipos de arquivo:
Tipo de arquivo | Tamanho máximo |
---|---|
Grupo conjunto de especialistas em fotografia (JPG) | 10 MB |
Formato de intercâmbio gráfico (GIF) | 10 MB |
Formato de arquivo de imagem com tag (TIFF) | 10 MB |
Elementos gráficos vetoriais escaláveis (SVG, na sigla em inglês) | 10 MB |
Formato de imagem PostScript (PS) | 10 MB |
Formato de documento portátil (PDF) | 30 MB |
O OCR também funciona em arquivos com as seguintes características:
- Documentos escritos à mão. Documentos em script latino, japonês e coreano os melhores resultados.
- Documentos escritos verticalmente, como os em japonês.
- Documentos escritos da direita para a esquerda, como em hebraico.