Tipos de arquivos com suporte para extração de texto

O Cloud Search indexa todos os itens enviados, independentemente do tipo de arquivo (MIME ou conteúdo). A indexação é realizada nos dados de metadados de um arquivo e, se compatível, no conteúdo dele. Veja a seguir uma lista de tipos de arquivo para os quais a indexação de conteúdo é compatível.

  • Microsoft Word (DOC)
  • Microsoft Word (DOCX)
  • Microsoft Excel (XLS)
  • Microsoft Excel (XLSX)
  • Microsoft PowerPoint (PPT)
  • Microsoft PowerPoint (PPTX)
  • Formato de documento portátil da Adobe (PDF)
  • Rich Text Format (RTF)
  • Formato de texto (TXT)
  • Linguagem de marcação de hipertexto (HTML)
  • Linguagem de marcação extensível (XML)

Além desses tipos de arquivo, o Cloud Search é compatível com a indexação de conteúdo em qualquer arquivo de texto simples.

Tipos e características de arquivos de reconhecimento óptico de caracteres (OCR)

O Google Cloud Search também usa o OCR para extrair texto dos seguintes tipos de arquivo:

Tipo de arquivo Tamanho máximo
Grupo conjunto de especialistas em fotografia (JPG) 10 MB
Formato gráfico de intercâmbio (GIF) 10 MB
Formato de arquivo de imagem com tag (TIFF) 10 MB
Elementos gráficos vetoriais escaláveis (SVG) 10 MB
Formato de imagem PostScript (PS) 10 MB
Formato de documento portátil (PDF) 30 MB

O OCR também funciona em arquivos com estas características:

  • Documentos escritos à mão. Documentos em script latino, japonês e coreano rendem os melhores resultados.
  • Documentos escritos verticalmente, como aqueles em japonês.
  • Documentos escritos da direita para a esquerda, como hebraico.