Cloud Search indexa todos los elementos que se envían, independientemente del tipo de archivo. (MIME o tipo de contenido). La indexación se realiza en los datos de metadatos de un archivo si es compatible, su contenido. A continuación, se incluye una lista de los tipos de archivos para los cuales sí admite la indexación de datos.
- Microsoft Word (DOC)
- Microsoft Word (DOCX)
- Microsoft Excel (XLS)
- Microsoft Excel (XLSX)
- Microsoft PowerPoint (PPT)
- Microsoft PowerPoint (PPTX)
- Formato de documento portátil de Adobe (PDF)
- Formato de Texto Enriquecido (RTF)
- Formato de texto (TXT)
- Lenguaje de marcado de hipertexto (HTML)
- Lenguaje de marcación extensible (XML)
Además de estos tipos de archivos, Cloud Search admite la indexación de contenido. dentro de cualquier archivo de texto sin formato.
Características y tipos de archivo de reconocimiento óptico de caracteres (OCR)
Google Cloud Search también usa el OCR para extraer texto de los siguientes tipos de archivos:
File type | Tamaño máximo |
---|---|
Grupo conjunto de expertos en fotografía (JPG) | 10 MB |
Formato de intercambio de gráficos (GIF) | 10 MB |
Formato de archivo de imagen etiquetada (TIFF) | 10 MB |
Gráficos vectoriales escalables (SVG) | 10 MB |
Formato de imagen PostScript (PS) | 10 MB |
Formato de documento portátil (PDF) | 30 MB |
El OCR también funciona en archivos con las siguientes características:
- Documentos escritos a mano Documentos con rendimiento en alfabeto latino, japonés y coreano obtener los mejores resultados.
- Documentos escritos verticalmente, como los en japonés
- Documentos escritos de derecha a izquierda, como hebreo.