Cloud Search indicizza tutti gli elementi inviati, indipendentemente dal tipo di file (MIME o content-type). L'indicizzazione viene eseguita sui dati dei metadati di un file e, se supportato, sui suoi contenuti. Di seguito è riportato un elenco di tipi di file per cui è supportata l'indicizzazione dei contenuti.
- Microsoft Word (DOC)
- Microsoft Word (DOCX)
- Microsoft Excel (XLS)
- Microsoft Excel (XLSX)
- Microsoft PowerPoint (PPT)
- Microsoft PowerPoint (PPTX)
- Portable Document Format di Adobe (PDF)
- Rich Text Format (RTF)
- Formato testo (TXT)
- Hypertext Markup Language (HTML)
- XML (Extensible Markup Language)
Oltre a questi tipi di file, Cloud Search supporta l'indicizzazione dei contenuti all'interno di qualsiasi file di testo normale.
Tipi di file e caratteristiche del riconoscimento ottico dei caratteri (OCR)
Google Cloud Search utilizza anche la tecnologia OCR per estrarre il testo dai seguenti tipi di file:
Tipo di file | Dimensioni massime |
---|---|
Gruppo comune di esperti fotografici (JPG) | 10 MB |
Graphic Interchange Format (GIF) | 10 MB |
Formato file immagine con tag (TIFF) | 10 MB |
Scalable Vector Graphics (SVG) | 10 MB |
Formato immagine PostScript (PS) | 10 MB |
Portable Document Format (PDF) | 30 MB |
L'OCR funziona anche su file con le seguenti caratteristiche:
- Documenti scritti a mano. I documenti in alfabeto latino, giapponese e coreano danno i risultati migliori.
- Documenti scritti verticalmente, come quelli in giapponese.
- Documenti scritti da destra a sinistra, come l'ebraico.