Tipi di file supportati per l'estrazione di testo

Cloud Search indicizza tutti gli elementi inviati, indipendentemente dal tipo di file (MIME o content-type). L'indicizzazione viene eseguita sui dati dei metadati di un file e, se supportato, sui suoi contenuti. Di seguito è riportato un elenco di tipi di file per cui è supportata l'indicizzazione dei contenuti.

  • Microsoft Word (DOC)
  • Microsoft Word (DOCX)
  • Microsoft Excel (XLS)
  • Microsoft Excel (XLSX)
  • Microsoft PowerPoint (PPT)
  • Microsoft PowerPoint (PPTX)
  • Portable Document Format di Adobe (PDF)
  • Rich Text Format (RTF)
  • Formato testo (TXT)
  • Hypertext Markup Language (HTML)
  • XML (Extensible Markup Language)

Oltre a questi tipi di file, Cloud Search supporta l'indicizzazione dei contenuti all'interno di qualsiasi file di testo normale.

Tipi di file e caratteristiche del riconoscimento ottico dei caratteri (OCR)

Google Cloud Search utilizza anche la tecnologia OCR per estrarre il testo dai seguenti tipi di file:

Tipo di file Dimensioni massime
Gruppo comune di esperti fotografici (JPG) 10 MB
Graphic Interchange Format (GIF) 10 MB
Formato file immagine con tag (TIFF) 10 MB
Scalable Vector Graphics (SVG) 10 MB
Formato immagine PostScript (PS) 10 MB
Portable Document Format (PDF) 30 MB

L'OCR funziona anche su file con le seguenti caratteristiche:

  • Documenti scritti a mano. I documenti in alfabeto latino, giapponese e coreano danno i risultati migliori.
  • Documenti scritti verticalmente, come quelli in giapponese.
  • Documenti scritti da destra a sinistra, come l'ebraico.