Tipi di file supportati per l'estrazione di testo

Cloud Search indicizza tutti gli elementi inviati, indipendentemente dal tipo di file (MIME o content-type). L'indicizzazione viene eseguita sui dati dei metadati di un file e, se supportato, sui relativi contenuti. Di seguito è riportato un elenco dei tipi di file per i quali è supportata l'indicizzazione dei contenuti .

  • Microsoft Word (DOC)
  • Microsoft Word (DOCX)
  • Microsoft Excel (XLS)
  • Microsoft Excel (XLSX)
  • Microsoft PowerPoint (PPT)
  • Microsoft PowerPoint (PPTX)
  • Portable Document Format (PDF) di Adobe
  • Rich Text Format (RTF)
  • Formato di testo (TXT)
  • Hypertext Markup Language (HTML)
  • Extensible Markup Language (XML)

Oltre a questi tipi di file, Cloud Search supporta l'indicizzazione dei contenuti all'interno di qualsiasi file di testo normale.

Tipi e caratteristiche dei file per il riconoscimento ottico dei caratteri (OCR)

Google Cloud Search utilizza l'OCR anche per estrarre il testo dai seguenti tipi di file:

Tipo di file Dimensioni massime
Joint Photographic Experts Group (JPG) 10 MB
Graphic Interchange Format (GIF) 10 MB
Tagged Image File Format (TIFF) 10 MB
Scalable Vector Graphics (SVG) 10 MB
Formato immagine PostScript (PS) 10 MB
Portable Document Format (PDF) 30 MB

L'OCR funziona anche su file con queste caratteristiche:

  • Documenti scritti a mano. I documenti in caratteri latini, giapponese e coreano producono i risultati migliori.
  • Documenti scritti verticalmente, come quelli in giapponese.
  • Documenti scritti da destra a sinistra, come l'ebraico.