Types de fichiers compatibles avec l'extraction de texte

Cloud Search indexe tous les éléments envoyés, quel que soit le type de fichier (MIME ou type de contenu). L'indexation est effectuée sur les métadonnées d'un fichier et, si le format est pris en charge, sur son contenu. Vous trouverez ci-dessous la liste des types de fichiers pour lesquels l'indexation du contenu est prise en charge.

Microsoft Word (DOC)
Microsoft Word (.docx)
Microsoft Excel (XLS)
Microsoft Excel (.xlsx)
Microsoft PowerPoint (.ppt)
Microsoft PowerPoint (PPTX)
Portable Document Format (PDF) d'Adobe
Format texte enrichi (RTF)
Format texte (TXT)
Hypertext Markup Language (HTML)
Extensible Markup Language (XML)

En plus de ces types de fichiers, Cloud Search permet d'indexer le contenu de n'importe quel fichier en texte brut.

Types et caractéristiques des fichiers de reconnaissance optique des caractères (OCR)

Google Cloud Search utilise également l'OCR pour extraire le texte des types de fichiers suivants :

Type de fichier	Taille maximale
Joint Photographic Experts Group (JPG)	10 Mo
Format GIF (Graphic Interchange Format)	10 Mo
Tagged Image File Format (TIFF)	10 Mo
Scalable Vector Graphics (SVG)	10 Mo
Format d'image PostScript (PS)	10 Mo
Portable Document Format (PDF)	30 MB

L'OCR fonctionne également sur les fichiers présentant les caractéristiques suivantes :

Documents manuscrits Les documents rédigés en alphabet latin, en japonais et en coréen donnent les meilleurs résultats.
Documents écrits verticalement, comme ceux en japonais.
Documents écrits de droite à gauche, comme l'hébreu.

Types de fichiers compatibles avec l'extraction de texte Restez organisé à l'aide des collections Enregistrez et classez les contenus selon vos préférences.

Types et caractéristiques des fichiers de reconnaissance optique des caractères (OCR)

Types de fichiers compatibles avec l'extraction de texte