Types de fichiers compatibles avec l'extraction de texte
Restez organisé à l'aide des collections
Enregistrez et classez les contenus selon vos préférences.
Cloud Search indexe tous les éléments envoyés, quel que soit le type de fichier (MIME ou content-type). L'indexation est effectuée sur les données de métadonnées d'un fichier et, si elle est prise en charge, sur son contenu. Vous trouverez ci-dessous la liste des types de fichiers pour lesquels l'indexation du contenu est prise en charge.
Microsoft Word (.doc)
Microsoft Word (.docx)
Microsoft Excel (XLS)
Microsoft Excel (.xlsx)
Microsoft PowerPoint (.ppt)
Microsoft PowerPoint (PPTX)
Portable Document Format (PDF) d'Adobe
Format texte enrichi (RTF)
Format texte (TXT)
Hypertext Markup Language (HTML)
Extensible Markup Language (XML)
En plus de ces types de fichiers, Cloud Search permet d'indexer le contenu de n'importe quel fichier en texte brut.
Types et caractéristiques des fichiers de reconnaissance optique des caractères (OCR)
Google Cloud Search utilise également l'OCR pour extraire le texte des types de fichiers suivants :
Type de fichier
Taille maximale
Joint Photographic Experts Group (JPG)
10 Mo
Graphic Interchange Format (GIF)
10 Mo
Tagged Image File Format (TIFF)
10 Mo
Scalable Vector Graphics (SVG)
10 Mo
Format d'image PostScript (PS)
10 Mo
Portable Document Format (PDF)
30 MB
L'OCR fonctionne également sur les fichiers présentant les caractéristiques suivantes :
Documents manuscrits Les documents rédigés en alphabet latin, en japonais et en coréen donnent les meilleurs résultats.
Documents écrits verticalement, comme ceux en japonais.
Documents écrits de droite à gauche, comme l'hébreu.
Sauf indication contraire, le contenu de cette page est régi par une licence Creative Commons Attribution 4.0, et les échantillons de code sont régis par une licence Apache 2.0. Pour en savoir plus, consultez les Règles du site Google Developers. Java est une marque déposée d'Oracle et/ou de ses sociétés affiliées.
Dernière mise à jour le 2025/08/29 (UTC).
[null,null,["Dernière mise à jour le 2025/08/29 (UTC)."],[],[],null,["# Supported file types for text extraction\n\nCloud Search indexes all items that are sent, regardless of file type\n(MIME or content-type). Indexing is performed on a file's metadata data and,\nif supported, its content. Following is a list of file types for which content\nindexing *is* supported.\n\n- Microsoft Word (DOC)\n- Microsoft Word (DOCX)\n- Microsoft Excel (XLS)\n- Microsoft Excel (XLSX)\n- Microsoft Powerpoint (PPT)\n- Microsoft Powerpoint (PPTX)\n- Adobe's Portable Document Format (PDF)\n- Rich Text Format (RTF)\n- Text Format (TXT)\n- Hypertext Markup Language (HTML)\n- Extensible Markup Language (XML)\n\nIn addition to these file types, Cloud Search supports indexing of content\nwithin any plain text file.\n\nOptical Character Recognition (OCR) file types and characteristics\n------------------------------------------------------------------\n\nGoogle Cloud Search also uses OCR to extract text from the following file types:\n\n| File type | Maximum size |\n|----------------------------------------|--------------|\n| Joint Photographic Experts Group (JPG) | 10 MB |\n| Graphic Interchange Format (GIF) | 10 MB |\n| Tagged Image File Format (TIFF) | 10 MB |\n| Scalable Vector Graphics (SVG) | 10 MB |\n| PostScript Image Format (PS) | 10 MB |\n| Portable Document Format (PDF) | 30 MB |\n\n| **Note:** Cloud Search uses OCR for PDF files only when indexing in `ASYNCHRONOUS` mode, and applies OCR to the first 80 pages of the PDF file. To be eligible for OCR, the [`ItemMetadata.mimeType`](/workspace/cloud-search/docs/reference/rest/v1/indexing.datasources.items#ItemMetadata) for the item must be specified as `application/pdf` and a PDF file must contain only scanned images. If the PDF file contains any native text content, Cloud Search indexes the native content and does not apply OCR to images.\n\nOCR also works on files with these characteristics:\n\n- Hand-written documents. Documents in Latin script, Japanese, and Korean yield the best results.\n- Vertically-written documents, such as those in Japanese.\n- Right-to-left-written documents, such as Hebrew."]]