Cloud Search indexiert alle gesendeten Elemente, unabhängig vom Dateityp (MIME- oder Content-Type). Die Indexierung erfolgt anhand der Metadaten einer Datei und, sofern unterstützt, anhand ihres Inhalts. Im Folgenden finden Sie eine Liste der Dateitypen, für die die Inhaltsindexierung unterstützt wird.
- Microsoft Word (DOC)
- Microsoft Word (DOCX)
- Microsoft Excel (XLS)
- Microsoft Excel (XLSX)
- Microsoft PowerPoint (PPT)
- Microsoft PowerPoint (PPTX)
- Portable Document Format (PDF) von Adobe
- Rich-Text-Format (RTF)
- Textformat (TXT)
- Hypertext Markup Language (HTML)
- Extensible Markup Language (XML)
Zusätzlich zu diesen Dateitypen unterstützt Cloud Search die Indexierung von Inhalten in beliebigen Nur-Text-Dateien.
Dateitypen und Merkmale der optischen Zeichenerkennung (OCR)
Google Cloud Search verwendet OCR auch, um Text aus den folgenden Dateitypen zu extrahieren:
Dateityp | Maximalgröße |
---|---|
Joint Photographic Experts Group (JPG) | 10 MB |
Graphic Interchange Format (GIF) | 10 MB |
Tagged Image File Format (TIFF) | 10 MB |
Scalable Vector Graphics (SVG) | 10 MB |
PostScript-Bildformat (PS) | 10 MB |
Portable Document Format (PDF) | 30 MB |
Die OCR-Funktion funktioniert auch bei Dateien mit den folgenden Eigenschaften:
- Handschriftliche Dokumente Dokumente in lateinischer Schrift, auf Japanisch und auf Koreanisch liefern die besten Ergebnisse.
- Vertikal geschriebene Dokumente, z. B. auf Japanisch.
- Rechtsläufige Dokumente, z. B. auf Hebräisch.