Unterstützte Dateitypen für die Textextraktion

Cloud Search indexiert alle gesendeten Elemente, unabhängig vom Dateityp (MIME- oder Content-Type). Die Indexierung erfolgt anhand der Metadaten einer Datei und, sofern unterstützt, anhand ihres Inhalts. Im Folgenden finden Sie eine Liste der Dateitypen, für die die Inhaltsindexierung unterstützt wird.

  • Microsoft Word (DOC)
  • Microsoft Word (DOCX)
  • Microsoft Excel (XLS)
  • Microsoft Excel (XLSX)
  • Microsoft PowerPoint (PPT)
  • Microsoft PowerPoint (PPTX)
  • Portable Document Format (PDF) von Adobe
  • Rich-Text-Format (RTF)
  • Textformat (TXT)
  • Hypertext Markup Language (HTML)
  • Extensible Markup Language (XML)

Zusätzlich zu diesen Dateitypen unterstützt Cloud Search die Indexierung von Inhalten in beliebigen Nur-Text-Dateien.

Dateitypen und Merkmale der optischen Zeichenerkennung (OCR)

Google Cloud Search verwendet OCR auch, um Text aus den folgenden Dateitypen zu extrahieren:

Dateityp Maximalgröße
Joint Photographic Experts Group (JPG) 10 MB
Graphic Interchange Format (GIF) 10 MB
Tagged Image File Format (TIFF) 10 MB
Scalable Vector Graphics (SVG) 10 MB
PostScript-Bildformat (PS) 10 MB
Portable Document Format (PDF) 30 MB

OCR funktioniert auch bei Dateien mit den folgenden Eigenschaften:

  • Handschriftliche Dokumente Dokumente in lateinischer Schrift, auf Japanisch und auf Koreanisch liefern die besten Ergebnisse.
  • Vertikal geschriebene Dokumente, z. B. auf Japanisch.
  • Rechtsläufige Dokumente, z. B. auf Hebräisch.