Unterstützte Dateitypen für die Textextraktion

Cloud Search indexiert alle gesendeten Elemente, unabhängig vom Dateityp (MIME oder Inhaltstyp). Die Indexierung erfolgt anhand der Metadaten einer Datei. deren Inhalt, sofern unterstützt. Nachfolgend finden Sie eine Liste der Dateitypen, für die Inhalte vorliegen. Indexierung unterstützt wird.

  • Microsoft Word (DOC)
  • Microsoft Word (DOCX)
  • Microsoft Excel (XLS)
  • Microsoft Excel (XLSX)
  • Microsoft PowerPoint (PPT)
  • Microsoft PowerPoint (PPTX)
  • Adobe’s Portable Document Format (PDF)
  • Rich-Text-Format (RTF)
  • Textformat (TXT)
  • Hypertext Markup Language (HTML)
  • Erweiterbare Auszeichnungssprache (XML)

Zusätzlich zu diesen Dateitypen unterstützt Cloud Search die Indexierung von Inhalten in einer Nur-Text-Datei.

Dateitypen und -merkmale der optischen Zeichenerkennung (Optical Character Recognition, OCR)

Google Cloud Search verwendet OCR außerdem, um Text aus den folgenden Dateitypen zu extrahieren:

Dateityp Maximalgröße
Gemeinsame Fotoexperten-Gruppe (JPG) 10 MB
Graphic Interchange Format (GIF) 10 MB
Getaggtes Bilddateiformat (TIFF) 10 MB
Skalierbare Vektorgrafiken (SVG) 10 MB
PostScript-Bildformat (PS) 10 MB
Portable Document Format (PDF) 30 MB

OCR funktioniert auch bei Dateien mit den folgenden Merkmalen:

  • Handschriftliche Dokumente. Dokumente in lateinischer Schrift, Japanisch und Koreanisch liefern Informationen um die besten Ergebnisse zu erzielen.
  • Vertikal geschriebene Dokumente, z. B. in japanischer Schrift
  • Linksläufige Dokumente, z. B. Hebräisch