Unterstützte Dateitypen für die Textextraktion

Cloud Search indexiert alle gesendeten Elemente unabhängig vom Dateityp (MIME- oder Inhaltstyp). Die Indexierung erfolgt an den Metadaten einer Datei und, sofern unterstützt, an ihrem Inhalt. Im Folgenden finden Sie eine Liste der Dateitypen, für die die Inhaltsindexierung unterstützt wird.

  • Microsoft Word (DOC)
  • Microsoft Word (DOCX)
  • Microsoft Excel (XLS)
  • Microsoft Excel (XLSX)
  • Microsoft PowerPoint (PPT)
  • Microsoft PowerPoint (PPTX)
  • Portable Document Format (PDF) von Adobe
  • Rich Text Format (RTF)
  • Textformat (TXT)
  • Hypertext Markup Language (HTML)
  • Extensible Markup Language (XML)

Zusätzlich zu diesen Dateitypen unterstützt Cloud Search die Indexierung von Inhalten in jeder Nur-Textdatei.

Dateitypen und Merkmale der optischen Zeichenerkennung (Optical Character Recognition, OCR)

In Google Cloud Search wird OCR auch verwendet, um Text aus den folgenden Dateitypen zu extrahieren:

Dateityp Maximalgröße
Joint Photographic Experts Group (JPG) 10 MB
Graphic Interchange Format (GIF) 10 MB
Tagged Image File Format (TIFF) 10 MB
Scalable Vector Graphics (SVG) 10 MB
PostScript Image Format (PS) 10 MB
Portable Document Format (PDF) 30 MB

OCR funktioniert auch mit Dateien mit folgenden Eigenschaften:

  • Handgeschriebene Dokumente Die besten Ergebnisse erzielen Sie mit Dokumenten in lateinischer Schrift, Japanisch und Koreanisch.
  • Vertikal geschriebene Dokumente, z. B. auf Japanisch
  • Dokumente, die von rechts nach links geschrieben sind, z. B. Hebräisch