Cloud Search indexiert alle gesendeten Elemente unabhängig vom Dateityp (MIME- oder Inhaltstyp). Die Indexierung erfolgt an den Metadaten einer Datei und, sofern unterstützt, an ihrem Inhalt. Im Folgenden finden Sie eine Liste der Dateitypen, für die die Inhaltsindexierung unterstützt wird.
- Microsoft Word (DOC)
- Microsoft Word (DOCX)
- Microsoft Excel (XLS)
- Microsoft Excel (XLSX)
- Microsoft PowerPoint (PPT)
- Microsoft PowerPoint (PPTX)
- Portable Document Format (PDF) von Adobe
- Rich Text Format (RTF)
- Textformat (TXT)
- Hypertext Markup Language (HTML)
- Extensible Markup Language (XML)
Zusätzlich zu diesen Dateitypen unterstützt Cloud Search die Indexierung von Inhalten in jeder Nur-Textdatei.
Dateitypen und Merkmale der optischen Zeichenerkennung (Optical Character Recognition, OCR)
In Google Cloud Search wird OCR auch verwendet, um Text aus den folgenden Dateitypen zu extrahieren:
Dateityp | Maximalgröße |
---|---|
Joint Photographic Experts Group (JPG) | 10 MB |
Graphic Interchange Format (GIF) | 10 MB |
Tagged Image File Format (TIFF) | 10 MB |
Scalable Vector Graphics (SVG) | 10 MB |
PostScript Image Format (PS) | 10 MB |
Portable Document Format (PDF) | 30 MB |
OCR funktioniert auch mit Dateien mit folgenden Eigenschaften:
- Handgeschriebene Dokumente Die besten Ergebnisse erzielen Sie mit Dokumenten in lateinischer Schrift, Japanisch und Koreanisch.
- Vertikal geschriebene Dokumente, z. B. auf Japanisch
- Dokumente, die von rechts nach links geschrieben sind, z. B. Hebräisch