Cloud Search indeksuje wszystkie wysyłane elementy niezależnie od typu pliku (MIME lub content-type). Indeksowanie odbywa się na podstawie danych metadanych pliku. nawet jeśli jest ona obsługiwana. Poniżej znajduje się lista typów plików, których zawartość indeksowanie jest obsługiwane.
- Microsoft Word (DOC),
- Microsoft Word (DOCX),
- Microsoft Excel (XLS),
- Microsoft Excel (XLSX),
- Plik programu Microsoft PowerPoint (PPT)
- Plik programu Microsoft PowerPoint (PPTX)
- Portable Document Format (PDF) firmy Adobe
- Tekst sformatowany RTF (RTF)
- Format tekstowy (TXT)
- Hypertext Markup Language (HTML)
- XML (Extensible Markup Language)
Oprócz tych typów plików Cloud Search obsługuje indeksowanie treści w dowolnym zwykłym pliku tekstowym.
Typy i cechy plików optycznego rozpoznawania znaków (OCR)
Google Cloud Search wykorzystuje też OCR do wyodrębniania tekstu z tych typów plików:
Typ pliku | Rozmiar maksymalny |
---|---|
Wspólna grupa ekspertów fotograficznych (JPG) | 10 MB |
Graphic Interchange Format (GIF) | 10 MB |
Format TIFF (Tagged Image File Format, TIFF) | 10 MB |
Grafika wektorowa skalowalna (SVG) | 10 MB |
Format obrazu PostScript (PS) | 10 MB |
Portable Document Format (PDF). | 30 MB |
OCR działa też na plikach o następujących cechach:
- Dokumenty pisane odręcznie. Dokumenty zapisane w alfabecie łacińskim, języku japońskim i koreańskim aby uzyskać najlepsze wyniki.
- Dokumenty pisane pionowo, np. w języku japońskim.
- Dokumenty pisane od prawej do lewej, np. hebrajski.