Cloud Search indeksuje wszystkie wysyłane elementy bez względu na typ pliku (MIME lub content-type). Indeksowanie odbywa się na podstawie danych metadanych pliku oraz jego treści (jeśli jest obsługiwana). Poniżej znajduje się lista typów plików, w przypadku których indeksowanie treści jest obsługiwane.
- Plik programu Microsoft Word (dokument DOC)
- pliki programu Microsoft Word (DOCX),
- Microsoft Excel (XLS)
- Microsoft Excel (XLSX),
- Microsoft Powerpoint (PPT)
- Microsoft Powerpoint (PPTX)
- Adobe Portable Document Format (PDF).
- RTF (Rich Text Format)
- Format tekstowy (TXT)
- Hypertext Markup Language (HTML)
- Extensible Markup Language (XML)
Oprócz tych typów plików Cloud Search obsługuje indeksowanie treści w dowolnym pliku ze zwykłym tekstem.
Typy i właściwości plików optycznego rozpoznawania znaków (OCR)
Google Cloud Search wykorzystuje też OCR do wyodrębniania tekstu z tych typów plików:
Typ pliku | Rozmiar maksymalny |
---|---|
Wspólna grupa ekspertów fotograficznych (JPG) | 10 MB |
Format wymiany graficznej (GIF) | 10 MB |
Format TIFF (Tagged Image File Format) | 10 MB |
Grafika SVG (SVG) | 10 MB |
Format obrazu w PostScript (PS) | 10 MB |
Portable Document Format (PDF). | 30 MB |
OCR działa również w przypadku plików o tych cechach:
- Dokumenty pisane odręcznie. Dokumenty pisane alfabetem łacińskim oraz japońskim i koreańskim przynoszą najlepsze wyniki.
- dokumenty pisane pionowo, np. w języku japońskim;
- dokumenty pisane od prawej do lewej, np. hebrajski;