Cloud Search indeksuje wszystkie wysłane elementy niezależnie od typu pliku (MIME lub content-type). Indeksowanie jest przeprowadzane na podstawie metadanych pliku oraz, jeśli jest to obsługiwane, jego zawartości. Poniżej znajdziesz listę typów plików, w przypadku których indeksowanie treści jest obsługiwane.
- Microsoft Word (DOC)
- Microsoft Word (DOCX)
- Microsoft Excel (XLS)
- Microsoft Excel (XLSX)
- Microsoft Powerpoint (PPT)
- Microsoft Powerpoint (PPTX)
- Adobe Portable Document Format (PDF)
- Tekst sformatowany (RTF)
- Format tekstowy (TXT)
- Hypertext Markup Language (HTML)
- Extensible Markup Language (XML)
Oprócz tych typów plików Cloud Search obsługuje indeksowanie treści w dowolnym pliku tekstowym.
Typy plików i cechy optycznego rozpoznawania znaków (OCR)
Google Cloud Search używa też OCR do wyodrębniania tekstu z tych typów plików:
Typ pliku | Rozmiar maksymalny |
---|---|
Joint Photographic Experts Group (JPG) | 10 MB |
Graphic Interchange Format (GIF) | 10 MB |
Format TIFF | 10 MB |
Grafika SVG | 10 MB |
Format obrazu PostScript (PS) | 10 MB |
Portable Document Format (PDF) | 30 MB |
OCR działa też w przypadku plików o tych cechach:
- dokumenty pisane ręcznie, Najlepsze wyniki uzyskuje się w przypadku dokumentów napisanych alfabetem łacińskim, w języku japońskim i koreańskim.
- dokumenty pisane pionowo, np. w języku japońskim;
- dokumenty pisane od prawej do lewej, np. w języku hebrajskim.