Obsługiwane typy plików do wyodrębniania tekstu

Cloud Search indeksuje wszystkie wysyłane elementy niezależnie od typu pliku (MIME lub content-type). Indeksowanie odbywa się na podstawie danych metadanych pliku. nawet jeśli jest ona obsługiwana. Poniżej znajduje się lista typów plików, których zawartość indeksowanie jest obsługiwane.

  • Microsoft Word (DOC),
  • Microsoft Word (DOCX),
  • Microsoft Excel (XLS),
  • Microsoft Excel (XLSX),
  • Plik programu Microsoft PowerPoint (PPT)
  • Plik programu Microsoft PowerPoint (PPTX)
  • Portable Document Format (PDF) firmy Adobe
  • Tekst sformatowany RTF (RTF)
  • Format tekstowy (TXT)
  • Hypertext Markup Language (HTML)
  • XML (Extensible Markup Language)

Oprócz tych typów plików Cloud Search obsługuje indeksowanie treści w dowolnym zwykłym pliku tekstowym.

Typy i cechy plików optycznego rozpoznawania znaków (OCR)

Google Cloud Search wykorzystuje też OCR do wyodrębniania tekstu z tych typów plików:

Typ pliku Rozmiar maksymalny
Wspólna grupa ekspertów fotograficznych (JPG) 10 MB
Graphic Interchange Format (GIF) 10 MB
Format TIFF (Tagged Image File Format, TIFF) 10 MB
Grafika wektorowa skalowalna (SVG) 10 MB
Format obrazu PostScript (PS) 10 MB
Portable Document Format (PDF). 30 MB

OCR działa też na plikach o następujących cechach:

  • Dokumenty pisane odręcznie. Dokumenty zapisane w alfabecie łacińskim, języku japońskim i koreańskim aby uzyskać najlepsze wyniki.
  • Dokumenty pisane pionowo, np. w języku japońskim.
  • Dokumenty pisane od prawej do lewej, np. hebrajski.