Obsługiwane typy plików do wyodrębniania tekstu

Cloud Search indeksuje wszystkie wysyłane elementy bez względu na typ pliku (MIME lub content-type). Indeksowanie odbywa się na podstawie danych metadanych pliku oraz jego treści (jeśli jest obsługiwana). Poniżej znajduje się lista typów plików, w przypadku których indeksowanie treści jest obsługiwane.

  • Plik programu Microsoft Word (dokument DOC)
  • pliki programu Microsoft Word (DOCX),
  • Microsoft Excel (XLS)
  • Microsoft Excel (XLSX),
  • Microsoft Powerpoint (PPT)
  • Microsoft Powerpoint (PPTX)
  • Adobe Portable Document Format (PDF).
  • RTF (Rich Text Format)
  • Format tekstowy (TXT)
  • Hypertext Markup Language (HTML)
  • Extensible Markup Language (XML)

Oprócz tych typów plików Cloud Search obsługuje indeksowanie treści w dowolnym pliku ze zwykłym tekstem.

Typy i właściwości plików optycznego rozpoznawania znaków (OCR)

Google Cloud Search wykorzystuje też OCR do wyodrębniania tekstu z tych typów plików:

Typ pliku Rozmiar maksymalny
Wspólna grupa ekspertów fotograficznych (JPG) 10 MB
Format wymiany graficznej (GIF) 10 MB
Format TIFF (Tagged Image File Format) 10 MB
Grafika SVG (SVG) 10 MB
Format obrazu w PostScript (PS) 10 MB
Portable Document Format (PDF). 30 MB

OCR działa również w przypadku plików o tych cechach:

  • Dokumenty pisane odręcznie. Dokumenty pisane alfabetem łacińskim oraz japońskim i koreańskim przynoszą najlepsze wyniki.
  • dokumenty pisane pionowo, np. w języku japońskim;
  • dokumenty pisane od prawej do lewej, np. hebrajski;