Obsługiwane typy plików do wyodrębniania tekstu

Cloud Search indeksuje wszystkie wysłane elementy niezależnie od typu pliku (MIME lub content-type). Indeksowanie jest przeprowadzane na podstawie metadanych pliku oraz, jeśli jest to obsługiwane, jego zawartości. Poniżej znajdziesz listę typów plików, w przypadku których indeksowanie treści jest obsługiwane.

  • Microsoft Word (DOC)
  • Microsoft Word (DOCX)
  • Microsoft Excel (XLS)
  • Microsoft Excel (XLSX)
  • Microsoft Powerpoint (PPT)
  • Microsoft Powerpoint (PPTX)
  • Adobe Portable Document Format (PDF)
  • Tekst sformatowany (RTF)
  • Format tekstowy (TXT)
  • Hypertext Markup Language (HTML)
  • Extensible Markup Language (XML)

Oprócz tych typów plików Cloud Search obsługuje indeksowanie treści w dowolnym pliku tekstowym.

Typy plików i cechy optycznego rozpoznawania znaków (OCR)

Google Cloud Search używa też OCR do wyodrębniania tekstu z tych typów plików:

Typ pliku Rozmiar maksymalny
Joint Photographic Experts Group (JPG) 10 MB
Graphic Interchange Format (GIF) 10 MB
Format TIFF 10 MB
Grafika SVG 10 MB
Format obrazu PostScript (PS) 10 MB
Portable Document Format (PDF) 30 MB

OCR działa też w przypadku plików o tych cechach:

  • dokumenty pisane odręcznie, Najlepsze wyniki uzyskuje się w przypadku dokumentów napisanych alfabetem łacińskim, japońskim i koreańskim.
  • dokumenty pisane pionowo, np. w języku japońskim;
  • dokumenty pisane od prawej do lewej, np. w języku hebrajskim.