Ta strona została przetłumaczona przez Cloud Translation API.

Obsługiwane typy plików do wyodrębniania tekstu

Cloud Search indeksuje wszystkie wysłane elementy niezależnie od typu pliku (MIME lub typ treści). Indeksowanie jest wykonywane na metadanych pliku i, jeśli jest to obsługiwane, na jego zawartości. Poniżej znajdziesz listę typów plików, dla których jest obsługiwane indeksowanie treści.

Microsoft Word (DOC)
Microsoft Word (DOCX)
Microsoft Excel (XLS)
Microsoft Excel (XLSX)
Microsoft PowerPoint (PPT)
Microsoft PowerPoint (PPTX)
Format Portable Document Format (PDF) firmy Adobe
Format tekstu sformatowanego (RTF)
Format tekstowy (TXT)
Hypertext Markup Language (HTML)
Extensible Markup Language (XML)

Oprócz tych typów plików Cloud Search obsługuje indeksowanie treści w dowolnym pliku tekstowym.

Typy i cechy plików optycznego rozpoznawania znaków (OCR)

Google Cloud Search używa OCR do wyodrębniania tekstu z tych typów plików:

Typ pliku	Rozmiar maksymalny
Joint Photographic Experts Group (JPG)	10 MB
Format wymiany graficznej (GIF)	10 MB
Format pliku obrazu otagowanego (TIFF)	10 MB
Grafika wektorowa SVG	10 MB
Format obrazu PostScript (PS)	10 MB
Portable Document Format (PDF)	30 MB

OCR działa też w przypadku plików o tych cechach:

dokumenty pisane odręcznie. Najlepsze wyniki uzyskuje się w przypadku dokumentów w alfabecie łacińskim, japońskim i koreańskim.
Dokumenty zapisane w orientacji pionowej, np. w języku japońskim.
dokumenty pisane od prawej do lewej, np. w języku hebrajskim.