Obsługiwane typy plików do wyodrębniania tekstu

Cloud Search indeksuje wszystkie wysłane elementy niezależnie od typu pliku (MIME lub content-type). Indeksowanie jest przeprowadzane na podstawie metadanych pliku oraz, jeśli jest to obsługiwane, jego zawartości. Poniżej znajdziesz listę typów plików, w przypadku których indeksowanie treści jest obsługiwane.

Microsoft Word (DOC)
Microsoft Word (DOCX)
Microsoft Excel (XLS)
Microsoft Excel (XLSX)
Microsoft Powerpoint (PPT)
Microsoft Powerpoint (PPTX)
Adobe Portable Document Format (PDF)
Tekst sformatowany (RTF)
Format tekstowy (TXT)
Hypertext Markup Language (HTML)
Extensible Markup Language (XML)

Oprócz tych typów plików Cloud Search obsługuje indeksowanie treści w dowolnym pliku tekstowym.

Typy plików i cechy optycznego rozpoznawania znaków (OCR)

Google Cloud Search używa też OCR do wyodrębniania tekstu z tych typów plików:

Typ pliku	Rozmiar maksymalny
Joint Photographic Experts Group (JPG)	10 MB
Graphic Interchange Format (GIF)	10 MB
Format TIFF	10 MB
Grafika SVG	10 MB
Format obrazu PostScript (PS)	10 MB
Portable Document Format (PDF)	30 MB

OCR działa też w przypadku plików o tych cechach:

dokumenty pisane odręcznie; Najlepsze wyniki uzyskuje się w przypadku dokumentów zapisanych alfabetem łacińskim, japońskim i koreańskim.
dokumenty pisane pionowo, np. w języku japońskim;
dokumenty pisane od prawej do lewej, np. w języku hebrajskim.

Obsługiwane typy plików do wyodrębniania tekstu Zadbaj o dobrą organizację dzięki kolekcji Zapisuj i kategoryzuj treści zgodnie ze swoimi preferencjami.

Typy plików i cechy optycznego rozpoznawania znaków (OCR)

Obsługiwane typy plików do wyodrębniania tekstu