Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Jenis file yang didukung untuk ekstraksi teks

Cloud Search mengindeks semua item yang dikirim, terlepas dari jenis file (MIME atau content-type). Pengindeksan dilakukan pada data metadata file dan, jika didukung, kontennya. Berikut adalah daftar jenis file yang didukung pengindeksan kontennya.

Microsoft Word (DOC)
Microsoft Word (DOCX)
Microsoft Excel (XLS)
Microsoft Excel (XLSX)
Microsoft Powerpoint (PPT)
Microsoft Powerpoint (PPTX)
Portable Document Format (PDF) Adobe
Rich Text Format (RTF)
Text Format (TXT)
Hypertext Markup Language (HTML)
Extensible Markup Language (XML)

Selain jenis file ini, Cloud Search mendukung pengindeksan konten dalam file teks biasa.

Jenis dan karakteristik file Optical Character Recognition (OCR)

Google Cloud Search juga menggunakan OCR untuk mengekstrak teks dari jenis file berikut:

Jenis file	Ukuran maksimum
Joint Photographic Experts Group (JPG)	10 MB
Graphic Interchange Format (GIF)	10 MB
Tagged Image File Format (TIFF)	10 MB
Scalable Vector Graphics (SVG)	10 MB
PostScript Image Format (PS)	10 MB
Portable Document Format (PDF)	30 MB

OCR juga berfungsi pada file dengan karakteristik berikut:

Dokumen tulisan tangan. Dokumen dalam skrip Latin, Jepang, dan Korea akan memberikan hasil terbaik.
Dokumen yang ditulis secara vertikal, seperti dokumen dalam bahasa Jepang.
Dokumen yang ditulis dari kanan ke kiri, seperti bahasa Ibrani.

Jenis file yang didukung untuk ekstraksi teks Tetap teratur dengan koleksi Simpan dan kategorikan konten berdasarkan preferensi Anda.

Jenis dan karakteristik file Optical Character Recognition (OCR)

Jenis file yang didukung untuk ekstraksi teks