Jenis file yang didukung untuk ekstraksi teks

Cloud Search mengindeks semua item yang dikirim, terlepas dari jenis file (MIME atau content-type). Pengindeksan dilakukan pada data metadata file dan, jika didukung, kontennya. Berikut adalah daftar jenis file yang didukung pengindeksan kontennya.

  • Microsoft Word (DOC)
  • Microsoft Word (DOCX)
  • Microsoft Excel (XLS)
  • Microsoft Excel (XLSX)
  • Microsoft Powerpoint (PPT)
  • Microsoft Powerpoint (PPTX)
  • Portable Document Format (PDF) Adobe
  • Rich Text Format (RTF)
  • Format Teks (TXT)
  • Hypertext Markup Language (HTML)
  • Extensible Markup Language (XML)

Selain jenis file ini, Cloud Search mendukung pengindeksan konten dalam file teks biasa apa pun.

Jenis dan karakteristik file Pengenalan Karakter Optik (OCR)

Google Cloud Search juga menggunakan OCR untuk mengekstrak teks dari jenis file berikut:

Jenis file Ukuran maksimum
Joint Photographic Experts Group (JPG) 10 MB
Graphic Interchange Format (GIF) 10 MB
Tagged Image File Format (TIFF) 10 MB
Scalable Vector Graphics (SVG) 10 MB
Format Gambar PostScript (PS) 10 MB
Portable Document Format (PDF) 30 MB

OCR juga berfungsi pada file dengan karakteristik berikut:

  • Dokumen tulisan tangan. Dokumen dalam aksara Latin, Jepang, dan Korea memberikan hasil terbaik.
  • Dokumen yang ditulis secara vertikal, seperti dokumen dalam bahasa Jepang.
  • Dokumen yang ditulis dari kanan ke kiri, seperti bahasa Ibrani.