ประเภทไฟล์ที่รองรับสําหรับการแยกข้อความ

Cloud Search จะจัดทำดัชนีรายการทั้งหมดที่ส่ง โดยไม่คำนึงถึงประเภทไฟล์ (MIME หรือ content) การจัดทำดัชนีจะทำกับข้อมูลข้อมูลเมตาของไฟล์ และเนื้อหาของไฟล์หากมีการรองรับ ต่อไปนี้คือรายการประเภทไฟล์ที่รองรับการจัดทำดัชนีเนื้อหา

  • Microsoft Word (DOC)
  • Microsoft Word (DOCX)
  • Microsoft Excel (XLS)
  • Microsoft Excel (XLSX)
  • Microsoft PowerPoint (PPT)
  • Microsoft PowerPoint (PPTX)
  • รูปแบบเอกสารแบบพกพาของ Adobe (PDF)
  • รูปแบบ Rich Text (RTF)
  • รูปแบบข้อความ (TXT)
  • ภาษามาร์กอัปไฮเปอร์เท็กซ์ (HTML)
  • Extensible Markup Language (XML)

นอกเหนือจากประเภทไฟล์เหล่านี้แล้ว Cloud Search ยังรองรับการจัดทำดัชนีเนื้อหาภายในไฟล์ข้อความธรรมดาทั้งหมด

ประเภทไฟล์และลักษณะของการรู้จักอักขระด้วยภาพ (OCR)

Google Cloud Search ยังใช้ OCR เพื่อดึงข้อความจากประเภทไฟล์ต่อไปนี้ด้วย

ประเภทไฟล์ ขนาดสูงสุด
กลุ่มผู้เชี่ยวชาญการถ่ายภาพร่วม (JPG) 10 MB
รูปแบบการแลกเปลี่ยนกราฟิก (GIF) 10 MB
รูปแบบไฟล์รูปภาพที่ติดแท็ก (TIFF) 10 MB
ภาพกราฟิกเวกเตอร์ที่รองรับการปรับขนาด (Scalable Vector Graphics หรือ SVG) 10 MB
รูปแบบรูปภาพ PostScript (PS) 10 MB
Portable Document Format (PDF) 30 เมกะไบต์

OCR ยังทำงานบนไฟล์ที่มีลักษณะต่อไปนี้

  • เอกสารที่เขียนด้วยลายมือ เอกสารที่เป็นอักษรละติน ญี่ปุ่น และเกาหลี จะให้ผลลัพธ์ที่ดีที่สุด
  • เอกสารที่มีการเขียนแนวตั้ง เช่น เอกสารภาษาญี่ปุ่น
  • เอกสารที่เขียนจากขวาไปซ้าย เช่น ภาษาฮิบรู