ประเภทไฟล์ที่รองรับสําหรับการแยกข้อความ

Cloud Search จะจัดทำดัชนีรายการทั้งหมดที่ส่ง โดยไม่คำนึงถึงประเภทไฟล์ (MIME หรือ content-type) การจัดทําดัชนีจะดําเนินการกับข้อมูลเมตาของไฟล์และเนื้อหาของไฟล์ (หากรองรับ) ต่อไปนี้คือรายการประเภทไฟล์ที่ระบบรองรับการจัดทําดัชนีเนื้อหา

  • Microsoft Word (DOC)
  • Microsoft Word (DOCX)
  • Microsoft Excel (XLS)
  • Microsoft Excel (XLSX)
  • Microsoft Powerpoint (PPT)
  • Microsoft Powerpoint (PPTX)
  • Portable Document Format (PDF) ของ Adobe
  • Rich Text Format (RTF)
  • รูปแบบข้อความ (TXT)
  • ภาษามาร์กอัป Hypertext (HTML)
  • ภาษามาร์กอัปที่ขยายได้ (XML)

นอกจากประเภทไฟล์เหล่านี้แล้ว Cloud Search ยังรองรับการจัดทําดัชนีเนื้อหาภายในไฟล์ข้อความธรรมดา

ประเภทและลักษณะของไฟล์การรู้จำอักขระด้วยภาพ (OCR)

นอกจากนี้ Google Cloud Search ยังใช้ OCR เพื่อดึงข้อความจากไฟล์ประเภทต่อไปนี้ด้วย

ประเภทไฟล์ ขนาดสูงสุด
Joint Photographic Experts Group (JPG) 10 MB
Graphic Interchange Format (GIF) 10 MB
รูปแบบไฟล์รูปภาพที่ติดแท็ก (TIFF) 10 MB
กราฟิกเวกเตอร์ที่ปรับขนาดได้ (SVG) 10 MB
รูปแบบรูปภาพ PostScript (PS) 10 MB
Portable Document Format (PDF) 30 MB

OCR ยังทำงานกับไฟล์ที่มีลักษณะต่อไปนี้ได้ด้วย

  • เอกสารที่เขียนด้วยมือ เอกสารที่เป็นอักษรละติน ญี่ปุ่น และเกาหลีจะให้ผลลัพธ์ที่ดีที่สุด
  • เอกสารที่เขียนในแนวตั้ง เช่น เอกสารภาษาญี่ปุ่น
  • เอกสารที่เขียนจากขวาไปซ้าย เช่น ฮีบรู