ประเภทไฟล์ที่รองรับสําหรับการแยกข้อความ

Cloud Search จะจัดทำดัชนีรายการทั้งหมดที่ส่ง ไม่ว่าจะเป็นประเภทไฟล์ใดก็ตาม (MIME หรือ Content-Type) การจัดทำดัชนีจะดำเนินการกับข้อมูลเมตาของไฟล์และเนื้อหาของไฟล์ (หากรองรับ) ต่อไปนี้คือรายการประเภทไฟล์ที่รองรับการจัดทำดัชนีเนื้อหา

Microsoft Word (DOC)
Microsoft Word (DOCX)
Microsoft Excel (XLS)
Microsoft Excel (XLSX)
Microsoft Powerpoint (PPT)
Microsoft Powerpoint (PPTX)
Portable Document Format (PDF) ของ Adobe
Rich Text Format (RTF)
รูปแบบข้อความ (TXT)
Hypertext Markup Language (HTML)
ภาษามาร์กอัปที่ขยายได้ (XML)

นอกจากประเภทไฟล์เหล่านี้แล้ว Cloud Search ยังรองรับการจัดทำดัชนีเนื้อหา ภายในไฟล์ข้อความธรรมดาด้วย

ประเภทไฟล์และการรู้จำอักขระด้วยภาพ (OCR)

นอกจากนี้ Google Cloud Search ยังใช้ OCR เพื่อดึงข้อความจากไฟล์ประเภทต่อไปนี้ด้วย

ประเภทไฟล์	ขนาดสูงสุด
Joint Photographic Experts Group (JPG)	10 MB
รูปแบบการแลกเปลี่ยนกราฟิก (GIF)	10 MB
รูปแบบไฟล์รูปภาพที่ติดแท็ก (TIFF)	10 MB
กราฟิกเวกเตอร์ที่ปรับขนาดได้ (SVG)	10 MB
รูปแบบรูปภาพ PostScript (PS)	10 MB
Portable Document Format (PDF)	30 MB

หมายเหตุ: Cloud Search จะใช้ OCR สำหรับไฟล์ PDF เมื่อจัดทำดัชนีในโหมด ASYNCHRONOUS เท่านั้น และจะใช้ OCR กับ 80 หน้าแรกของไฟล์ PDF หากต้องการมีสิทธิ์ใช้ OCR คุณต้องระบุItemMetadata.mimeType สำหรับรายการเป็น application/pdf และไฟล์ PDF ต้องมี เฉพาะรูปภาพที่สแกน หากไฟล์ PDF มีเนื้อหาข้อความดั้งเดิม Cloud Search จะจัดทำดัชนีเนื้อหาดั้งเดิมและไม่ใช้ OCR กับรูปภาพ

นอกจากนี้ OCR ยังใช้ได้กับไฟล์ที่มีลักษณะต่อไปนี้ด้วย

เอกสารที่เขียนด้วยลายมือ เอกสารที่เป็นอักษรละติน ญี่ปุ่น และเกาหลีจะให้ผลลัพธ์ที่ดีที่สุด
เอกสารที่เขียนในแนวตั้ง เช่น เอกสารภาษาญี่ปุ่น
เอกสารที่เขียนจากขวาไปซ้าย เช่น ภาษาฮีบรู